«MANLIO ROSSI-DORIA»
Collana a cura del Centro per la Formazione
in Economia e Politica dello Sviluppo Rurale
e del Dipartimento di Economia e Politica Agraria
dell’Università di Napoli Federico II
6
Nella stessa collana:
1. Qualità e valorizzazione nel mercato dei prodotti agroalimentari tipici, a
cura di F. de Stefano, 2000.
2. L’economia agrobiologica in Campania: un difficile percorso, a cura di F. de
Stefano, G. Cicia e T. del Giudice, 2000.
3. Istituzioni, capitale umano e sviluppo del Mezzogiorno, a cura di M.R.
Carrillo e A. Zazzaro, 2001.
4. Introduzione alla statistica per le applicazioni economiche. Vol. I, Statistica
descrittiva, C. Vitale 2002.
5. Aspetti economici e prospettive dela coltivazione della patata in Italia, a cura
di P. Lombardi, 2002
6. Introduzione alla statistica per le applicazioni economiche. Vol. II,
Probabilità e Statistica, C. Vitale 2002.
In preparazione:
O. W. MAIETTA, L’analisi quantitativa dell’efficienza. Tecniche di base ed
estensioni recenti.
COSIMO VITALE
INTRODUZIONE
ALLA STATISTICA
PER LE APPLICAZIONI
ECONOMICHE
Volume secondo
PROBABILITÀ E STATISTICA
Edizioni Scientifiche Italiane
VITALE Cosimo
Introduzione alla statistica per le applicazioni economiche
vol. II, Probabilità e statistica.
Collana: «Manlio Rossi - Doria, a cura del Centro per la Formazione
in Economia e Politica dello Sviluppo Rurale e del Dipartimento di
Economia e Politica Agraria dell’Università di Napoli Federico II, 4
Napoli: Edizioni Scientifiche Italiane, 2002
pp. X+302; cm 24
ISBN 88-495-0552-3
© 2002 by Edizioni Scientifiche Italiane s.p.a.
80121 Napoli, via Chiatamone 7
00185 Roma, via dei Taurini 27
Internet: www.esispa.com
E-mail: [email protected]
I diritti di traduzione, riproduzione e adattamento totale o parziale e con qualsiasi
mezzo (compresi i microfilm e le copie fotostatiche) sono riservati per tutti i Paesi.
Fotocopie per uso personale del lettore possono essere effettuate nei limiti del 15% di
ciascun volume/fascicolo di periodico dietro pagamento alla SIAE del compenso
previsto dall’art. 68, comma 4 della legge 22 aprile 1941, n. 633 ovvero dell’accordo
stipulato tra SIAE , AIE, SNS e CNA, CONFARTIGIANATO, CASA, CLAAI, CONFCOMMERCIO,
CONFESERCENTI il 18 dicembre 2000.
Associazione Italiana per i Diritti di Riproduzione
Delle Opere dell’ingegno (AIDRO)
Via delle Erbe, 2 – 20121 Milano
Tel. E fax 02-809506; e-mail: [email protected]
INDICE
Capitolo 1
Introduzione al calcolo delle probabilità
1.1 Introduzione
1.2 I concetti primitivi del calcolo delle probabilità
1
4
1.3 I postulati del calcolo delle probabilità
5
Prova
Evento
Probabilità
Primo postulato
Secondo postulato
Terzo postulato
Quarto postulato
Quinto postulato
1.4 La misura della probabilità
1.5 Il teorema di Bayes
20
26
Capitolo 2
Le variabili casuali
2.1 Introduzione
2.2 Variabili casuali discrete e distribuzioni di frequenza
31
34
2.3 Le variabili casuali doppie discrete
38
2.4 Le variabili casuali continue
41
La media aritmetica
La varianza
Il momento di ordine r
L'indice di asimmetria
L'indice di curtosi
Momento misto di ordine 1,1
La covarianza
La correlazione
Momenti condizionati
VIII
Indice
La media
La varianza
La mediana
L'indice di asimmetria
L'indice di curtosi
2.5 Le variabili casuali doppie continue
Momento misto di ordine 1,1
La covarianza
Momenti condizionati
52
Capitolo 3
Variabili casuali di uso comune
3.1 La variabile casuale uniforme
57
3.2
3.3
3.4
3.5
63
70
75
89
La uniforme discreta
La uniforme continua
La variabile casuale binomiale
La variabile casuale di Poisson
La variabile casuale Normale
Alcune v.c. derivate dalla Normale
La v.c. Chi-quadrato
La v.c. T di Student
La v.c. F di Fisher
La v.c. Lognormale
3.6 La variabile casuale Normale doppia
3.7 Alcuni teoremi limite
Alcune leggi di convergenza
Il teorema del limite centrale
La disuguaglianza di Chebychev
100
103
Capitolo 4
Elementi di teoria della stima parametrica
4.1 Introduzione
4.2 La stima parametrica
4.3 Cenni di teoria delle decisioni
113
114
116
4.4 Alcune proprietà ottimali degli stimatori
119
Metodo del mini-max
Metodo dell'area minima
Metodo delle proprietà ottimali
La sufficienza
La non distorsione
L'efficienza
La consistenza
4.5 Alcuni metodi di costruzione delle stime
Metodo dei momenti
131
Indice
IX
Metodo dei minimi quadrati
Metodo di massima verosimiglianza
4.6 La distribuzione di probabilità di alcuni stimatori campionari
139
4.7 Due metodi di inferenza basati sul ricampionamento
148
Distribuzione di probabilità della media campionaria
Distribuzione di probabilità dei percentili campionari
Distribuzione di probabilità della varianza campionaria
Distribuzione di probabilità della correlazione campionaria
La procedura jakknife
La procedura bootstrap
Capitolo 5
Introduzione al test delle ipotesi
5.1 Introduzione
5.2 Il lemma di Neyman Pearson
5.3 Test basato sul rapporto di verosimiglianza.
155
158
Caso di Ho semplice
160
Caso di Ho complessa
164
5.4 Test basato sul rapporto di verosimiglianza.
5.5 Particolari test basati su MLR
165
5.6 Alcuni test non parametrici
192
5.7 Cenni agli intervalli di confidenza
210
Test sulla media
Test sulla differenza fra medie
Test su una proporzione
Test sul confronto di 2 proporzioni
Test su dati appaiati
Test sulla varianza
Confronto fra due varianze
Test sul coefficiente di correlazione
Test di adattamento
Test sull'indipendenza
Test di Wilcoxon
Test dei segni
Intervallo di confidenza per la media
Intervallo di confidenza per una percentuale
Intervallo di confidenza per la varianza
Intervallo di confidenza per la correlazione
Capitolo 6
Il modello di regressione
6.1 Introduzione
6.2 La costruzione del modello di regressione
6.3 Il modello di regressione lineare semplice
217
219
220
X
Indice
6.4 La stima dei parametri del modello
6.5 Proprietà delle stime dei minimi quadrati
6.6 La verifica del modello di regressione
223
237
240
6.7 Modello di regressione non lineare
254
6.8 Modello di regressione lineare in forma matriciale
258
Appendice
263
Tavole statistiche
Bibliografia
Indice analitico
264
293
297
Test sui parametri del modello
Misura della bontà di adattamento
Analisi dei residui
Modelli non lineari nelle esplicative
Modelli non lineari ma linearizzabili
Modelli non linearizzabili
Capitolo 1
INTRODUZIONE AL CALCOLO
DELLE PROBABILITÀ
1.1 Introduzione
Nei capitoli riportati nel Volume I: Statistica Descrittiva, abbiamo illustrato
una serie di strumenti statistici idonei per descrivere fenomeni che si suppongono completamente noti. In altri termini ritenevamo di operare in un universo
certo : l’incertezza è bandita, si possono solo raccogliere e sintetizzare informazioni e derivare le eventuali relazioni esistenti fra più fenomeni. Un universo così fatto viene anche detto deterministico : una causa produce sempre e sicuramente gli stessi effetti, gli stessi risultati. In altri termini è come se si vivesse in un
mondo regolato da un orologio perfetto capace di misurare in modo preciso ed
indiscutibile il trascorrere del tempo.
In questo e nei capitoli che seguono ci occuperemo di un mondo dominato
dall’incertezza : niente è sicuro, tutto è incerto per la presenza costante di elementi aleatori, casuali.
In un universo deterministico la ripetizione di un dato esperimento produce
sempre gli stessi risultati, una implicazione importante di tale concezione è che
le stesse leggi valgono in qualsiasi tempo, anzi è come se si potesse ritornare indietro nel tempo per potere ripetere esattamente l’esperimento ed ottenere
esattamente lo stesso risultato. In tale universo vale la reversibilità temporale si può
viaggiare avanti ed indietro nel tempo a proprio piacimento, quanto meno da
un punto di vista teorico.
In un mondo dominato dall’incertezza, invece, la ripetizione di uno stesso
esperimento non è detto che produca identici risultati e come conseguenza non
è possibile ipotizzare l’irreversibilità temporale dato che in tal caso è impossibile
essere certi di ritrovare lo stesso preciso evento che si è verificato in un tempo
precedente. Il tempo ha una determinata direzione in accordo con il secondo
principio della termodinamica.
D’altro lato, per potere ipotizzare un mondo dominato dall’incertezza, dalla
2
Capitolo 1
casualità, dall’aleatorietà, è necessario spiegare come questa incertezza nasce e
perché non è controllabile quanto meno da un punto di vista teorico. Un
modo per definire il caso è quello di supporre che tutto ciò che esiste evolve, si
modifica nel tempo irreversibile e nella loro evoluzione i risultati generati sono
molto sensibili alle condizioni iniziali, cioè alle condizioni da cui si è partiti per generare tutta la successione di fenomeni effettivamente realizzati. In altri termini, nel
mondo della casualità, i fenomeni sono generati da sistemi dinamici, cioè sistemi di forze che evolvono nel tempo, e questi sistemi sono estremamente sensibili alle condizioni iniziali: piccolissime variazioni nelle condizioni iniziali producono, dopo un tempo più o meno lungo, effetti completamente diversi. E’
questa sensibilità ciò che rende incerti i risultati ottenuti da esperimenti che, in
apparenza, sembrano identici. Questo perché, nella realtà, è praticamente impossibile ricreare esattamente le condizioni iniziali di un sistema e se il sistema è
sensibile alle condizioni di partenza dopo qualche di tempo i risultati che si ottengono dalla catena di reazioni e contro reazioni diventano del tutto imprevedibili. E’ interessante osservare che essendo gli eventi il risultato di sistemi d inamici è impossibile verificare se e quali eventi sono simultanei. Il caso quindi è
frutto della non conoscenza esatta, della ignoranza delle condizioni iniziali. Se fossimo in grado di conoscere, misurare e riprodurre in modo esatto le condizioni
iniziali saremmo in grado di prevedere qualsiasi fenomeno. E’ la nostra limitatezza di umani che non ci permette e non ci permetterà mai di capire e prevedere esattamente i fenomeni. Insomma, galleggiamo in un mondo d’incertezza
solo perché siamo limitati: il caso non è intrinseco ai fenomeni ma è il concentrato della nostra limitatezza, della nostra ignoranza.
Esempio 1
Se si lancia una moneta il risultato può essere testa o croce, ma è impossibile predire con
sicurezza che il lancio di una data moneta in un dato momento dia come risultato, per esempio, testa. Questo è dovuto al fatto che il risultato generato dal sistema di forze che lo governano è molto sensibile alle condizioni di partenza: posizione iniziale della moneta, circonferenza, peso e spessore della moneta, forza impressa alla moneta, forza di gravità operante in quel
punto ed in quel tempo, condizioni climatiche esistenti al momento del lancio, e così via.
Nella figura seguente è schematizzato, a sinistra, il caso di sistema sensibile alle condizioni
iniziali ove la pallina sottoposta ad una spinta scivolerà lungo una qualsiasi direzione della
semisfera per fermarsi in uno qualsiasi dei punti della superficie sottostante. Il punto in cui la
pallina si ferma è estremamente sensibile alle condizioni iniziali (forza impressa, sua direzione
ecc.) e quindi non è possibile prevedere con certezza dove questa va a fermarsi. Nella stessa
figura, a destra, è schematizzato il caso di un sistema indipendente dalle condizioni iniziali: il
punto in cui la pallina si ferma è sempre lo stesso qualsiasi siano le condizioni iniziali.
Introduzione al calcolo delle probabilità
3
Una diversa concezione ( Curnout) del caso è legata alla esistenza di serie di
fenomeni indipendenti:
il caso è generato dall’incontro di serie di fenomeni indipendenti fra di loro.
In questa definizione di caso è implicita l’ipotesi che nell’universo possono
esistere fenomeni che sono fra di loro indipendenti. Questo vuole dire mettere
in discussione la supposizione che l’intero universo sia solidale con se stesso.
Esempio 2
Consideriamo le due serie di fenomeni seguenti:
1) un individuo si avvia all’uscio della propria abitazione
2) una tegola del tetto si muove per effetto delle condizioni meteorologiche
queste due serie si possono considerare indipendenti fra di loro. Supponiamo che mentre
l’individuo si affaccia sulla soglia di casa un colpo di vento gli faccia cadere la tegola in testa
procurandogli una profonda contusione: è successo che le due serie indipendenti si sono incontrate ed hanno prodotto un evento casuale: la ferita del personaggio preso in considerazione. Osserviamo che ripetendo l’esperimento nelle stesse condizioni non è detto di ottenere lo stesso risultato, la testa rotta del malcapitato.
In questo capitolo non ci addentreremo ulteriormente sulle varie interpretazioni ed ipotesi formulate per spiegare il caso. Questo lo prenderemo come
dato: prendiamo atto del fatto che molti, se non tutti, gli atti che dominano la
nostra esistenza e quella dell’universo sono influenzati dal caso ed il nostro scopo
sarà quello di individuare delle leggi capaci di governare i fenomeni casuali. Per
fare questo dobbiamo elaborare regole che ci permettono di misurare la casualità dei diversi fenomeni a questo scopo utilizzeremo una metodologia che
prende il nome di assiomatizzazione. In altri termini, fisseremo dei concetti primitivi,
formuleremo degli assiomi o postulati, mescoleremo queste due entità per deri-
4
Capitolo 1
vare dei teoremi che permetteranno, operativamente, di regolare e dominare il caso.
1.2 I concetti primitivi del calcolo delle probabilità
I concetti primitivi sono tre e sono tali perché
i concetti primitivi non vengono definiti.
Nel calcolo delle probabilità questi concetti sono:
prova, evento, probabilità
Visto che questi concetti sono non definibili, ma lasciati alla comune intuizione,
vediamo di illustrarli con degli esempi e dei sinonimi.
PROVA
Prova è sinonimo di esperimento in cui sono noti i risultati possibili che
possono ottenersi, ma non quello particolare che poi effettivamente si presenterà in una data prova. In questo senso, il risultato che si verificherà a seguito di
un esperimento è, prima di effettuare la prova, incerto. Se l’esperimento viene ripetuto, ammesso che ciò sia tecnicamente possibile, non è certo che si possa
ottenere il risultato precedente. Da questo punto di vista ogni atto del mondo
reale può essere inteso come un esperimento, una prova. Così, è una prova: (a)
il lancio di un dado, (b) l’organizzazione di uno sciopero, (c) una manovra economica del governo, (d) sottoporsi ad un intervento chirurgico, (e) il tempo di
vita di un macchinario, ecc.
EVENTO
L’evento è uno dei possibili risultati che la prova, l’esperimento può generare. Formalmente un evento è una proposizione, cioè una frase compiuta che caratterizza completamente uno dei possibili risultati di una determinata prova.
Gli eventi derivanti da una data prova possono essere finiti, infiniti ed anche
una infinità continua. Così, è un evento: (a) esce la faccia del dado con due
puntini, (b) il fallimento dello sciopero, (c) la riuscita della manovra, (d) la guarigione dell’ammalato, (e) la durata di 3 anni, 2 mesi, 12 giorni, 10 ore, 25 secondi della vita del macchinario.
Nel seguito gli eventi generati da una prova verranno indicati con le prime
lettere maiuscole dell’alfabeto latino ( A, B, C, D, ...) eventualmente accompagnate con un indice ( E1 , E2 , E3 , ...., Ek , ...).
Introduzione al calcolo delle probabilità
5
PROBABILITÀ
La probabilità è un numero compreso fra zero ed uno che viene associato
ad ogni evento generato da una data prova e misura il grado di verificarsi di
quell’evento. In particolare, la probabilità vale zero per eventi che non possono
mai verificarsi e vale uno per quelli che sicuramente si presenteranno in ogni
prova. Di solito, per indicare la probabilità di un evento si usano i simboli: p,
P(A), p i , p( x) .
I tre concetti primitivi del calcolo delle probabilità sopra riportati sono ben
illustrati dalla seguente frase: una prova genera gli eventi con determinate probabilità.
Fissata una data prova questa genera un insieme di eventi che indichiamo
con S. Questo insieme viene chiamato insieme campionario associato a quella prova. D’ora in poi supporremo che gli eventi costituenti S sono fra di loro incompatibili nel senso che non se ne possono presentare simultaneamente due o
più di due.
1.3 I postulati del calcolo delle probabilità
Come in tutte le discipline assiomatizzate, anche nel calcolo delle probabilità
esistono, accanto ai concetti primitivi,
i postulati che sono delle affermazioni che non vengono dimostrate.
Nel calcolo delle probabilità i postulati (o assiomi) sono cinque. Il primo di
questi riguarda gli eventi.
PRIMO POSTULATO
Gli eventi generati da una prova formano una algebra di Boole completa
Vediamo cosa s’intende con questa affermazione. In primo luogo cerchiamo di capire cos’è un’algebra di Boole. Osserviamo, a questo proposito, che gli
eventi sono delle frasi, delle proposizioni e quindi se vogliamo sottoporle a
manipolazioni bisogna utilizzare un’algebra diversa da quella ben nota dei numeri: l’algebra che utilizzeremo è quella di Boole.
L’algebra di Boole, come tutte le algebre, è chiusa rispetto alle operazioni su
di essa definite. Questo vuole dire che quando effettueremo quelle operazioni
Capitolo 1
6
su eventi derivanti da una prova (gli elementi di S ) saremo sicuri di ottenere ancora un evento riferibile alla prova considerata. Inoltre, questo concetto di chiusura si suppone valido anche per particolari successioni infinite di eventi ed è
per questo motivo che si dice che l’algebra è completa. In sintesi, se sottoponiamo gli elementi di S alle operazioni che definiremo qui di seguito i risultati
sono ancora eventi. E’ solo e solamente su questo nuovo insieme di eventi ottenuto a partire da S che vengono calcolate le probabilità.
Nell’algebra di Boole le operazioni fondamentali sono tre e precisamente:
unione, indicata con il simbolo ∪
intersezione, indicata con il simbolo ∩
negazione, indicata con il simbolo ¯
1) L’unione di due eventi
L’unione (o somma logica) tra i due eventi A e B è quell’evento, diciamo D,
che si verifica quando si verifica A, oppure B, oppure A e B contemporaneamente. Formalmente si scrive:
A∪B=D
e si legge: A unito a B, oppure A o B
2) L’intersezione di due eventi
L’intersezione (o prodotto logico) dei due eventi A e B è l’evento, diciamo
E, che si verifica se e solo se si verificano contemporaneamente sia A che B.
Formalmente si scrive:
A∩B=E
e si legge: A intersecato B, oppure A e B
3) La negazione di un evento
La negazioni di un evento A è l’evento, diciamo F, che si verifica quando
non si verifica A. Formalmente si scrive:
A= F
e si legge: A negato, oppure non A.
Le operazioni di unione e di intersezione vengono dette anche binarie perché
per poterle utilizzare sono necessari almeno due eventi, l’operazione di nega-
Introduzione al calcolo delle probabilità
7
zione viene detta unaria dato che per poterla utilizzare è sufficiente un solo
evento. Naturalmente, le operazioni suddette possono essere utilizzate per un
numero qualsiasi di eventi di S.
Tra tutti i possibili eventi generati a partire da S, ne esistono due particolari:
− l’evento impossibile
− l’evento certo.
L’evento impossibile si indica con il simbolo Ø ed è l’evento che non si verifica
mai in ogni prova;
l’evento certo si indica con il simbolo Ω ed è l’evento che si verifica sempre in
ogni prova.
Le operazioni dell’algebra di Boole possono essere schematicamente illustrate con dei grafici che vengono detti diagrammi di Venn. In questi diagrammi l’evento certo viene disegnato con un quadrangolo all’interno del quale vengono delimitati degli insiemi che rappresentano gli eventi. Qui di seguito illustriamo, utilizzando i diagrammi di Venn, le tre operazioni (aree tratteggiate)
sugli eventi che abbiamo definito in precedenza.
L’unione fra i due eventi A e B
A∪B=D
L’intersezione fra i due eventi A e B
A∩B=E
Capitolo 1
8
La negazione di un evento A
Definiamo ora gli eventi incompatibili.
bili.
Dati due eventi A e B se risulta A∩B = Ø, si dice che A e B sono incompati-
Intuitivamente, due eventi sono incompatibili se non possono presentarsi
contemporaneamente e quindi o si presenta l’uno, oppure si presenta l’altro.
Per due eventi incompatibili, da un punto di vista grafico, si ha una situazione
come quella rappresentata nella figura che segue
A∩B=Ø
Come si può notare dalla figura, i due eventi incompatibili non hanno aree in
comune fra di loro, sono completamente disgiunti.
Come tutte le algebre anche quella di Boole ha delle regole che elenchiamo
qui di seguito:
a)
proprietà commutativa
A ∩ B = B ∩ A;
A∪B=B∪A
b)
proprietà di idempotenza
A ∩ A = A;
A∪A=A
c)
proprietà associativa
Introduzione al calcolo delle probabilità
( A ∩ B ) ∩ C = A ∩ ( B ∩ C );
d)
e)
proprietà distributiva
A ∩ ( B ∪C) = (A ∩ B) ∪ ( A ∩C);
9
( A ∪B) ∪C = A ∪( B ∪ C)
A∪ ( B ∩C) = ( A ∪B) ∩ ( A ∪C)
proprietà involutoria
A= A
f)
regole del de Morgan
A ∩ B = = A ∪ Β;
A ∪ B = = A ∩ Β.
Osserviamo che le regole del de Morgan mettono in relazione fra di loro
tutte e tre le operazioni definite nell’algebra di Boole. Inoltre, da queste regole
segue che per definire l’algebra di Boole basta definire solo due di quelle operazioni: l’unione e la negazione, oppure l’intersezione e la negazione. La terza
operazione, infatti, può essere derivata dalle due considerate proprio tramite le
regole del de Morgan.
Esempio 3
Consideriamo una prova che consiste nel lancio di un dado. I possibili eventi che questa
prova può generare sono:
esce la faccia con un puntino = A1
esce la faccia con due puntini = A2
esce la faccia con tre puntini = A3
esce la faccia con quattro puntini = A4
esce la faccia con cinque puntini = A5
esce la faccia con sei puntini = A6
Osserviamo che i sei eventi sono fra di loro incompatibili e che l’insieme campionario in
questo caso è S = {A1 , A2 , A3 , A4 , A5 , A6}.
Da S deriviamo i seguenti eventi:
D = esce una faccia con un numero dispari di puntini = { A1 ∪ A3 ∪A5}
P = esce una faccia con un numero pari di puntini = { A2 ∪A4 ∪A6}
M = esce una faccia con un numero primo di puntini = { A1 ∪A2 ∪A3 ∪A5}
Ω = esce una qualsiasi delle sei facce = { A1 ∪A2 ∪A3 ∪A4 ∪A5 ∪A6}
Avremo così che
Capitolo 1
10
D∪P= Ω ;
D = P;
D ∩ P = Ø;
P ∩ M = A2 ;
P ∩ M = A2 ;
M = {A4 ∪ A6};
D ∩ Ω = D.
Dalle definizioni delle operazioni e delle regole dell’algebra e da quelle relative agli eventi impossibile e certo seguono immediatamente anche le relazioni
seguenti
Ø∪A=A
Ø ∩A=Ø
Ø=Ω
Ω∪A=Ω
Ω∩A=A
Ω =Ø
SECONDO POSTULATO
Dato un evento A qualsiasi appartenente ad una algebra di Boole, la sua
probabilità è unica e non negativa.
In simboli si ha
P(A) ≥ 0.
L’affermazione dell’univocità della probabilità è molto importante: implica che
allo stesso evento non è possibile attribuire più di una probabilità.
TERZO POSTULATO
La probabilità dell’evento certo è sempre pari ad uno:
P( Ω) = 1
Questo postulato serve per definire un limite superiore alla probabilità, inoltre,
combinato con il precedente permette di dimostrare che la probabilità di un
qualsiasi evento A è sempre compresa fra zero ed uno:
0 ≤ P(A) ≤ 1.
QUARTO POSTULATO
Se A e B sono eventi incompatibili la probabilità della loro unione è uguale
alla somma delle probabilità di ciascuno di essi.
Introduzione al calcolo delle probabilità
11
In simboli abbiamo:
se è
A∩B=Ø
P( A ∪ B) = P(A) + P(B)
allora risulta
In altri termini, se si hanno due eventi incompatibili la loro somma logica si
trasforma, tramite l’applicazione della probabilità, nella somma aritmetica.
Quanto detto è illustrato nel diagramma di Venn seguente in cui gli eventi sono
rappresentati dalle figure circolari e le probabilità dalle aree in esse racchiuse.
Come si può notare dalla figura, la probabilità di A ∪ B (misurata in termini di
aree) è data dall’area di A più l’area di B.
Dimostriamo alcuni semplici teoremi che derivano dai quattro postulati fin
qui presentati.
Teorema 1
La probabilità dell’evento impossibile è sempre pari a zero:
Dimostrazione
Sappiamo che è sempre
P(Ø) = 0.
Ω ∩Ø=Ø
Ω ∪Ø=Ω
e quindi l’evento certo e quello impossibile sono incompatibili ed applicando il
terzo ed il quarto postulato si ha
1 = P( Ω ) = P( Ω ∪ Ø) = P( Ω ) + P(Ø) = 1 + P(Ø)
Da cui, tenendo conto del primo e dell’ultimo termine di questa catena di
uguaglianze, si ricava
P(Ø) = 1 - 1 = 0
che dimostra quanto asserito.
Capitolo 1
12
Teorema 2
Dato un evento A qualsiasi si ha sempre
P( A ) = 1 - P(A)
Dimostrazione
A
Osserviamo in primo luogo che i due eventi A e A sono incompatibili
dato che o si verifica A o si verifica la sua negazione A . Inoltre, risulta sempre
A ∪ A = Ω.
Se su quest’ultima identità applichiamo il terzo ed il quarto postulato otteniamo
1 = P(Ω) = P( A ∪ A ) = P(A) + P( A ),
da cui si ricava
P( A ) = 1 - P(A)
che dimostra quanto asserito.
Teorema 3
Se A, B, C sono tre eventi incompatibili a due a due fra di loro:
si ha che
A ∩ B = Ø, A ∩ C = Ø, B ∩ C = Ø,
P( A ∪ B ∪ C) = P( A) + P( B) + P( C).
Dimostrazione
Dalla regola associativa dell’algebra di Boole sappiamo che è sempre
poniamo
A ∪ B ∪ C = (A ∪ B) ∪ C,
D = (A ∪ B)
e facciamo vedere che D e C sono incompatibili. Infatti,
D∩ C = (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C) = Ø ∪ Ø = Ø,
ove si è utilizzata la proprietà distributiva e quella dell’idempotenza. Ma allora
per l’evento D ∪C, così come per l’evento A ∪B, possiamo utilizzare il quarto
postulato ed ottenere
Introduzione al calcolo delle probabilità
13
P( A ∪ B ∪ C) = P( D∪ C) = P( D) + P( C) = P( A ∪ B) + P( C) =
= P( A) + P( B) + P( C)
che dimostra quanto asserito.
Il teorema appena dimostrato può essere generalizzato facilmente al caso di
una successione A1 , A2 , ..., An di eventi a due a due incompatibili, e quindi tali
che Ai ∩ Aj = Ø per ogni i ≠ j, ottenendo
P( A1 ∪A2 ∪ ... ∪An ) = P( A1 ) + P( A2 ) + ... + P( An ).
Teorema 4
Dati i due eventi A e B qualsiasi, e quindi tali che potrebbe anche essere
A∩B ≠ Ø, si ha
P( A ∪B) = P( A) + P( B) - P( A ∩ B).
Dimostrazione
Diamo in primo luogo una dimostrazione euristica basata sui diagrammi di
Venn. Dato che A e B non sono incompatibili si avrà una situazione come
quella descritta dalla figura seguente
e la probabilità di A ∪B sarà data dall’area tratteggiata in figura che è uguale a
tutta l’area in A + tutta l’area in B – l’area della parte comune A ∩ B
questa sottrazione è necessaria altrimenti l’area comune verrebbe contata due
volte. Questo ci fornisce il risultato cercato.
Dimostriamo ora formalmente quanto abbiamo cercato di fare intuitivamente, a tale proposito notiamo che è sempre
Capitolo 1
14
A = A ∩ Ω = A ∩ ( B ∪ B ) = ( A ∩ B) ∪ (A ∩ B )
come è anche illustrato nella figura seguente
Ma i due eventi ( A ∩ B) e (A ∩B ) sono fra di loro incompatibili (come si
vede anche dalla figura) dato che risulta
( A ∩ B) ∩ ( A ∩ B ) = ( A ∩ A) ∩ ( B ∩ B ) = A∩Ø = Ø,
per cui si avrà
P( A) = P[( A ∩ B) ∪ ( A ∩ B )] = P( A ∩ B) + P( A ∩ B ),
da cui si ricava
P( A ∩ B ) = P( A) - P( A ∩ B).
D’altro lato, si può anche scrivere
( A ∪ B) = B ∪ ( A ∩ B )
e gli eventi B ed (A ∩ B ) sono incompatibili per cui, ricordando il risultato
prima ottenuto, risulta
P( A ∪B) = P( B) + P( A ∩ B ) = P( B) + P( A) - P( A∩B)
che dimostra quanto affermato.
Teorema 5
Siano A , B , C tre eventi qualsiasi, si ha
P( A ∪B ∪ C) = P( A) + P( B) + P( C) - P( A ∩B) - P( A ∩ C) - P( B ∩ C) +
+ P( A ∩ B ∩C).
Dimostrazione
Poniamo D = A ∪B per cui, utilizzando ripetutamente il teorema 4 avremo,
P( A ∪B ∪C) = P( D ∪C) = P( D) + P( C) - P( D∩C) =
Introduzione al calcolo delle probabilità
15
= P( A ∪B) + P( C) - P(D∩C) = P(A) + P(B) - P(A ∩ B) + P(C) - P(D ∩ C) =
= P( A) + P( B) + P( C) - P( A ∩ B) - P( D ∩ C).
D’altro lato, abbiamo
P( D ∩ C) = P[( A ∪ B) ∩ C] = P[( A ∩ C) ∪(B ∩ C)] =
= P( A ∩ C) + P( B ∩ C) - P[( A ∩ C) ∩( B ∩ C)] =
= P( A ∩ C) + P( B ∩ C) - P[( A ∩ B) ∩( C ∩ C)] =
= P( A ∩ C) + P( B ∩ C) - P( A ∩ B ∩ C).
Sostituendo questa espressione in quella precedentemente ricavata si ottiene
P( A ∪B ∪C) = P( A) + P( B) + P( C) - P( A ∩ B) [P( A ∩C) + P( B ∩C) - P( A ∩B ∩C)] =
= P( A) + P( B) + P( C) - P( A ∩B) - P( A ∩C) - P( B ∩C) + P( A ∩B ∩C)
che dimostra quanto affermato.
Sul teorema precedente osserviamo che gli addendi che compongono
l’espressione a destra sono sette e precisamente: quelli che coinvolgono un solo
3
evento sono tre: P( A), P( B), P( C), cioè sono  1  ed hanno segno positivo;
 
quelli che coinvolgono due eventi sono ancora tre: P( A ∩ B ), P( A ∩ C ),
3
P( B ∩ C), cioè sono  2  ed hanno segno negativo; quelli che coinvolgono tre
 
3
eventi è uno solo: P(A ∩ B ∩ C), cioè  3  ed ha segno positivo. Questa os 
servazione ci permette di generalizzare il teorema precedente al caso della probabilità dell’unione di k eventi qualsiasi. Ove, in generale, vale la seguente uguaglianza
n!
n  =
k
  k! ( n − k)!
con
n ! = n × (n-1) × (n-2) ×.....× 3 × 2 × 1,
Capitolo 1
16
e si legge “n fattoriale”, cioè il prodotto dei primi n numeri interi.
QUINTO POSTULATO
Per introdurre l’ultimo postulato dobbiamo definire gli eventi condizionati.
Dati i due eventi A e B si dice che B condiziona A, e si scrive (A|B), se il verificarsi di B altera la probabilità del verificarsi di A.
L’evento condizionato (A|B) si legge anche: A dato B. L’evento A è detto evento
condizionato mentre B viene detto condizionante. Osserviamo che affinché A sia
condizionato da B questo secondo evento deve verificarsi prima di A per cui vi
è un ordinamento temporale da B ad A anche se per alcuni è plausibile una relazione di simultaneità fra i due eventi (che però non è osservabile in nessun
modo, come già accennato all’inizio del capitolo) e quindi sarebbe giustificato
considerare simultaneamente i due eventi condizionati ( A|B) e ( B|A).
Da un punto di vista geometrico effettuare il condizionamento B significa
restringere lo spazio da Ω a B e quindi interessarsi a come A si comporta nel
nuovo spazio B. Graficamente si ha una situazione schematizzata nel diagramma che segue
ove l’evento certo si riduce da Ω ad Ω* = B e l’evento condizionato ( A|B) è
dato dal comportamento di A all’interno del nuovo evento certo B.
Possiamo ora formulare il quinto postulato che afferma:
P( A|B) =
con P( B) > 0.
P( A ∩ B )
P( B )
Introduzione al calcolo delle probabilità
17
Osserviamo che:
(a) l’evento condizionante B deve essere diverso dall’evento impossibile altrimenti quel rapporto perderebbe di significato;
(b) se l’evento condizionante B coincide con l’evento certo Ω questo non esercita alcun condizionamento su A:
(c) la divisione per P(B) nel quinto postulato serve per fare in modo che
P(A|B) raggiunga il valore uno se e solo se A = B, cioè se A coincide con il
nuovo evento certo Ω*.
Dalla formulazione del postulato si ha anche
P( A ∩ B) = P( A|B) P( B).
Possiamo ora definire gli eventi indipendenti.
L’evento A è indipendente dall’evento B se e solo se risulta
P( A|B) = P( A)
In altri termini, A è indipendente da B se B non esercita alcun condizionamento, alcuna influenza sulla probabilità del verificarsi di A. Una diversa definizione di eventi indipendenti si ottiene sostituendo il risultato di questa uguaglianza nell’espressione del quinto postulato:
P( A|B) =
P( A ∩ B )
= P( A)
P (B )
da cui si ricava immediatamente che A è indipendente da B se e solo se risulta
P( A ∩ B) = P( A) P( B)
e quindi se e solo se il prodotto logico si trasforma nel prodotto aritmetico. Da questa
ultima espressione segue immediatamente che se A è indipendente da B anche
B è indipendente da A.
Teorema 6
Se A e B sono indipendenti lo sono anche A e B .
Capitolo 1
18
Dimostrazione
Bisogna dimostrare che se è vera questa uguaglianza P(A ∩ B) = P(A) P(B),
allora è vera anche la seguente P( A ∩ B ) = P( A ) P( B ). Da una delle due
formule del de Morgan sappiamo che
A ∪ B = = A ∩ Β.
Applicando la probabilità ad ambo i membri di questa uguaglianza e tenendo
conto dell'indipendenza fra A e B, diviene
(
)
P A ∪ B = P( A ∩ B) = P( A) P( B).
D’altra parte risulta
(
)
P A ∪ B = 1 - P( A ∪ B ) = 1 - P( A ) - P( B ) + P( A ∩ B ).
Uguagliando gli ultimi membri di queste due ultime espressioni otteniamo
P(A) P(B) = 1 - P( A ) - P( B ) + P( A ∩ B ) ,
da cui si ricava
P( A ∩ B ) = P( A ) + P( B ) - 1 + P(A) P(B) =
= P( A ) + [1 - P(B)] - 1 + P(A) P(B) =
= P( A ) - P(B) + P(A) P(B) = P( A ) - P(B)[1 - P(A)] =
= P( A ) - P(B) P( A ) = P( A ) [1- P(B)] = P( A ) P( B )
che dimostra quanto affermato.
Teorema 7
Se A e B sono due eventi indipendenti allora lo saranno anche A e B .
Dimostrazione
Ricordiamo che è sempre
Introduzione al calcolo delle probabilità
19
A ∩ Ω = A ∩(B ∪ B ) = (A ∩ B) ∪ (A ∩ B )
ed i due eventi (A ∩ B) e (A ∩ B ) sono incompatibili per cui risulta
P(A) = P(A ∩ B) + P(A ∩ B ) = P(A) P(B) + P(A ∩ B ),
da cui ricaviamo
P(A ∩ B ) = P(A) - P(A) P(B) = P(A)[1- P(B)] = P(A) P( B )
che dimostra quanto affermato.
Si osservi che dato i k eventi A1 , A2 , ..., Ak se sono indipendenti a due a
due non è detto che lo siano a tre a tre e così via. Questo vuole dire che k
eventi sono indipendenti se lo sono a due a due, a tre a tre, a quattro a quattro,
…, a k a k. Nel prossimo paragrafo mostreremo con un esempio quanto qui
affermato.
Cerchiamo di capire, ora, le relazioni che passano fra eventi incompatibili ed
eventi indipendenti. Se A e B sono incompatibili, per definizione si ha A ∩B = Ø.
Da un punto di vista logico, il fatto che A e B siano incompatibili vuole dire
che il presentarsi di uno di questi eventi esclude il presentarsi dell’altro e quindi
fra i due eventi deve esistere un legame (in questo caso di repulsione) molto
forte per cui
due eventi incompatibili non possono mai essere indipendenti
Questa conclusione può essere ottenuta anche per via analitica nel modo che
segue.
Teorema 8
Se è P(A) > 0 ed A e B sono incompatibili questi due eventi non possono
mai essere indipendenti.
Dimostrazione
Se A e B sono incompatibili risulta
P(A ∩ B) = P(Ø) = 0
e sostituendo nel quinto postulato si ha
Capitolo 1
20
P(A|B) =
0
P( A ∩ B )
=
= 0 < P(A),
P(B)
P( B )
pertanto non può mai essere P(A|B) = P(A) (che è la definizione di indipendenza fra A e B) in conclusione A non può essere indipendente da B.
1.4 La misura della probabilità
Fino ad ora abbiamo studiato, a partire dai concetti primitivi e dai postulati,
alcune delle leggi che regolano la probabilità. D’altro lato, noi siamo anche interessati a fornire una misura della probabilità degli eventi. In questo paragrafo
affronteremo proprio questo argomento.
Consideriamo una prova che genera i k eventi
S = {A1 , A2 , ...., Ak}
e supponiamo che questi k eventi soddisfino le seguenti tre condizioni:
1)
necessarietà:
almeno uno dei k eventi deve necessariamente presentarsi, cioè
A1 ∪A2 ∪ ... ∪Ak = Ω;
2)
incompatibilità:
i k eventi sono incompatibili a due a due:
Ai ∩ Aj = Ø ,
3)
per ogni i ≠ j;
equiprobabilità:
tutti i k eventi hanno la stessa probabilità di verificarsi:
P(Ai ) =p
per i = 1, 2, ...,k.
In questo problema l’incognita è il valore p della probabilità di ciascun
evento. Questo valore, se sono vere le tre condizioni specificate, si calcola
molto semplicemente. Infatti, dalla prima condizione si ha
P(A1 ∪A2 ∪ ... ∪Ak ) = P(Ω) = 1
che utilizzando la seconda diviene
Introduzione al calcolo delle probabilità
21
1 = P(Ω) = P( A1 ∪A2 ∪ ... ∪Ak ) = P(A1 ) + P(A2 ) + ... + P(Ak ).
Se usiamo anche la terza condizione si avrà infine
1 = P( A1 ) + P( A2 ) + ... + P( Ak ) = k p,
da cui si ricava
p=
1
.
k
In conclusione, possiamo affermare che
dati i k eventi Ai , i=1, 2, ...,k, se sono necessari, incompatibili ed equiprobabili risulta
1
P(Ai ) = , i =1, 2, ...,k.
k
Dati i k eventi A1 , A2 , ..., Ak necessari, incompatibili ed equiprobabili, si
vuole determinare la probabilità dell’evento A= A2 ∪ A7 ∪ A11 , risulta immediatamente
P(A2 ∪ A7 ∪ A11 ) = P(A2 ) + P(A7 ) + P(A11 ) =
1
1
1
3
+ + =
k k k k
e come si vede, al numeratore vi è il numero dei casi favorevoli (in questo caso
tre) ed al denominatore il numero dei casi equamente possibili (cioè k ). Questo ci
permette di enunciare la seguente regola pratica:
se una prova genera k eventi necessari, incompatibili ed equiprobabili, la probabilità di A = unione di un sotto insieme dei k eventi , è data da
P(A) =
Numero dei casi favorevoli ad A
Numero di tutti i casi possibili
Esempio 4
Consideriamo come prova il lancio di un dado regolare. I possibili eventi generati da que-
Capitolo 1
22
sta prova, come sappiamo, sono sei per cui risulta k=6. Questi 6 eventi sono necessari dato
che una faccia necessariamente deve presentarsi, sono incompatibili perché se si presenta una
faccia non se ne può presentare un’altra, sono equiprobabili perché abbiamo supposto il dado
1
regolare. Questo vuole dire che la probabilità di presentarsi di ciascuna faccia è . Mentre
6
3 1
P{Esce una faccia con un numero pari di puntini } = = .
6 2
Nell’esempio che segue mostriamo che eventi indipendenti a due a due non
necessariamente lo sono a tre a tre.
Esempio 5
Consideriamo un’urna con 4 palline identiche numerate da 1 a 4. In tal modo, posto
Ai = pallina numerata con i , i = 1, 2, 3, 4
avremo:
Ω = {A1 ∪A2 ∪ A3 ∪A4}
e risulta
1
P(Ai ) = 4 ; i = 1, 2, 3, 4
Consideriamo gli eventi:
A = {A1 ∪A2},
B = {A1 ∪A3},
C = {A1 ∪A4}
per cui risulta:
P( A) = P( A1 ) + P( A2 ) = P( B ) = P( A1 ) + P( A3 ) =
1 1
1
= P( C) = P( A1 ) + P( A4 ) = + =
4 4 2
Inoltre:
A ∩ B = A ∩ C = B ∩ C = A1
e quindi:
P( A ∩ B ) =
1
1 1
=
= P( A) P( B)
4
2 2
Introduzione al calcolo delle probabilità
P(A ∩C) =
1
1 1
=
= P(A) P(C)
4
2 2
P(B ∩C) =
1
1 1
=
= P(B) P(C)
4
2 2
23
ed implica che A, B, C sono indipendenti a due a due. D’altro lato A ∩ B ∩ C = A1 per
cui
P(A ∩ B ∩C) = P(A1) =
mentre
P(A) P(B) P(C) =
1
4
1 11 1 1
= ≠
2 22 8 4
In definitiva, possiamo dire che i tre eventi A, B, C sopra definiti sono indipendenti a due a
due, ma non lo sono a tre a tre.
Analizziamo ora le tre condizioni (necessità, incompatibilità, equiprobabilità)
indispensabili per misurare la probabilità con il metodo sopra descritto. Questo
ci servirà per verificare se questa procedura è abbastanza generale da potere essere utilizzato in una grande classe di casi o si tratta solo di una particolare s ituazione senza rilevante utilità applicativa.
1) necessità: è sempre possibile definire gli eventi generati da una prova, aggiungendone ed eliminandone alcuni, di modo che questi siano un sistema di
eventi necessari;
2) incompatibilità: è sempre possibile definire gli eventi generati da una prova di
modo che questi siano fra di loro incompatibili a due a due;
3) equiprobabilità: questa condizione può essere verificata solo in quelle prove, in
quegli esperimenti, che possono essere programmati e ripetuti (estrazioni da
urne, lancio di dadi regolari, lancio di monete non truccate ecc.).
In altri termini, delle tre condizioni date, la terza è quella più difficile da verificare e giustificare. Per esempio, se la prova consiste nell’estrazione di palline
da urne l’equiprobabilità si può ottenere richiedendo che le palline siano tutte
della stessa dimensione e dello stesso materiale, a meno del colore, ed effettuare l’estrazione al buio. Se invece l’esperimento consiste nel sottoporsi ad un i ntervento chirurgico i possibili eventi (guarigione, invalidità, morte ecc.) quasi mai
sono equiprobabili, né possono essere riformulati in modo da renderli tali. Ma
Capitolo 1
24
c’è di più, richiedere la equiprobabilità nell’ambito della misura della probabilità
vuole dire avere misurato quello che si vuole misurare: si cade in una tautologia,
un circolo vizioso.
Il problema della misura della probabilità viene comunque risolto in modo
pragmatico ricorrendo ad un ulteriore postulato che, pur non facendo parte
del corpus dei postulati del calcolo delle probabilità, è utile per ottenere una
misura empirica della probabilità di un determinato evento. Tale postulato è il
postulato empirico del caso.
Il postulato empirico del caso afferma che in una successione di prove r ipetute molte volte, sempre nelle stesse condizioni, la frequenza relativa fi delle
volte in cui un evento si è effettivamente verificato:
fi =
numero dei casi in cui si è presentato l ' evento
,
numero delle prove effettuate
si avvicina sempre più alla probabilità pi del verificarsi dell’evento stesso al crescere delle prove effettuate. In modo più sintetico possiamo affermare che
all’aumentare del numero delle prove, la frequenza relativa di un evento (si calcola dopo che le prove sono state effettuate) tende alla probabilità dell’evento
stesso (si calcola prima che la prova venga effettuata):
pi ≈ fi
Notare che la frequenza è un concetto a posteriori: si calcola dopo avere effettuato l’esperimento, la probabilità è un concetto a priori: si calcola prima che
l’esperimento sia stato effettivamente fatto.
Esempio 6
Consideriamo un’urna contenente 50 palline tutte delle stesse dimensioni e dello stesso materiale a meno del colore: 30 sono bianche e 20 sono rosse.
Indichiamo con:
Introduzione al calcolo delle probabilità
25
Bi = esce, all’i-esima estrazione, pallina di colore bianco,
Ri = esce, all’i-esima estrazione, pallina di colore rosso.
Supponiamo di volere estrarre due palline dall’urna e di essere interessati a calcolare la probabilità dell’evento seguente:
A = esce una pallina bianca ed una rossa.
Questo evento, in termini formali, può essere scritto nel modo seguente:
A = (B1 ∩ R2 ) ∪ (R1 ∩ B2 ).
Osserviamo che non siamo interessati all’ordine dei colori e che i due eventi (B1 ∩ R2 ) e
(R1 ∩ B2) sono fra di loro incompatibili dato che o si presenta la prima coppia di palline o si
presenta la seconda coppia. Osserviamo ancora che le due palline possono essere estratte in due
modi alternativi:
a) con reimmissione (estrazione bernoulliana): la prima pallina estratta viene reinserita
nell’urna per effettuare la seconda estrazione;
b) senza reimmissione (estrazione in blocco): la prima pallina estratta viene tolta dall’urna
per cui, alla seconda estrazione, questa si modifica.
Analizziamo i due casi separatamente:
a) Con reimmissione:
Questo tipo di estrazione dà luogo ad eventi indipendenti nel senso che le estrazioni successive
sono indipendenti dalle precedenti dato che non modificano la composizione dell’urna. Abbiamo
P(A) = P[(B1 ∩R2 ) ∪ (R1 ∩B2 )] = P(B1 ∩R2 ) + P(R1 ∩B2 ) =
= P(B1) P(R2 ) + P(R1 ) P(B2 ) =
30 20 20 30 12
+
=
= 0.48.
50 50 50 50 25
b) Senza reimmissione:
Questo tipo di estrazione dà luogo ad eventi dipendenti: le estrazioni successive dipendono da
quelle precedenti dato che modificano la composizione dell’urna:
Capitolo 1
26
Avremo:
P(A) = P[(B1 ∩R2 ) ∪ (R1 ∩B2 )] = P(B1 ∩R2 ) + P(R1 ∩ B2 ) =
P(B1) P(R2|B1 ) + P(R1 ) P(B2|R1 ) =
30 20
20 30 120
+
=
≈ 0.4898
50 49
50 49
245
Come si può notare, le probabilità ottenute con i due metodi di estrazione sono differenti. E’
facile verificare che al crescere della numerosità dell’urna le due probabilità tendono ad avvicinarsi.
1.5 Il teorema di Bayes
In questo paragrafo presenteremo un risultato che va sotto il nome di teorema o regola di Bayes e si ottiene come applicazione del quinto postulato.
Questo risultato si riferisce al caso in cui un dato evento, diciamo E, non si presenta mai da solo, ma sempre insieme ad altri eventi, diciamo H1, H2, ..., Hk.
Da un punto di vista pratico, il teorema di Bayes permette di risolvere il seguente problema:
−
−
−
−
sono note le probabilità P(H i ), i = 1, 2, ...,k
sono note le probabilità P(E|Hi ), i = 1, 2, ...,k;
sappiamo che E si è verificato;
vogliamo calcolare le probabilità:
P(H i| E).
Introduzione al calcolo delle probabilità
27
Notare che, se le Hi sono individuate come le possibili cause che possono
generare E, la formula di Bayes permette di calcolare la probabilità che il verificarsi di E sia attribuibile alla causa Hi . Si tratta del complicato ed irrisolto
problema della ricerca delle cause essendo, come detto, funzione delle P(H i ) che
nella realtà sono incognite e lasciate alla determinazione soggettiva del ricercatore: si è verificato incontrovertibilmente un dato fatto, bisogna valutare quale è
stata la causa che più verosimilmente lo ha determinato.
Vediamo ora come il problema sopra illustrato può essere risolto. Supponiamo, senza perdere in generalità, che i k eventi Hi siano necessari ed incompatibili:
H1 ∪H2 ∪ ... ∪Hk = Ω
Hi ∩Hj = Ø,
i ≠j
Possiamo così scrivere le identità seguenti
E = E ∩ Ω = E ∩( H1 ∪H2 ∪ ... ∪Hk ) =
= ( E ∩H1 ) ∪ ( E ∩H2 ) ∪.... ∪ ( E ∩Hk )
Osserviamo che gli eventi ( E ∩ H1 ), ( E ∩H2 ), ...., ( E ∩ Hk ) sono a due
a due incompatibili e quindi possiamo scrivere
P(E) = P( E ∩ H1 ) + P( E ∩ H2 ) + ....+ P( E ∩ Hk ).
Inoltre, per il quinto postulato risulta
Capitolo 1
28
P( E|Hi ) =
da cui ricaviamo
P( H i ∩ E )
P( H i )
P( Hi ∩ E) = P( Hi ) P( E|Hi ),
che sostituita in P( E) diviene
P( E) = P( H1 ) P( E|H1 ) + P( H2 ) P( E|H2 ) + ... + P( Hk ) P( E|Hk ).
Riutilizzando il quinto postulato si ha
P( Hi|E) =
P( H i ∩ E )
P( E )
e sostituendo in quest'ultima espressione le precedenti due otteniamo la regola
di Bayes:
P( H i ∩ E )
P( Hi|E) =
=
P( E )
=
P( H i ) P( E| Hi )
, i=1,2,...,k
P( H1 )P ( E| H1 ) + P( H 2 ) P( E| H2 ) + ... + P( H k ) P( E| Hk )
−
−
−
Le probabilità P( Hi ) vengono dette a priori,
le probabilità P( E|Hi ) vengono dette probative o verosimiglianze,
le probabilità P( Hi|E) vengono dette a posteriori.
Ciò che di solito risulta di difficile determinazione sono proprio le probabilità a priori che spesso vengono lasciate alla soggettività del ricercatore o si basano su esperienze passate.
Esiste un filone molto importante della statistica che viene sviluppato a partire dal teorema di Bayes e prende il nome di Statistica Bayesiana. Nel seguito
non affronteremo una tale problematica.
Esempio 7
Nella produzione di un lotto di dadi si è verificato un guasto per cui nei due terzi dei dadi
prodotti al posto del numero 1 è stato impresso il numero 3. Scelto un dado a caso, senza
Introduzione al calcolo delle probabilità
29
guardare se è buono o difettoso, si effettuano 5 lanci ottenendo il risultato E={F 2 ∩ F3
∩ F3 ∩ F5 ∩ F4} ove Fi indica l’evento: si presenta la faccia con i puntini. Vogliamo calcolare la probabilità che il dado estratto sia difettoso. Indichiamo con
D : il dado estratto è difettoso
D : il dado estratto è buono
si ha immediatamente Ω = D ∪D e quindi bisogna calcolare P(D|E). E’ chiaro che si
tratta di un tipico problema di ricerca della causa che può essere risolto utilizzando la formula
di Bayes ove risulta k=2, H1 = D, H2 = D . Si otterrà quindi
P( D|E) =
P( D )P( E| D )
P( D ) P( E| D ) + P ( D ) P( E| D )
e dato che
P(D) =
2
;
3
P( D ) = 1 -
2 1
= ;
3
3
P( E|D) = P[( F2 ∩ F3 ∩ F3 ∩ F5 ∩ F4 )|D] =
12211
4
= 5;
66666 6
11111
1
−
P( E| D ) = P[( F2 ∩ F3 ∩ F3 ∩ F5 ∩ F4 )|D ] =
= 5;
66666
6
avremo
2 4
8
3 65
P( D|E) =
= .
2 4 1 1
9
+
3 65 3 65
Si osservi che abbiamo supposto note le probabilità a priori P( D) e P( D ) mentre tutto
il resto è stato derivato.
Capitolo 2
LE VARIABILI CASUALI
2.1 Introduzione
Fino ad ora abbiamo trattato degli eventi (possibili risultati di una data prova sintetizzati nell’insieme campionario S) e della probabilità che a ciascuno di
questi eventi rimane associata. In altri termini, definita una data prova, risultano
ad essa associati i k eventi
A1 , A2 , ..., Ak
con le relative probabilità
p1 , p2 , ..., pk.
Abbiamo visto che le probabilità sono dei numeri non negativi mentre gli
eventi sono delle frasi, delle proposizioni e come tali di difficile manipolazione
(si deve ricorrere a operazioni logiche come avviene nell’algebra di Boole).
Scopo di questo capitolo è quello di associare agli eventi dei numeri per avere
elementi che possano essere facilmente analizzati con la normale algebra numerica. Ricordiamo, intanto, che gli elementi di S possono essere sempre manipolati di modo che siano necessari ed incompatibili. Qui di seguito supporremo, per l’appunto, che i k eventi Ai generati da una specifica prova siano e ffettivamente necessari ed incompatibili. Questo vuol dire che è sempre
pi = P(Ai ) ≥ 0, i=1, 2 ,...,k;
k
∑
pi = 1.
i =1
In tal modo i k eventi ottenibili dall’esperimento, assieme alle proprie probabilità, possono essere riportati in una tabella:
Capitolo 2
32
Eventi
A1
A2
...
Ak
Probabilità
p1
p2
...
pk
1
Definiamo ora una funzione univoca X(.) che associa ad ogni evento Ai un
numero della retta reale x i , i=1, 2 ,...,k. In tal modo questa tabella diviene
Valori
x1
x2
...
xk
Probabilità
p1
p2
...
pk
1
Questa tabella rappresenta la variabile casuale (nel seguito v.c.) generata da
quell’esperimento sotto la funzione X(⋅). Naturalmente, non è detto che la relazione fra numeri reali ed eventi debba essere necessariamente biunivoca, ma ad
eventi diversi potrebbe corrispondere lo stesso valore della retta reale come
evidenziato nella figura seguente
S =
ove agli otto eventi generati dalla prova corrispondono, tramite la X(⋅), cinque
Le variabili casuali
33
valori distinti della retta reale. Più precisamente, la relativa v.c. associabile alla
precedente figura avrebbe la struttura qui di seguito riportata
xi
x1
x2
x3
x4
x5
pi
p4
p2+p5
p1
p3+p6
p7+p8
1
Le variabili casuali, così come abbiamo fatto per le distribuzioni di frequenza, le indicheremo con una delle ultime lettere maiuscole dell’alfabeto latino (X, Y, Z, U, V, ...). Poiché la legge di associazione fra eventi e numeri è
soggettiva, vuol dire che dagli eventi generati da una data prova si possono derivare più variabili casuali mutando la legge di associazione X(⋅). In pratica, dato
un certo esperimento, la legge di associazione X(⋅) sarà scelta fra le infinite possibili in base alle esigenze concrete che si vogliono studiare.
Esempio 1
Consideriamo come prova il lancio di un dado regolare. In questo caso i possibili eventi generati dalla prova sono sei che indichiamo con A1 , A2 , ..., A6 , ove si è posto Ai = Esce la
faccia con i puntini. Sappiamo che è P(Ai ) = pi = 1/6 e quindi possiamo scrivere
Ai
A1
A2
A3
A4
A5
A6
pi
1
6
1
6
1
6
1
6
1
6
1
6
Se scegliamo come funzione di insieme la seguente
X(Ai ) = i , i=1,2,...,6
otteniamo la v.c. ad essa associata:
xi
pi
1
1
6
2
1
6
3
1
6
4
1
6
5
1
6
6
1
6
Capitolo 2
34
Supponiamo ora che il lancio del dado sia da mettere in relazione ad una scommessa: se si
verificano gli eventi A1 oppure A2 oppure A3 vinco una lira, mentre se escono le facce A4 oppure A5 oppure A6 perdo una lira. In questo caso la funzione di insieme che ci interessa ha la
struttura seguente
1
X(Ai ) = 
−
 1
se i = 1,2 ,3
se i = 4,5 ,6
e la relativa v.c. associata allo stesso esperimento avrà la struttura seguente:
xi
-1
3
6
pi
1
3
6
2.2 Variabili casuali discrete e distribuzioni di frequenza
Come abbiamo fatto per le distribuzioni di frequenza, anche le variabili casuali si distinguono in discrete e continue, semplici e multiple ed in particolare
doppie.
Una v.c. X è discreta se i valori che assume sono in numero discreto finito
o numerabile.
Una variabile casuale discreta è nota se lo è la sua distribuzione di probabilità,
ovvero se sono noti i singoli valori assunti con le rispettive probabilità. La d istribuzione di probabilità di una v.c. discreta finita assume una struttura come
quella qui di seguito riportata
xi
x1
x2
...
xk
pi
p1
p2
...
pk
1
Le variabili casuali
35
Affinché X sia una v.c. discreta è necessario e sufficiente che le probabilità
pi , i =1, 2 ,...,k, soddisfino le due condizioni già menzionate:
pi ≥ 0, i =1 ,2 ,...,k ;
k
∑
pi = 1,
i =1
indipendentemente dalla prova che la ha generata. Notare che i valori x i sono
assunti dalla X, non con certezza, ma con probabilità pi , da cui il nome di variabile casuale o variabile aleatoria.
Mostriamo ora che le v.c. sono, nel senso che illustreremo fra poco, una
generalizzazione delle distribuzioni di frequenza. A tale proposito consideriamo
il seguente esempio.
Esempio 2
Supponiamo di aver rilevato il numero x i dei componenti di 105 famiglie ottenendo la distribuzione di frequenza che segue ove, accanto alle frequenze assolute, abbiamo riportato anche
quelle relative
xi
ni
fi
1
10
10
105
2
20
20
105
3
40
40
105
4
20
20
105
6
10
10
105
7
5
5
105
Se estraiamo a caso una famiglia delle 105 considerate otteniamo uno dei seguenti eventi A1,
A2, A3, A4, A6, A7, ove l’indice indica il numero dei componenti della famiglia estratta, così
per esempio risulta
A3 = Viene estratta una famiglia con tre componenti
Osserviamo che
P(A1 ) =
10
20
40
20
10
; P(A2 ) =
; P(A3 ) =
; P(A4 ) =
; P(A6 ) =
;
105
105
105
105
105
P(A7 ) =
5
105
ove queste probabilità sono state calcolate utilizzando la regola del rapporto fra casi favorevoli
Capitolo 2
36
e casi possibili. In tal modo, i possibili risultati dell'esperimento sono riassunti nella tabella che
segue
xi
pi
A1
10
105
A2
20
105
A3
A4
A6
A7
40
105
20
105
10
105
5
105
Consideriamo ora la seguente regola che associa a ciascuno degli eventi Ai un numero reale
X(Ai ) = i
in altri termini X(Ai ) è la funzione che associa all'evento Ai il numero dei componenti della
famiglia cui l’evento si riferisce. Otteniamo la v.c. discreta
xi
pi
1
10
105
2
20
105
3
40
105
4
20
105
6
10
105
7
5
105
Come si può notare, questa variabile casuale ha la stessa struttura della distribuzione di frequenza anche se la sua interpretazione e significato logico è del tutto differente: la distribuzione
di frequenza è una fotografia della realtà, la variabile casuale è legata alla aleatorietà
dell’estrazione di un elemento dalla popolazione delle famiglie.
Da quanto abbiamo illustrato nell’esempio precedente segue che ad ogni distribuzione di frequenza e ad ogni popolazione rappresentabile con una distribuzione di frequenza è possibile associare una variabile casuale che ha la stessa
struttura della distribuzione di frequenza data. In genere, però, non vale il viceversa dato che possono esistere fenomeni ipotetici che non possono essere descritti con distribuzioni di frequenza, ma possono essere analizzati ricorrendo a
variabili casuali. Un esempio tipico è costituito dai possibili redditi che un individuo
avrebbe potuto guadagnare in un dato anno. Si tratta di un fenomeno ipotetico che
può essere analizzato con una qualche variabile casuale, ma non può essere descritto da una distribuzione di frequenza. Tutto questo implica che la classe
delle variabili casuali include quella delle distribuzioni di frequenza:
le variabili casuali sono una generalizzazione delle
distribuzioni di frequenza.
Le variabili casuali
37
Una implicazione di questo risultato è che tutte le analisi, siano esse grafiche
o analitiche, che abbiamo fatto per le distribuzioni di frequenza valgono per le
variabili casuali. In particolare, avremo i momenti seguenti.
LA MEDIA ARITMETICA
Data la v.c. X la sua media aritmetica è data da
µ= E(X) =
k
∑
x i pi.
i =1
LA VARIANZA
Data la v.c. X la sua varianza è data da
σ 2 = E[(X - µ) 2] =
k
∑
( x i − µ ) 2 pi
.
i =1
IL MOMENTO DI ORDINE r
Data la v.c. X il suo momento di ordine r è dato da
µr = E(X r) =
k
∑x ir pi
i =1
L’INDICE DI ASIMMETRIA
Data la v.c. X il suo indice di asimmetria è dato da
 X − µ 3 
1
γ1 =E 
 = 3
 σ   σ
k
∑
i =1
( x i − µ ) 3 pi
L’INDICE DI CURTOSI
Data la v.c. X il suo indice di curtosi è dato da
 X − µ 4 
1 k
4
γ2 = E 
  - 3 = 4 ∑ ( x i − µ ) pi - 3
σ


σ
i =1


Le proprietà e l’interpretazione di questi indici, e di quelli analoghi qui non
Capitolo 2
38
riportati per brevità, sono le stesse di quelle viste nel volume primo per le d istribuzioni di frequenza.
Esempio 3
Calcoliamo media, mediana e varianza delle due variabili casuali riportate nell’esempio 1
Per la prima variabile casuale otteniamo
µ=
1
21
(1 + 2 + 3 + 4 + 5 + 6 ) =
= 3.5
6
6
Me =
σ 2 = µ2 - µ 2 =
=
3+4
= 3.5
2
1 2
( 1 + 2 2 + 3 3 + 4 2 + 5 2 + 6 2 ) - (3.5)2 =
6
91
35
- 12.25 =
= 2.91667.
6
12
Per la seconda variabile casuale otteniamo
µ=
1
( −1 + 1 ) = 0
2
Me =
σ 2 = µ2 =
−1 + 1
=0
2
1
[(-1) 2 + 1 2] = 1.
2
Osserviamo che questa seconda variabile casuale è standardizzata.
2.3 Le variabili casuali doppie discrete
Oltre alle variabili casuali semplici discrete esistono quelle multiple discrete
ed in particolare le doppie. In questo paragrafo ci occuperemo brevemente di
queste ultime. Una variabile casuale doppia discreta di solito viene indicata con
(X, Y) e descritta in una tabella a doppia entrata come quella riportata qui di
seguito all’interno delle cui caselle sono poste le probabilità che ciascuna coppia
Le variabili casuali
39
(x i , yj ) assume:
Y\ X
y1
y2
y3
...
yh
x1
x2
x3
...
xk
p11
p12
p13
...
p1h
p1.
p21
p22
p23
...
p2h
p2.
p31
p32
p33
...
p3h
p3.
...
...
...
...
...
...
pk1
pk2
pk3
...
pkh
pk.
In particolare
p.1
p.2
p.3
...
p.h
1
pi j = P{X=x i ∩Y=yj }.
In altri termini, pi j è la probabilità che la variabile casuale X assuma il valore
x i e contemporaneamente la variabile casuale Y assuma il valore yj . Di solito,
per semplificare la scrittura si usa la simbologia seguente
pi j = P{X=x i , Y=yj }
Osserviamo ancora che è
pi . =
h
∑
j =1
pi j ;
k
p. j = ∑ pi j ;
i =1
1=
k
∑
i =1
h
pi . = ∑ p. j =
j =1
k
h
∑ ∑
i =1 j =1
pi j
Così come abbiamo fatto per le distribuzioni di frequenza, anche dalle variabili casuali doppie è possibile derivare le due variabili casuali marginali X ed
Y, le h variabili casuali condizionate (X|Y=yj ) le cui rispettive probabilità condizionate sono date da
pi j
i=1, 2, …, k
pi|j = P{X=x i|Y=yj} =
p. j
e le k variabili casuali condizionate (Y|X=x i ) le cui rispettive probabilità condizionate sono date da
pi j
pj|i = P{Y=yj|X=x i } =
j=1, 2, …, h ;
pi .
inoltre, X ed Y sono indipendenti se e solo se risulta
40
Capitolo 2
pi j = pi . p. j per ogni i , j.
Ovviamente le elaborazioni che abbiamo fatto sulle distribuzioni di frequenza doppie possono essere effettuate sulle variabili casuali doppie. In particolare, un ruolo rilevante assumono i momenti di seguito riportati.
MOMENTO MISTO DI ORDINE 1,1
Data la v.c. doppia (X, Y) questo momento è dato da
µ11 = µx y = E( X Y) =
k
h
∑ ∑
x i yj pi j .
i =1 j =1
LA COVARIANZA
Data la v.c. doppia (X, Y) questo momento è dato da
σxy = cov(X , Y) = E[(X-µx )(Y-µy )] =
k
h
∑ ∑
i =1 j =1
( x i − µ x )( y j − µ y ) pi j
che misura gli eventuali legami lineari esistenti fra X ed Y.
LA CORRELAZIONE
Data la v.c. doppia (X , Y) questo momento è dato da
ρx y = corr(X,Y) =
σ xy
σx σ y
che misura l’intensità degli eventuali legami lineari esistenti fra le due variabili casuali X ed Y.
MOMENTI CONDIZIONATI
Dalle v.c. doppie del tipo (X, Y) è possibile derivare le h variabili casuali
semplici condizionate del tipo (X|Y=yj ). Naturalmente, di queste h variabili
casuali semplici possiamo calcolare i relativi momenti ottenendo gli h momenti
condizionati. In particolare, la media di (X|Y=yj ), di solito indicata con µx|y
j
oppure con EX(X|Y=yj ), è definita come
Le variabili casuali
µx|y = Ex(X|Y=yj ) =
j
k
∑
i =1
41
k
∑
x i pi|j =
i =1
xi
pij
p. j
, per j=1,...,h
E’ facile verificare che
la media della marginale è pari alla media delle medie condizionate,
in simboli:
Ey [Ex ( X|Y=yj ) ] = E( X).
Infatti,
Ey [Ex ( X|Y=yj )] =
k
∑
j =1
h
∑
µx|y p.j =
j
j =1
xi
h
∑
i =1
pi j =
k
∑
j =1
h
k
∑ ∑
j =1 i =1
pij
p =
p. j . j
xi
h
k
∑ ∑
j =1 i =1
x i pi j =
x i pi . = µx = E( X)
Considerazioni del tutto simili valgono per µy|x = Ex ( Y|X=x i ).
i
Un risultato analogo può essere esteso alla varianza, infatti si può verificare
(lo abbiamo già dimostrato per le distribuzioni di frequenza doppia) che:
la varianza della marginale è pari alla media delle varianze condizionate più
la varianza delle medie condizionate,
in simboli
Var( X) = Ey [Var( X|Y=yj ) ] + Var y [E( X|Y=yj ) ].
2.4 Le variabili casuali continue
Accanto a prove che generano un numero finito o numerabile di eventi ed a
cui, fissata una funzione di insieme X(Ai ), rimane associata una v.c. discreta X,
ne esistono altre che generano una infinità continua di eventi a cui potrà essere
associata una v.c che assumerà tutti i valori di un intervallo (che potrà coincidere
42
Capitolo 2
eventualmente con l’intera retta reale). In tal modo si otterrà una v.c. X continua. Per le v.c. continue non sarà possibile utilizzare una formalizzazione identica a quella delle discrete dato che in questo caso i valori assunti non sono elencabili e quindi non sarà possibile attribuire a ciascuno di questi una probabilità
corrispondente, ma sarà necessario definire una funzione che ne descriva il
meccanismo probabilistico. Per chiarire meglio la situazione del caso continuo
illustriamola con un esempio.
Esempio 4
Consideriamo un sistema di assi cartesiani ed un cerchio di raggio unitario e centro
l’origine degli assi. Supponiamo che su questo cerchio sia fissata una freccia perfettamente equilibrata con perno il centro del sistema e punta che ruota intorno alla circonferenza del cerchio.
Se si fa ruotare la freccia intorno al perno la sua punta, dopo un certo numero di giri, si fermerà in qualche punto della circonferenza. Se si ripete l’esperimento non è certo che la freccia si
fermi nello stesso punto. Questo vuol dire che l’esperimento genera una infinità continua di eventi casuali identificabili con tutti i punti della circonferenza che, per quanto detto, è pari
all’intervallo [0; 2ð]. La figura che segue illustra il meccanismo dell’esperimento sopra descritto.
Si vuole calcolare la probabilità che la freccia si fermi esattamente nel punto A della circonferenza e la v.c. definita dalla funzione
X(A) = lunghezza dell’arco (0, A)
La variabile casuale così descritta è una variabile casuale continua dato che può assumere
valori in tutti i punti dell’intervallo [0; 2π ].
Vediamo ora se, per calcolare P(A) valgono le condizioni di necessità, incompatibilità ed
equiprobabilità per cui risulta possibile utilizzare, per calcolare le probabilità, la formula: casi
favorevoli diviso casi possibili.
Gli eventi generati da questa prova sono sicuramente necessari dato che la freccia deve fermarsi in un qualche punto della circonferenza; sono sicuramente incompatibili dato che se si
Le variabili casuali
43
ferma in un punto non si può fermare contemporaneamente in un altro; sono equiprobabili
perché abbiamo supposto il meccanismo perfettamente equilibrato perciò la probabilità che la
freccia si fermi in un punto deve essere uguale alla probabilità che si fermi in un altro punto
qualsiasi della circonferenza. Ma allora dovrebbe essere
P(A) =
N . Casi favorevoli
N . Casi equalmente possibili
D’altro lato, abbiamo visto che vi è un solo caso favorevole ed una infinità continua di casi
egualmente possibili e quel rapporto non risulta definibile matematicamente per questa strada.
In altri termini, questo esempio ci mostra che nel caso di esperimenti che
generano una infinità continua di eventi la probabilità non può essere misurata
con gli strumenti fino ad ora considerati. Per superare questo inconveniente utilizziamo una strategia simile a quella adottata per costruire gli istogrammi delle
distribuzioni di frequenza il cui carattere era riportato per classi di modalità. In
quel contesto un problema simile veniva risolto rappresentando le frequenze
come aree di rettangoli. In questo caso, invece di calcolare la probabilità in un
punto, calcoliamo la probabilità in un intorno di ampiezza infinitesimo di quel
punto [x o ; xo + d x ), definiamo una funzione che descriva il meccanismo probabilistico dell’esperimento e
misuriamo la probabilità come l’area sottesa dalla funzione in un intorno infinitesimo del punto prescelto.
La funzione, che indichiamo di solito con f(x), che descrive il meccanismo
probabilistico dell’esperimento viene chiamata funzione di densità della variabile
casuale continua X, nel seguito indicheremo on f.d. Nella figura che segue è
schematizzato quanto detto.
Capitolo 2
44
La relazione fra funzione di densità (nel seguito f.d.) e probabilità è, in questo modo, data da
P{x o ≤ X < xo + d x} = f(x o ) dx
ove dx è l’incremento infinitesimo e quindi la base infinitesima del rettangolo
che ha per altezza f(x o ). Si osservi che la f.d. f(x) non coincide con la probabilità, ma è proporzionale a questa. In generale, la probabilità che la v.c. X assuma
un valore nell’intervallo (c ; d) sarà data da
d
P{c < X < d} =
∫
f(x) d x.
c
Osserviamo che, essendo d x un incremento infinitesimo sarà sempre positivo questo vuol dire che, affinché sia soddisfatto il postulato del calcolo delle
probabilità P(A) ≥ 0, deve necessariamente essere
f(x) ≥ 0
per ogni x reale.
Inoltre, anche se la v.c. X assume valori nell’intervallo (a; b), la sua funzione di
densità può essere definita su tutto l’asse reale con la restrizione che sia f(x) = 0
esternamente all’intervallo (a ; b), come è stato schematizzato nell’ultima figura.
D’altro lato, l’evento (-∞ < X < ∞) è un evento certo e perché sia soddisfatto il
postulato P(Ω) = 1, deve necessariamente essere
+∞
∫
f(x)d x = 1.
−∞
Da quanto abbiamo fino ad ora detto segue ancora che
P{c ≤ X ≤ c} = P{X=c} = f(c) × 0 = 0,
questo vuol dire che è sempre
P{c < X < d} = P{c ≤ X < d}= P{c < X ≤ d} = P{c ≤ X ≤ d}
In altri termini, quando si ha a che fare con v.c. continue, l’aggiunta o la eliminazione di un punto o di un insieme numerabile di punti non cambia la relativa probabilità.
Le variabili casuali
45
In definitiva, possiamo affermare che tutte le funzioni f(x) per cui sono valide le due condizioni seguenti
f(x) ≥ 0 per ogni x reale;
+∞
∫
f(x) d x = 1
−∞
sono f.d. che possono descrivere il meccanismo probabilistico di qualche v.c.
continua. Queste due condizioni sono le equivalenti di quelle viste nel caso d iscreto:
pi ≥ 0 per i=1, 2, ...k;
k
∑
i =1
pi = 1.
Esempio 5
Ritorniamo alla prova dell'esempio 4 e deriviamo la f.d. della variabile casuale lì definita.
Abbiamo visto che tale v.c. assumerà valori con probabilità diversa da zero nell’intervallo
[0; 2π ]. Inoltre, dato che abbiamo supposto il meccanismo perfettamente equilibrato vuol dire
che ad intervallini contenuti in [0; 2π ] di uguale lunghezza devono corrispondere uguali probabilità che la freccia vi si fermi. In altri termini, la probabilità deve essere proporzionale alla
lunghezza dell’intervallo preso in considerazione. Tutto questo è vero se e solo se la f.d. è costante in ogni punto di [0; 2π ], cioè:
f(x) dx = P{x o ≤ X ≤ x o +d x} = c dx
qualsiasi sia xo in [0; 2 π ]. La costante c , che è l’unica incognita del problema, può essere
ricavata tenendo conto che necessariamente deve essere
1 = P{0 ≤ X ≤ 2π } = c[ 2π - 0] = c 2π
da cui si deriva c =
1
che ci permette di ottenere la relativa f.d.
2π
 1

f(x) =  2π
0

per x ∈ [0 ,2π ]
altrove
Il grafico di questa funzione è riportato nella figura che segue:
46
Capitolo 2
Come si può capire dall’esempio appena fatto, la forma della funzione di
densità dipende dalle caratteristiche specifiche dell’esperimento. La forma di
tale funzione può cambiare sostanzialmente cambiando, anche in modo marginale, queste caratteristiche come è evidenziato nell’esempio che segue.
Esempio 6
Supponiamo che il meccanismo probabilistico descritto nell’esempio 4 non sia perfettamente
π 3π 
equilibrato, ma sia noto che la probabilità che la freccia si fermi nell’intervallo  ,  sia
2 2 
doppia rispetto alla probabilità che si fermi altrove e quindi, indicando con p tale probabilità
deve essere
1
2p + p = 1 ⇒
p=
3
e si ottiene una situazione come quella descritta dalla figura che segue
1
 π
Questo vuol dire che la probabilità che la freccia si fermi nell’intervallo 0 ,  è paria a ,
6
 2
Le variabili casuali
47
π 3π  2
 2 , 2  è 3 e la probabilità che si fermi
la probabilità che si fermi nell’intervallo
1
 3π

nell’intervallo  , 2π  è ancora
. In tal modo, la forma della funzione di densità è
2

6
quella qui di seguito rappresentata
Risulta così molto facile derivare c1 e c2 dato che deve essere
π
1
c1 = ;
2
6
da cui si ricava immediatamente
c1 =
2
 3π π 
−  c2 =

3
 2 2
1
;
3π
c2 =
2
3π
In definitiva, la funzione di densità di questa v.c. può essere scritta nel modo seguente
1
 3π
 2

f(x) = 
 3π
0

per
per
π
e
2
π
3π
≤x ≤
2
2
0≤x <
per
3π
< x ≤ 2π
2
altrove
Una volta nota la f.d. è possibile calcolare tutte le probabilità di interesse della v.c. data. Per
π π π 
esempio, se si vuole la probabilità che la freccia si fermi nell’intervallo  , +  si ottiene
 4 2 4
facilmente
Capitolo 2
48
π π
π
P ≤ X ≤ + =
4
2 4

π/ 2
=
∫
π/ 4
1
dx +
3π
3π/ 4
∫
π/ 2
f(x) dx =
π/4
3π / 4
∫
π/2
∫
3π/ 4
f(x) dx +
π/ 4
2
dx =
3π
∫
f(x) dx =
π/ 2
1 1  1 1  1
 − + − = .
 6 12   2 3  4
Per le v.c., siano esse discrete o continue, è sempre possibile derivare la relativa funzione di ripartizione:
la funzione di ripartizione di una qualsiasi v.c. X è data da
F(x) = P{X ≤ x}
Nel caso discreto questa funzione si costruisce nel modo già visto per le distribuzioni di frequenza. Se invece X è una v.c. continua risulta
x
F(x) =
∫
f(v) dv
−∞
Nella figura che segue è schematizzato il modo di costruzione di una funzione di ripartizione di una v.c. X definita nell’intervallo (a; b).
Come si intuisce dalla definizione e come si ricava dal grafico sopra riportato, risulta sempre
a
F(a) =
∫
−∞
b
f(x) dx = 0;
F(b) =
∫
−∞
f(x) dx = 1
Le variabili casuali
inoltre è
49
F(x 1 ) ≤ F(x 2 ) per tutti gli x1 < x2.
Questo vuol dire che la funzione di ripartizione è sempre non decrescente ed ha
un andamento simile a quello schematizzato nella figura che segue.
Abbiamo visto che nota la f.d. f(x) di una variabile casuale continua X è
sempre possibile derivare la sua funzione di ripartizione, ma è facile verificare
anche il viceversa nel senso che nota F(x), se F(x) è continua e derivabile allora
è sempre possibile ottenere f(x) tramite la seguente:
d
F(x).
dx
f(x) =
Come abbiamo visto per le v.c. discrete, anche per quelle continue è possibile definire degli indici sintetici che mettono in rilievo caratteristiche rilevanti
del fenomeno. In particolare, si dice che la v.c. X continua ammette momento di
ordine r, che indichiamo con µr , se esiste finito il seguente integrale:
∞
∫| x
r
| f(x) dx
−∞
e risulta
µr =
∞
∫x
r
f(x) dx
−∞
Si può dimostrare che se esiste questo momento, allora esistono tutti quelli
di ordine inferiore ad r, ma non è vero il viceversa.
Qui di seguito riportiamo alcuni dei momenti più utilizzati.
Capitolo 2
50
LA MEDIA
Data la v.c. X continua la sua media, se esiste, è data da
∞
µ = E(X) =
∫
x f(x) dx.
−∞
LA VARIANZA
Data la v.c. X continua la sua varianza, se esiste, è data da
2
2
σ = E[(X-µ) ) =
∞
∫
( x − µ ) 2 f(x) dx.
−∞
La varianza esiste se esiste µ2 e risulta sempre
σ 2 = µ2 - µ 2.
LA MEDIANA
Data la v.c. X continua la sua mediana Me esiste sempre ed è data dalla soluzione della seguente equazione
Me
∫
f(x) dx= F(Me ) = 0.5.
−∞
L’INDICE DI ASIMMETRIA
Data la v.c. X continua l’indice di asimmetria esiste se esiste il suo momento
terzo µ3 ed è dato da
γ1 =
∞
3
x−µ
∫  σ  f ( x ) dx
−∞
cioè dal momento terzo della standardizzata di X.
L’INDICE DI CURTOSI
Data la v.c. X l’indice di curtosi esiste se esiste il suo momento quarto µ4 ed
è dato da
Le variabili casuali
γ2 =
∞
51
4
x−µ
∫  σ  f ( x ) dx - 3
−∞
cioè dal momento quarto della standardizzata di X meno tre.
Esempio 7
Consideriamo la v.c. definita nell’esempio 6, abbiamo visto che la sua funzione di densità è
data da
1
 3π
 2

f(x) = 
 3π
0

per
per
π
e
2
π
3π
≤x ≤
2
2
0≤x <
per
3π
< x ≤ 2π
2
altrove
Da questa segue immediatamente che la funzione di ripartizione è data da
0

x
 3π
 2x 1

−
F(x) = 
 3π 6
 x +1
 3π 3

 1
il cui grafico è qui di seguito riportato
per
per
per
per
per
x <0
π
2
π
3π
≤x<
2
2
3π
≤ x < 2π
2
0≤x <
x ≤ 2π
Capitolo 2
52
La media e la mediana di questa v.c. sono date rispettivamente da
∞
µ=
∫
π /2
f(x) dx =
−∞
∫
0
=
x
dx +
3π
3 π /2
∫
π /2
2x
dx +
3π
2π
∫
3 π /2
x
dx =
3π
π
18π 2π 16π 9π
+
−
+
−
=π
24
24
24
24
24
2 Me 1
− = 0.5
3π
6
⇒
4Me - π = 3 π
⇒
Me = π
come era da attendersi dato che questa variabile casuale è simmetrica.
2.5 Le variabili casuali doppie continue
Nel caso di v.c. doppie continue queste non possono più essere descritte
con una tabella a doppia entrata, ma è necessario, come abbiamo visto nel caso
semplice, ricorrere ad una f.d. doppia f(x ,y) che ne descriva il meccanismo
probabilistico. Generalizzando quanto abbiamo detto nel paragrafo precedente, affinché una generica funzione f(x ,y) possa essere considerata una funzione
di densità relativa a una qualche v.c. doppia continua (X ,Y) è necessario e sufficiente che soddisfi le seguenti due condizioni
f(x ,y) ≥ 0
per ogni (x , y) del piano reale
∞
∞
∫ ∫
−∞ −∞
f(x ,y ) dx dy =1
Le variabili casuali
53
Nota la funzione di densità doppia f(x , y) di una data v.c. (X , Y) è possibile
calcolare la probabilità di determinati eventi tenendo conto che fra f.d. e probabilità esiste la seguente relazione
P{x ≤ X < x+dx , y ≤ Y < y+dy} =
f(x ,y) dx dy
Altezza
Area di base
In tal modo la probabilità non è altro che il volume sottostante la funzione di
densità doppia.
Come abbiamo visto nel caso discreto, dalla v.c. doppia (X , Y) con f.d.
f(x ,y) è possibile derivare le v.c. semplici marginali e condizionate. Più precisamente:
la funzione di densità della marginale X è data da
∞
∫
fx (x) =
f(x , y) dy ;
−∞
la funzione di densità della marginale Y è data da
∞
∫
f y (y) =
−∞
f(x ,y) dx ;
Capitolo 2
54
la funzione di densità della condizionata ( X| Y=y) è, per fy ( y ) > 0, data da
fx|y ( x ) =
f ( x, y )
;
f y( y )
la funzione di densità della condizionata ( Y| X=x) è, per fx ( x ) > 0, data da
fy|x ( y ) =
f ( x, y )
.
fx ( x )
Osserviamo, infine, che le due v.c. X ed Y sono
indipendenti se e solo se risulta
f(x , y) = fx (x) fy ( y) per ogni (x ,y ) del piano reale
che generalizza al caso continuo quanto detto per il caso discreto.
Qui di seguito generalizziamo al caso continuo alcuni indici definiti per le
doppie discrete.
MOMENTO MISTO DI ORDINE 1,1
Data la v.c. doppia continua (X,Y), il suo momento di ordine 1,1 è dato da
µx y = E(X Y) =
∞
∞
∫ ∫x
y f(x , y) dx dy .
−∞ −∞
LA COVARIANZA
Data la v.c. doppia continua (X , Y) la covarianza fra X ed Y è data da
σxy = E[(X-µx )(Y-µy )] =
∞
∞
∫ ∫
−∞ −∞
( x − µ x )( y − µ y ) f(x,y) dx dy =
= µx y - µx µy
Le variabili casuali
55
che permette di derivare la correlazione identicamente a quanto fatto nel caso d iscreto.
Mostriamo ora che, data la v.c. doppia ( X , Y) con f.d. f( x ,y) se X ed Y
sono indipendenti allora sono anche incorrelate cioè risulta σx y =0. Infatti, utilizzando nella formula della covarianza la condizione di indipendenza si ottiene
σx y =
∞
∞
∫ ∫
−∞ −∞
∞
∫
−∞
∞
∞
∫ ∫
−∞ −∞
( x − µ x )( y − µ y ) f(x ,y) dx dy =
( x − µ x )( y − µ y ) fx(x) fy( y) dx dy =
( x − µx ) fx ( x) dx
∞
∫
−∞
( y − µ y ) fy ( y) dy = 0
per una delle proprietà della media aritmetica.
MOMENTI CONDIZIONATI
Le considerazioni fatte nel caso di variabili casuali doppie discrete continuano a valere in quello continuo. In particolare, la media condizionata di (X|Y=y)
è data da
∞
µx|y = Ex (X|Y=y) =
∫
x fx|y ( x) dx
−∞
e valgono ancora i risultati già illustrati che legano la media e la varianza delle
marginali con quelle delle condizionate
E( X) = Ey [ Ex (X|Y=yj )]
Var( X) = Ey [Var( X|Y=yj )] + Var y [ E(X|Y=yj )].
Capitolo 3
VARIABILI CASUALI DI USO COMUNE
In questo capitolo presenteremo e commenteremo brevemente alcune delle
più semplici ed utilizzate variabili casuali, siano esse discrete o continue.
3.1 La variabile casuale uniforme
La v.c. uniforme è una delle più semplici fra quelle di norma utilizzate. Spesso il suo uso, piuttosto che per analizzare fenomeni reali, è di tipo teorico: simulazione di estrazioni casuali, derivazione di altre variabili casuali più complesse, dimostrazioni di particolari risultati teorici, ecc. Di variabili casuali uniformi
ne esistono due versioni: l’uniforme discreta e l’uniforme continua. Entrambe verranno qui di seguito illustrate nell’ordine dato.
LA V.C. UNIFORME DISCRETA
La v.c. uniforme discreta assume i valori x i , i=1, 2, ...,N, tutti con la stessa
1
probabilità
.
N
La più semplice v.c. uniforme discreta ha la seguente distribuzione di probabilità:
xi
1
2
...
N
pi
1/N
1/N
...
1/N
1
Capitolo 3
58
Il relativo diagramma di probabilità ha una forma come quella illustrata nella
figura seguente
Come si può notare, l’unico parametro che caratterizza questa v.c. è dato
dal numero N. A motivo del suo diagramma di probabilità, questa v.c. viene
anche chiamata rettangolare. Per indicare che una v.c. X si distribuisce come
quella uniforme con parametro N si usa, indifferentemente, una delle due notazioni seguenti:
X~ U(N);
X~ R(N)
Se si tiene conto che, per costruzione, questa v.c. è simmetrica intorno alla
media segue immediatamente che media e mediana coincidono ed il comune valore è dato da
µ = Me =
N +1
2
cioè il centro dell’intervallo su cui la uniforme è definita. Utilizzando il risultato
notevole
1 2 + 2 2+ 3 2 + ... + N 2 =
è possibile derivare il momento secondo
µ2=
=
N
∑
i =1
x i2 pi =
N ( N + 1)( 2 N +1 )
6
N
∑
i =1
i2
1
=
N
1 2
( N + 1 )( 2 N + 1 )
( 1 + 2 2 + 3 2 + ... + N 2 ) =
.
N
6
Questi primi due momenti ci permettono di derivare la varianza:
Variabili casuali di uso comune
σ 2 = µ2 - µ 2 =
59
2
( N + 1 )( 2 N + 1 )  N + 1 
- 
 =
6
 2 
2( N + 1 )( 2 N + 1 ) − 3( N + 1) 2
=
12
=
( N + 1)[ 2( 2 N + 1 ) − 3( N + 1)] ( N + 1 )( N −1 )
N 2 −1
=
=
.
12
12
12
Nota la media e la varianza di una v.c. è facile calcolare il relativo coefficiente di
variazione
N −1
µ
( N 2 − 1 ) /12
σ
N −1
6
CV =
=
=
=
.
µ
µ
3( N + 1 )
|µ |
Utilizzando il risultato notevole
1 3 + 2 3 + 3 3 + ... + N 3 =
N 2 ( N +1)2
4
è possibile derivare il momento terzo
µ3 =
N
∑
i =1
x 3i pi =
N
∑
i3
i =1
1
1 3
N ( N +1 ) 2
=
( 1 + 2 3 + 3 3 + ... + N 3 ) =
N
N
4
Ricordando che la v.c. uniforme è simmetrica segue immediatamente che il
suo indice di asimmetria è sempre nullo: γ1 = 0
Utilizzando il seguente risultato notevole
1 4 + 2 4 + 3 4 + ... + N 4 =
è possibile calcolare il momento quarto
µ4 =
N
∑
i =1
x 4i pi =
=
N
∑
i =1
i4
N ( N + 1 )( 2 N + 1 )( 3 N 2 + 3 N − 1)
30
1
1 4
=
( 1 + 2 4 + 3 4 + ... + N 4 ) =
N
N
( N + 1 )( 2 N + 1 )( 3 N 2 + 3 N − 1 )
30
Capitolo 3
60
I primi quattro momenti così individuati permettono di calcolare il relativo
indice di curtosi che dopo alcuni passaggi algebrici risulta:
γ2 =
µ4 − 4 µ3 µ + 6 µ2 µ 2 − 3 µ 4
σ4
6( N 2 +1)
−3=−
5( N 2 −1 )
questo vuole dire che la v.c. uniforme discreta sopra presentata è sempre platicurtica qualsiasi sia N; inoltre, per N sufficientemente grande si ha γ2 ≈ - 6/5.
Dalla v.c. X è possibile derivare una nuova v.c., diciamo Y, ottenuta come
trasformazione lineare di X:
Y=a+bX
ove (a,b) sono costanti reali. Nel caso in cui X è l’uniforme discreta sopra riportata, la v.c. Y avrà la seguente struttura
yi
a+b1
a+b2
...
a+bN
pi
1/N
1/N
...
1/N
1
che è ancora uniforme. Nel caso in cui sia
a=-
µ
=σ
3( N + 1 )
1
; b= =
N −1
σ
12
N 2 −1
si ha la v.c. uniforme standardizzata.
Esempio 1
La v.c.
xi
pi
1
1
6
2
1
6
3
1
6
4
1
6
5
1
6
6
1
6
connessa al lancio di una dado regolare, definita nell’esempio 1 del capitolo precedente, è una
particolare v.c. uniforme discreta con N = 6. Utilizzando le formule sopra riportate si ottiene
Variabili casuali di uso comune
61
facilmente:
µ = Me = 3.5; µ2 =
da cui si ottiene
σ2 =
35
;
12
CV =
91
; µ3 = 73.5 ;
6
5
;
21
γ1 = 0;
µ4 = 350
γ2 = -
222
.
175
L’UNIFORME CONTINUA
La v.c. uniforme continua è definita nell’intervallo (a, b) e possiede la seguente
funzione di densità
 1
per a ≤ x ≤ b

f(x) =  b − a

altrove
 0
Il tipico grafico di questa funzione di densità è riportato nella figura s eguente:
Il momento r-esimo di questa v.c. si ottiene abbastanza facilmente
b
µr = ∫ x
a
b
r
1
1  x r +1 
b r +1 − a r +1
dx =
=
; r =1, 2, ...


b −a
b − a  r + 1  a ( b − a )( r +1 )
Capitolo 3
62
da cui si derivano come casi particolari i primi quattro momenti:
µ1 =
b2 − a2
b+a
=
;
2( b − a )
2
µ3 =
µ2 =
b3 − a 3
;
3( b − a )
b4 − a4
b5 − a 5
; µ4 =
4( b − a )
5( b − a )
da cui si può ottenere
σ2=
b3 − a 3
(b + a)2
( b − a )2
−
=
;
3( b − a )
4
12
CV =
γ1 = 0;
γ2 =
b −a
;
3( b + a )
µ 4 − 4 µ3 µ + 3 µ22
σ
4
-6=-
6
5
Il segno negativo di γ2 sta a significare che l’uniforme continua è platicurtica,
come d’altronde intuitivamente ci si aspettava. Si osservi che l’indice di curtosi
della uniforme continua è indipendente dai due parametri (a, b) che la caratterizzano.
Nella figura seguente riportiamo la funzione di ripartizione F(x) della v. c.
uniforme continua definita nell'intervallo (a, b).
Variabili casuali di uso comune
63
Esempio 2
La v.c. continua X con funzione di densità
 1
 2π
f(x) = 

 0
x ∈ [ 0, 2π ]
per
altrove
riportata nell’esempio 5 del capitolo precedente, è una particolare v.c. uniforme continua con
a=0 e b= 2π . Il momento r-esimo di questa variabile casuale diviene semplicemente
µr =
( 2π ) r +1
2π ( r + 1)
da cui si ottiene immediatamente
µ = Me = π ;
σ2=
1
π2
; CV =
3
3
3.2 La variabile casuale binomiale
Prima di introdurre la v.c. binomiale riportiamo brevemente la v.c. di Bernoulli. Si tratta della più semplice v.c. che si possa definire. Più precisamente
la v.c. X si dice di Bernoulli e si indica con X~B(1; p), se assume solo due valori: 0 con probabilità (1-p) ed 1 con probabilità p, ove è 0 ≤ p ≤ 1,
o equivalentemente
xi
0
1
pi
1-p
p
1
in cui, di solito, si pone 1-p = q . Questa v.c. può essere generata estraendo una
unità di rilevazione da una popolazione le cui unità assumono solo due caratteri
contrapposti tipo: Si - No, Giusto - Sbagliato, Buono - Difettoso, ecc. Una tale
situazione si può schematizzare con una urna contenente palline di due colori,
per esempio bianche (in proporzione pari a p) e rosse (in proporzione pari a q ),
Capitolo 3
64
associando il numero uno se la pallina estratta è bianca ed il numero zero se è
rossa.
Esempio 3
La prova consiste nel lancio di una moneta ben equilibrata. Gli eventi possibili sono in tal
caso T=Esce la faccia testa, C=Esce la faccia croce. Ciascuno dei due eventi ha probabilità p =1/2 di verificarsi. Se associamo a T il numero zero ed a C il numero uno otteniamo la v.c. seguente
xi
0
1
pi
1/2
1/2
1
che è una particolare Bernoulli con p=1/2.
Della v.c. di Bernoulli è immediato calcolare il momento di ordine r, infatti
si ottiene
µr =
k
∑
i =1
x ri pi = 0r (1-p)+ 1r p = p.
Da cui si ricava in particolare
µ = p;
γ1 =
σ 2 = p q;
1−2 p
;
p( 1 − p )
γ2 =
1
- 6.
p( 1 − p )
La v.c. Binomiale può essere definita come una generalizzazione della v.c. di
Bernoulli ottenuta quando dall’urna estraiamo, con reimmissione, N palline e siamo interessati al numero delle palline bianche che possono presentarsi. Per dire
che X è distribuita come una Binomiale si scrive
X~B(N; p).
Dato che le N estrazioni vengono effettuate con reimmissione, gli N eventi che
si ottengono sono fra di loro indipendenti e ciascuno di questi genera una v.c.
di Bernoulli indipendente, questo vuole dire che risulta
X ~B(N; p) =
N
∑
i =1
Bi (1; p)
Variabili casuali di uso comune
65
ove Bi ( 1; p) è la v.c. di Bernoulli associata alla i-esima estrazione. In altri termini, la v.c. Binomiale è data dalla somma di N v.c. di Bernoulli indipendenti.
Vediamo ora di costruire la distribuzione di probabilità di questa v.c. utilizzando lo schema dell’estrazione da una urna. Supponiamo, pertanto, di avere la
solita urna contenute solo palline Bianche e Rosse con la proporzione delle
bianche pari a p mentre quella delle rosse pari a q = 1 - p.
Indichiamo con
Bi = esce pallina bianca alla i-esima estrazione
R i = esce pallina rossa alla i-esima estrazione.
E’ ovvio che risulta P(B i ) = p , P(Ri )=q=1-p per i =1, 2, ...,N. Si vuole calcolare la probabilità del seguente evento:
Ax = in N estrazioni (effettuate con rimessa) la pallina bianca si presenta x volte.
Per calcolare la probabilità di Ax uno degli eventi che si deve presentare è il seguente
B1 ∩ B2 ∩ ... ∩ B x ∩ R x+1 ∩ R x+2 ∩ ... ∩ R N
e per quello che abbiamo fino ad ora detto (gli eventi sono indipendenti, P(Bi )
= p , P(Ri ) =1- p= q ) risulta immediatamente
P(B1 ∩ B2 ∩ ... ∩ Bx ∩ Rx+1 ∩ Rx+2 ∩ ... ∩ RN ) = p x q N - x
Ma perché A x sia verificata, le x palline bianche possono presentarsi non necessariamente ai primi x posti: i modi, incompatibili, in cui le x palline bianche
possono presentarsi, sono tanti quante sono le combinazioni di N oggetti ad x
N
N
ad x cioè  x  , inoltre ciascuno di questi  x  eventi ha la stessa probabilità
 
 
p x q N - x di verificarsi. Questo vuole dire che la probabilità cercata è data da
 p x q N - x.
P(Ax ) =  N

x
Capitolo 3
66
Se ora si considera la funzione di insieme f(Ax ) = x si ottiene la v.c. Binomiale.
Si osservi che i valori che può assumere x sono 0 (nessuna delle N palline
estratte è bianca), 1 (una sola delle N palline estratte è bianca), 2 (due delle N
palline estratte sono bianche), ..., N (tutte le N palline estratte sono bianche). In
definitiva possiamo affermare che
la v.c. X è una Binomiale, con parametri N e p, se assume valori x con probabilità
 p x q N-x ;
px = P(X=x) =  N

x
x = 0, 1, ...,N
La distribuzione di questa v.c. discreta può essere scritta sotto la solita forma di
tabella
px
x
0
N  p
0
 
1
 N  p 1 qN-1
1
 
 N  p 2 qN-2
2
 
2
...
...
N
N  p
N 
 
0
N
qN-0
qN-N
1
Il nome di binomiale per questa v.c. deriva dal fatto che le quantità
N 
x
 
non sono altro che i coefficienti della potenza N-esima di un binomio. Infatti, è
noto che
 a 0 b N-0 +
(a+b) N =  N

0
N  a
1
 
1
 a N bN-N.
b N-1 + ... +  N

N 
Questo risultato ci permette di dimostrare immediatamente che la somma di
tutte le probabilità della v.c. Binomiale (come deve essere per qualsiasi v.c. d i -
Variabili casuali di uso comune
67
screta) è pari ad uno. Infatti, risulta
N
N 
px =   p0 qN-0 +
0
x=0
∑
 N  1 N-1
  p q + ... +
1
 N  N N-N
  p q
=
N 
= (p+q)N = 1N = 1.
È abbastanza facile verificare che le probabilità px di B(N; p) possono essere calcolate recursivamente tramite le seguenti:
po = (1-p)N
px = px-1
p
N − x +1
⋅
N
1− p
per x=1,2, ..., N
Nella figura che segue riportiamo la distribuzione di probabilità della binomiale con
N=15 e tre diversi valori di p.
Da questo grafico si evince che la binomiale è simmetrica intorno alla propria media
se p=q=1/2, è asimmetrica positiva per p < 1/2, è asimmetrica negativa per p>1/2,
in ogni caso assume una forma di tipo campanulare.
La derivazione dei primi due momenti di una v.c. Binomiale è piuttosto semplice. Infatti, dato che
Capitolo 3
68
B(N;p) =
N
∑
i =1
Bi (1; p),
risulta:
N

µ = E[ B(N; p)] = E ∑ Bi ( 1; p )  =
 i =1

N
∑
i =1
E[Bi (1; p) ] =
N
∑ p=Np
i =1
2
 N

µ2 = E[ B (N; p)] = E  ∑ B i ( 1; p )  =
 i =1

2

N
= E ∑ Bi2 ( 1, p ) + ∑∑ Bi ( 1, p ) B j (1, p )  = Np + N(N-1) p2.

 i =1
i≠ j
Ove si è tenuto conto del fatto che Bi e Bj sono v.c. indipendenti per cui
E(Bi Bj ) = E(Bi ) E(Bj ).
La derivazione formale degli altri momenti è più complessa a meno di utilizzare strumenti di analisi più sofisticati e non affrontati in questo contesto. Si può,
comunque, dimostrare che è
µ3 = N(N-1)(N-2) p 3 + 3N(N-1) p 2 + Np
µ4 = N(N-1)(N-2)(N-3) p 4 + 6N(N-1)(N-2) p 3 + 7N(N-1) p 2 + Np
La conoscenza dei primi due momenti permette di derivare la varianza della
Binomiale:
σ 2 = [Np + N(N-1) p 2] - (N p) 2 = N p(1-p) = N p q
La Binomiale possiede, fra le altre, la seguente proprietà riproduttiva : se
Xi~B(Ni ; p) , i =1, 2, ..., k , sono k v.c. Binomiali indipendenti allora la v.c.
X=
k
∑
i =1
Xi
Variabili casuali di uso comune
69
è ancora una Binomiale e precisamente X~B(N1+N2+...+Nk ; p).
Esercizio 4
E’ noto che, in media, il 10% delle piante immesse in un nuovo impianto muore. Al livello
di almeno il 99% si vuole determinare il numero delle piante da immettere nel vivaio in modo
che almeno 6 di queste sopravvivano.
Posto:
p = 0.9 (successo di sopravvivenza di una pianta)
1-p = 0.1 (insuccesso di sopravvivenza di una pianta)
X = N° piante che sopravvivono
e dato che la sopravvivenza o meno di una pianta si può considerare indipendente da quella
delle altre, ha senso supporre che la loro distribuzione sia di tipo Binomiale. In tal modo si
ha:
P{X ≥ 6} =
N
∑  Nx ( 0.9 )
x
(0.1) N-x ≥ 0.99
x =6
e bisogna calcolare N. Dato che
(a) per N = 9 si ha:
P(X ≥ 6) =
9
∑  9x ( 0.9 )
x
(0.1) 9-x = 0.99167;
x
(0.1) 8-x = 0.96191
x =6
(b) per N = 8 si ha:
P(X ≥ 6) =
8
∑  8x ( 0.9 )
x =6
segue che deve essere N = 9 perché, con probabilità maggiore o eguale a 0.99, almeno 6 piante sopravvivano.
Dalla v.c. Binomiale è possibile derivare, con una particolare trasformazione
lineare, una nuova variabile casuale che ha una certa importanza sia da un punto
di vista teorico che applicato.
Se X è una v.c. Binomiale B(N; p), la v. c. Binomiale frequenza è data da
Capitolo 3
70
F=
X
1 N
=
∑ Bi (1; p)
N
N i =1
Come si può notare, la v.c. Binomiale frequenza non è altro che la media di N
v.c. di Bernoulli ottenute come estrazione con reimmissione delle N palline.
Scritta in forma di tabella, la distribuzione di probabilità di questa variabile casuale è la seguente
px
x
0
1/N
2/N
.……
1
N  p
0
 
0
q N-0
 N  p 1 q N-1
1
 
 N  p 2 q N-2
2
 
.………………
N  p
N 
 
N
q N-N
1
Di questa variabile casuale, nota media e varianza della Binomiale da cui è stata
derivata, è facile ricavare
X  1
µ = E(F) = E   =
Np = p
N  N
1
pq
X 
var( F) = var   = 2 N p q =
N  N
N
e come si può osservare, la media di F è proprio pari a p, mentre la variabilità
di F decresce al crescere di N.
3.3 La variabile casuale di Poisson
La v.c. di Poisson è una variabile casuale discreta e viene, di solito, utilizzata
per analizzare fenomeni connessi a conteggi: numero di automobili che passano
Variabili casuali di uso comune
71
in un dato punto in un determinato intervallo di tempo, numero di clienti serviti in una fila in un determinato tempo ecc. Essa può essere definita sia direttamente, sia come un particolare limite della v.c. Binomiale. Qui di seguito, per
ragioni di semplicità, seguiremo questa seconda strada. A tale proposito consideriamo la generica v.c. X ~B(N; p) e facciamo tendere N all’infinito e p a zero
di modo che sia sempre Np = λ . Questo vuole dire che il tasso d’incremento
di N e quello di decremento di p devono essere uguali. Dato che questa v.c.
deriva dalla Binomiale con p → 0 vuol dire che la probabilità che si verifichi
l’evento che la definisce è molto piccolo. Per tale motivo la v.c. di Poisson viene anche detta degli eventi rari .
La distribuzione di probabilità della Binomiale può essere scritta come segue:
N!
N!
1 x x
 N  px qN-x =
px (1-p)N-x =
N p (1-p)N-x =
x
x
 
x ! ( N − x )!
( N − x )! N x !
N!
1
 Np 
( Np ) x 1 −
=

x x!
N 

( N − x )! N
N
 Np 
1 −

N 

−x
Dato che per ottenere la Poisson deve essere Np= λ possiamo anche scrivere:
N!
1 x  λ
 N  px qN-x =
λ 1 − 
x
x
 
( N − x )! N x !
 N
N
 λ
1 − 
 N
−x
e ricordando i seguenti limiti notevoli
N!
 λ
= 1; lim 1 − 
N → ∞ ( N − x )! N x
N →∞
N
lim
N
= e − λ;
 λ
lim 1 − 
N → ∞
N
si ottiene
1 x −λ
N x N-x
λ e ,
lim  x  p q =
N →∞  
x!
p →0
N p =λ
In definitiva possiamo affermare che
x = 0, 1, 2, ...
−x
=1
Capitolo 3
72
la v.c. X si distribuisce come una Poisson con parametro λ , e si scrive X~P( λ ),
se la sua distribuzione di probabilità è data da
P(X=x) =
1 x −λ
λ e ,
x!
x = 0, 1, 2, ...
Nella figura seguente è riportata la distribuzione di probabilità della Poisson per
tre diversi valori del parametro λ da cui si rileva che si tratta di una v.c. che è
sempre asimmetrica positiva.
Scritta sotto forma di tabella la v.c. di Poisson diviene
x
px
−λ
0
e
1
λ e −λ
2
λ2 e − λ / 2
3
λ3 e −λ / 6
...
.……….
x
...
λx e −λ / x !
.……….
1
Le probabilità di una P(λ) soddisfano le seguenti relazioni
po = e − λ
Variabili casuali di uso comune
λ
x
px = px-1
73
per x =1, 2, .....
per cui risulta facile calcolarle recursivamente.
Dato che la Poisson si può ottenere come un particolare limite della Binomiale e dato che una Binomiale è sempre esprimibile come la somma di N
Bernoulli indipendenti, segue che ogni v.c. di Poisson può essere espressa come
una particolare somma di infinite Bernoulli indipendenti:
P( λ ) = lim B(N; p) = lim
N →∞
p →0
N p =λ
N
∑ Bi ( 1; p )
N →∞ i =1
p →0
N p =λ
Anche la v.c. di Poisson soddisfa una forma di riproducibilità, infatti, si può
dimostrare che se Xi ~Pi ( λi ), i=1,2,...,k, indipendenti allora si ha
k
X=
∑
i =1
Xi = P( λ1 + λ 2 + ... + λ k ),
cioè la somma di k Poisson indipendenti è ancora una Poisson.
I primi due momenti della v.c. di Poisson possono essere calcolati a partire
da quelli della v.c. Binomiale. Infatti, si ha
µ = E[P( λ )] = lim E[B(N; p)] = lim Np = λ
N→∞
p→ 0
Np =λ
N→∞
p→ 0
Np =λ
µ2 = E[P 2( λ )] = lim E[B2(N;p)] = lim [Np + N(N-1)p2] =
N→∞
p→ 0
Np =λ
N→∞
p→ 0
Np =λ
= lim [ λ + λ2 − λp ] = λ + λ2 .
N→∞
p→ 0
Np =λ
Il calcolo degli altri momenti può essere ottenuto utilizzando strumenti non riportati in questo manuale, in quel contesto si può dimostrare che è
µ3 = λ3 + 3λ2 + λ
Capitolo 3
74
µ4 = λ4 + 6λ3 + 7λ2 + λ.
Questi momenti permettono di derivare la varianza
2
σ 2 = µ2 - µ = λ + λ2 - λ2 = λ;
l’indice di asimmetria della Poisson
γ1 =
1
λ
che mostra come la v.c. di Poisson è sempre asimmetrica positiva e l’indice di
curtosi
1
γ2 =
λ
che mostra come la v.c. di Poisson è sempre leptocurtica.
Come si può notare media e varianza coincidono in una v.c. di Poisson.
Questo vuol dire che condizione necessaria (ma non sufficiente) perché un fenomeno aleatorio connesso a qualche conteggio sia rappresentabile con una
Poisson è che media e varianza di tale fenomeno siano uguali.
Esercizio 5
Da esperienze passate si ricava che la probabilità di avere un parto trigemino è p =
1/8000. Calcolare la probabilità che osservando 10.000 parti a caso: (a) se ne abbiano non
più di 4 trigemini; (b) almeno 4 trigemini.
Dato che le nascite sono indipendenti e che avere o non avere un parto trigemino si riduce
allo schema: successo, insuccesso, per risolvere il problema si può utilizzare la v.c. Binomiale
con N =10.000 e p = 1/8.000. E quindi:
(a) P{X ≤ 4} =
4
∑
j =0
4
P(x=j) =
∑  Nj  p
j
(1-p)
n-j
= 0.99088;
j =0
(b) P{X ≥ 4} = 1 - P{X < 4} = 1 -
3
∑
P(x=j) =
j =0
3
n-j
N
= 1- ∑  j ( p ) j (1-p) = 1 - 0.96174 = 0.03826.

j =0 
Dato che N = 10.000 è “grande” e p = 1/8.000 è “piccolo” si può usare
Variabili casuali di uso comune
l’approssimazione con una Poisson con λ =
(a) P{X ≤ 4} =
4
4
∑
P(X=j) =
∑
j =0
j =0
(b) P{X ≥ 4} = 1 - P{X < 4} = 1 -
75
10.000
= 1.25 ottenendo:
8.000
e − λ λj
= 0.99006;
j!
3
3
∑
P( x = j ) = 1 -
∑
j =0
j =0
e − λ λj
=
j!
= 1 - 0.96109 = 0.03891.
Esercizio 6
Un venditore di manufatti complessi sa che il numero di vendite per settimana si comporta
come una v.c. di Poisson. Inoltre, gli è noto che, in media, vende 2 manufatti al giorno. Determinare lo stock di magazzino in modo che quel venditore abbia probabilità di almeno il
99% di avere merce per soddisfare la domanda di una settimana. In tal caso è
λ =
2
beni venduti in
media al giorno
×
7
=
giorni della
settimana
14
e quindi bisogna trovare N per cui
P{X ≤ N} ≥ 0.99
cioè
N
∑
j =0
e −λλ j
-λ
= e
j!
N
∑
j =0
λj
≥ 0.99
j!
Si può verificare che per N= 23 si ha:
P{X ≤ 23} = 0.99067
e quindi il venditore deve tenere in magazzino almeno 23 manufatti per essere sicuro al 99%
di soddisfare tutte le richieste di una settimana.
3.4 La variabile casuale Normale
La v.c. Normale è la più nota ed usata fra tutte le v.c. che sono state deri-
Capitolo 3
76
vate e da questo punto di vista assume un ruolo fondamentale nella statistica.
Questa v.c. è continua ed assume tutti i valori dell’asse reale, spesso è nota anche come v.c. degli errori accidentali dato che storicamente è stata ottenuta analizzando la distribuzione degli errori di misura di uno stesso fenomeno o anche
v.c. di Gauss dato che fu uno dei primi matematici a derivarla e ad analizzarne
le relative proprietà. La sua enorme rilevanza in ambito applicato e teorico r isale al fatto che questa v.c. è legata, come vedremo nel seguito, al modello lineare che è uno dei modelli più semplici per descrivere ed interpretare fenomeni anche molto complessi.
La v.c. normale è funzione di soli due parametri: la media µ e la varianza
2
σ . Questo vuole dire che nota la media e la varianza di un fenomeno aleatorio e noto che questo fenomeno si distribuisce normalmente, risulta perfettamente individuata la sua funzione di densità, cioè il meccanismo probabilistico
che la caratterizza. Per dire che una v.c. X si distribuisce come una Normale
con media µ e varianza σ2 si usa la notazione seguente
X~N(µ, σ 2).
La f.d. di una v.c. Normale con media µ e varianza σ 2 è data da
f(x) =
 1

exp  −
( x − µ )2 
2
2
σ


2πσ
1
2
ove con la notazione exp{a} abbiamo indicato e a.
Analizziamo ora alcune delle caratteristiche matematiche della f.d. di questa
v.c. Osserviamo in primo luogo che essa è simmetrica intorno alla media cioè
risulta
f(µ - x) = f(µ + x)
per ogni x .
Infatti, si ha
f(µ - x) =
 1

exp  −
( µ − x − µ )2 =
2
 2σ

2πσ
1
2
 1 2
exp  −
x 
 2σ 2 
2πσ
1
2
Variabili casuali di uso comune
f(µ+ x) =
 1

exp  −
( µ + x − µ )2  =
2
 2σ

2πσ
1
2
77
 1

exp  −
x2
2
 2σ

2πσ
1
2
che dimostra quanto affermato. Essendo la distribuzione simmetrica risulta
sempre
µ = Me
La f.d. di una normale ha un unico massimo per x=µ. Per dimostrare questa
affermazione poniamo
1
1
c=
; a=
2
2
2
σ
2πσ
per cui la f.d. della normale si può scrivere
f(x) = c ⋅ exp{-a(x-µ)2} =
c
exp{a( x − µ ) 2 }
e dato che le costanti (c, a) sono positive, f(x) è tanto più grande quanto più
exp{a(x-µ)2} è piccola, ed essendo questa quantità un’esponenziale con esponente non negativo il suo valore minimo si ha per x = µ che dimostra quanto
affermato. Si osservi che nel punto di massimo x=µ la f.d. della Normale vale
f(µ) = c =
1
2πσ 2
Dato che, per definizione, l’area al di sotto della f.d. deve essere sempre pari ad
uno e che è sempre f(x) ≥ 0, perché f(x) abbia un massimo in x=µ questa funzione deve prima crescere e poi simmetricamente decrescere. Ciò vuole dire
che f(x) deve avere per asintoto orizzontale l’asse delle x e due flessi che, si può
dimostrare, sono posizionati rispettivamente in µ - σ ed in µ+ σ. Nella figura
che segue è riportato il grafico di una generica f.d. di una Normale con media
µ e varianza σ 2.
78
Capitolo 3
Supponiamo di avere due fenomeni aleatori X ed Y che si distribuiscono entrambi come normali con uguale varianza e medie diverse:
X~N(µx , σ 2);
Y~N(µy , σ 2)
con µx ≤ µy, allora la forma delle funzioni di densità delle due normali è la
stessa, cambia solo il punto in cui queste sono localizzate ed in particolare la seconda, essendo centrata su µy, si trova più a destra della prima come è illustrato
nella figura che segue.
Consideriamo ora il caso in cui le v.c. Normali abbiano uguale media ma varianza diversa. In tal caso le rispettive funzioni di densità saranno tutte centrate
nello stesso punto, ma quella con varianza più elevata sarà più schiacciata sull'asse delle x. Nella figura che segue sono state riportate le f.d.
Variabili casuali di uso comune
79
di tre Normali tutte e tre con la stessa media pari a zero e varianza data rispettivamente da 1, 2 e 3. Come si può notare, quella che ha la varianza maggiore
(σ 2 = 3 ) , cioè quella più dispersa, ha il massimo minore.
Le variabili casuali Normali posseggono una proprietà riproduttiva estremamente importante. Infatti, si può dimostrare che la trasformazione lineare di
una Normale è ancora una normale. Più precisamente, se è X~N(µ, σ 2) allora
si può dimostrare che è anche
Z = a + b X ~N(a + b µ , b 2 σ 2)
In particolare, come già visto in altra occasione, se è
a=−
si ottiene
Z=−
µ
,
σ
b=
1
σ
µ
1
X −µ
+ X=
~N(0, 1)
σ σ
σ
che è la v.c. Normale standardizzata. Graficamente la f.d. della Normale standardizzata ha un andamento simile a quello riportato nella figura che segue
Capitolo 3
80
Dato un fenomeno aleatorio X che è noto distribuirsi come una Normale
con media µ e varianza σ 2, si vuole calcolare la probabilità che X cada
nell’intervallo [a, b]. Sappiamo che questa probabilità è data da
b
P{a ≤ X ≤ b} =
∫
a
1


exp  −
( x − µ ) 2  dx
2
2 πσ
 2σ

1
2
e per risolvere l’integrale è necessario conoscere la primitiva della f.d. della
Normale. Ma si può dimostrare che la primitiva della f.d. della Normale non
esiste in forma esplicita e quindi quell’integrale può essere calcolato solo in via
approssimata. Per risolvere, anche se solo in modo approssimato, il problema
si ricorre alla seguente procedura:
(a) si sono tabulate le probabilità relative alla Normale standardizzata (vedi le
tavole nell’apendice);
(b) si standardizza la v.c. X ed i relativi estremi dell’intervallo [a , b];
(c) si usa la tavola delle probabilità della standardizzata per calcolare le probabilità cercate.
Nel caso precedentemente considerato si ha
a − µ X − µ b − µ 
b −µ
a − µ
≤
≤
P{a ≤ X ≤ b}= P 
≤Z ≤
= P 

σ
σ
σ
σ
σ 



per cui la probabilità che X cada nell’intervallo [a, b] risulta uguale, in virtù del
fatto che la standardizzazione è una trasformazione lineare e quindi biunivoca
per cui conserva le relative probabilità, alla probabilità che Z cada nell'intervallo
Variabili casuali di uso comune
81
a − µ b − µ 
 σ , σ  .
Da un punto di vista grafico si ha una situazione come quella qui appresso riportata
Esempio 7
Supponiamo di avere un fenomeno X che si distribuisce normalmente e precisamente
X~N(3, 4). Si vuole calcolare la probabilità seguente
P{2 ≤ X ≤ 5}
Da un punto di vista grafico si deve calcolare l’area tratteggiata nella figura seguente
Standardizzando si ha
Capitolo 3
82
5−3
2 − 3
P{2 ≤ X ≤ 5} = P 
≤Z ≤
 = P{ - 0.5 ≤ Z ≤ 1} =
2 
 2
= P{-∞ < Z ≤ 1} - P{-∞ < Z ≤ -0.5}.
D’altra parte, per la simmetria, della f.d. della Normale si ha
P{-∞ < Z ≤ -0.5} = 1- P{-∞ < Z ≤ 0.5}
e quindi risulta
P{2 ≤ X ≤ 5} = P{ - 0.5 ≤ Z ≤ 1} = P{-∞ < Z ≤ 1} - P{-∞ < Z ≤ -0.5}=
= P{-∞ < Z ≤ 1}- [1- P{-∞ < Z ≤ 0.5}].
Ricorrendo alle tavole della Normale standardizzata avremo infine
P{2 ≤ X ≤ 5}= P{-∞ < Z ≤ 1}- [1- P{-∞ < Z ≤ 0.5}] =
= 0.8413 - (1 - 0.6915) = 0.5328.
Data la v.c. Z Normale standardizzata, si può dimostrare che questa possiede tutti i momenti e sono dati da
0

r!
µr = E( Z r ) = 
 2 r / 2 ( r / 2 )!

se r è dispari
se r è pari
e come si può notare, i momenti di ordine dispari della Normale standardizzata sono tutti nulli. In particolare risulta:
E(Z 0) = 1; E(Z) = 0; E(Z 2) = 1; E(Z 3) = 0; E(Z 4) = 3
e quindi
γ1 = E(Z 3) = 0; γ2 = E(Z 4) - 3 =
4 ⋅ 3 ⋅ 2 ⋅1
- 3 = 3 - 3 = 0.
22 ⋅2
2
Noti i momenti della standardizzata, quelli della generica v.c. X~N(µ , σ ),
Variabili casuali di uso comune
83
tenuto conto che X=µ+σZ, sono dati da
r
∑
E(X r) =
 r  µ r- j σ
 j
j =0
j
j
E(Z )
da cui si ottengono i seguenti risultati particolari:
1
E(X) =
∑
j =0
E(X 2) =
2
∑
j =0
1  µ 1- jσ jE(Z j) =  1  µσ 0E(Z 0) + 1 µ 0σ E(Z) = µ;
0 
0 
1
2  µ
j
 
2- j
j
j
σ E(Z ) =
 2  µ 2 σ 0 E(Z 0) +  2  µ σ E(Z) +
0
1 
 
 
0
2
2
+  22  µ σ E(Z ) = µ 2 + σ 2;
 
E(X 3) =
3
∑
j =0
+
E(X 4) =
3  µ
j
 
3- j
j
j
σ E(Z ) =
 3  µ 3σ 0E(Z 0) +  3  µ 2σ E(Z) +
0 
1 
 
 
 3  µ σ 2 E(Z 2) +  3  µ 0σ 3 E(Z 3) = µ 3 + 3µ σ 2;
2
 3
 
 
4
∑
j =0
 4  µ4- j σ j E(Z j) =  4  µ
j
0 
 
 
2
2
2
4
+  2  µ σ E(Z ) +
 
4
0
0
3
σ E(Z ) +  14  µ σ E(Z) +
 4  µ σ 3 E(Z 3) +
3
 
 
 4  µ0 σ 4 E(Z 4) =
4
 
= µ 4 + µ 2σ 2 + 3σ 4.
Esempio 8
Supponiamo che un dato fenomeno si distribuisca normalmente con µ=3 e σ 2 = 4 si vogliono calcolare le seguenti probabilità
(a)
P{1.5 ≤ X ≤ 4.3}
Capitolo 3
84
(b)
P{4.21 ≤ X ≤ 6.35}
(a) La probabilità che si vuole calcolare è data dall’area in tratteggio seguente
Standardizzando si ottiene
4.3 − 3 
1.5 − 3
P{1.5 ≤ X ≤ 4.3}= P 
≤Z ≤
 = P{-0.75 ≤ Z ≤ 0.65} =
2 
 2
= P{-∞ < Z ≤ 0.65} - P{-∞ < Z ≤ -0.75} =
= P{-∞ < Z ≤ 0.65} - [1 - P{-∞ < Z ≤ 0.75}] =
= 0.7422 - (1- 0.7734) = 0.5156.
(b) La probabilità che si vuole calcolare è data dall’area tratteggiata seguente
Variabili casuali di uso comune
85
Standardizzando si ottiene
6.35 − 3 
 4.21 − 3
≤Z ≤
P{4.21 ≤ X ≤ 6.35} = P 
 = P{0.605 ≤ Z ≤ 1.675}
2 
 2
≈ P{0.60 ≤ Z ≤ 1.67} = P{-∞ < Z ≤ 1.67} - P{-∞ < Z ≤ 0.60} =
= 0.95254 - 0.7257 = 0.2268.
Ove, dato che la tavola della standardizzata permette di prendere in considerazione solo due
cifre decimali (una sulla prima colonna della tabella e l’altra sulla prima riga della tabella), si
è dovuto procedere ad una approssimazione al valore più vicino.
Prima di illustrare gli esempi che seguono, richiamiamo le seguenti ben note
identità
|X - b | ≤ c = -c ≤ X-b ≤ c = b-c ≤ X ≤ b+c
|X - b | ≥ c = (X-b ≥ c) ∪(X-b ≤ -c) = (X ≥ b+c) ∪ (X ≤ b-c)
Esempio 8
Supposto che il fenomeno X si distribuisca come una v.c. Normale con media µ e varianza σ 2 qualsiasi, calcolare
(a)
(b)
(c)
P{|X - µ| ≤ σ}
P{|X - µ| ≤ 2σ}
P{|X - µ| ≤ 3σ}
(a) Utilizzando la prima delle identità sopra riportate e standardizzando si ottiene
P{|X - µ| ≤ σ}= P{µ-σ ≤ X ≤ µ+σ} =
µ +σ − µ 
 µ −σ − µ
≤Z ≤
= P
 = P{-1 ≤ Z ≤ 1} =
σ
σ


= 2P{-∞ < Z ≤ 1} - 1 = 2 × 0.8413 - 1 = 0.6826.
Questo vuole dire che la probabilità che una qualsiasi v.c. Normale assuma un valore
86
Capitolo 3
dell’intervallo [µ-σ; µ+σ] è più del 68% come illustrato nella figura che segue
(b) Utilizzando la prima delle identità sopra riportate e standardizzando si ottiene
P{|X - µ| ≤ 2σ}= P{µ-2σ ≤ X ≤ µ+2σ} =
µ + 2σ − µ 
 µ − 2σ − µ
= P
≤Z ≤
 = P{-2 ≤ Z ≤ 2} =
σ
σ


= 2P{-∞ < Z ≤ 2} - 1 = 2 × 0.97725 - 1 = 0.9545.
Questo vuole dire che la probabilità che una qualsiasi v.c. Normale assuma un valore
nell’intervallo [µ-2σ; µ+2σ] è più del 95% come illustrato nella figura che segue
(c) Utilizzando la prima delle identità sopra riportate e standardizzando si ottiene
Variabili casuali di uso comune
87
P{|X - µ| ≤ 3σ}= P{µ-3σ ≤ X ≤ µ+3σ} =
µ + 3σ − µ 
 µ − 3σ − µ
≤Z ≤
= P
 = P{-3 ≤ Z ≤ 3} =
σ
σ


= 2P{-∞ < Z ≤ 3} - 1 = 2 × 0.99865 - 1 = 0.9973.
Questo vuole dire che la probabilità che una qualsiasi v.c. Normale assuma un valore
nell’intervallo [µ-3σ; µ+3σ] è più del 99,7% .
Una conseguenza pratica molto rilevante dei risultati visti nell’esempio precedente è che, anche se teoricamente la v.c. Normale può assumere valori da -∞
a +∞ , la quasi totalità dei casi (più del 99.7%) cade nell'intervallo finito [µ-3σ;
µ+3σ]. In altri termini, le code della funzione di densità della Normale si avvicinano a zero molto rapidamente, anche se raggiungono esattamente tale valore
solo a ±∞ . Questo vuole dire che la Normale può approssimare abbastanza bene fenomeni reali i cui valori sono definiti in un intervallo finito.
Utilizzando le tavole della Normale standardizzata, vediamo di risolvere un
problema inverso da quello affrontato negli esercizi precedenti. A tal fine, supponiamo di avere un fenomeno X che si distribuisce normalmente con media
µ e varianza σ 2 noti, cioè X~N(µ, σ 2), vogliamo individuare la costante a di
modo che, fissato α, sia
P{|X - µ| ≤ a} = α
In altri termini, si vuole risolvere, rispetto ad a, la seguente equazione integrale
µ+ a
P{|X - µ| ≤ a}= P{µ-a ≤ X ≤ µ+a} =
∫
f(x)dx = α
µ− a
Da un punto di vista grafico vuole dire individuare l’ampiezza dell'intervallo [µa; µ+a], che è pari a 2a, una volta fissata la probabilità α relativa a tale intervallo. Il problema è illustrato nella figura seguente.
Capitolo 3
88
Standardizzando si ha
α = P{|X - µ| ≤ a}= P{µ-a ≤ X ≤ µ+a} =
µ+a−µ
a
µ −a − µ
−a
≤Z ≤
≤Z ≤
=P 
= P 
σ
σ
σ
σ



da cui si ricava
che è equivalente a

 = 2P

a

0 ≤ Z ≤ 
σ


a α

P 0 ≤ Z ≤  =
σ

 2
a α

P − ∞ ≤ Z ≤  = + 0.5.
σ

 2
Dalla tavola della standardizzata, in corrispondenza di
α* =
si ricava il valore
zα∗ ≈
α
+ 0.5,
2
a
e quindi a ≈ zα∗ σ.
σ
Esempio 9
Supponiamo che sia X~N( µ, 4) e si voglia individuare la costante a per cui risulti
In questo caso si ha
P{|X - µ| ≤ a}= 0.65.
Variabili casuali di uso comune
89
0.65
+ 0.5 = 0.825.
2
Il valore più vicino ad α* riportato nella tavola della Normale standardizzata è 0.8238 in
corrispondenza del quale si ha zα∗= 0.93 e quindi risulta
*
α=
a ≈ 2 (0.93) = 1.86.
Un’ultima interessante proprietà connessa alla v.c. Normale, riportata qui di
seguito senza dimostrazione, è che
una qualsiasi combinazione lineare di Normali indipendenti si distribuisce ancora come una v.c. Normale
Più precisamente, date le seguenti v.c. Xi~N(µi , σ 2i ), i=1,2,...,k, indipendenti,
la nuova v.c.
Y = co + c1 X1 + c2 X2 + ... + ck Xk
si distribuisce come una Normale con media e varianza date rispettivamente da
µy = co + c1 µ1 + c2 µ2 + ... + ck µk
σ 2y = c12 σ 12 + c 22 σ 22 + ... + c k2 σ k2
cioè
Y ~N(co + c1 µ1 + c2 µ2 + ... + ck µk; c12 σ 12 + c 22 σ 22 + ... + c k2 σ k2 )
Questo risultato ha una grande rilevanza per una serie di sviluppi teorici ed applicati alcuni dei quali illustreremo nei capitoli seguenti.
3.5 Alcune v.c. derivate dalla Normale.
In questo paragrafo tratteremo brevemente di alcune v.c. che hanno rilevanza pratica e si ottengono come particolari trasformazioni di v.c. Normali. In
particolare tratteremo, nell’ordine, delle v.c.: Chi-quadrato, T di Student, F di
Fisher e Lognormale.
Capitolo 3
90
LA V.C. CHI-QUADRATO
La v.c. Chi-quadrato con k gradi di libertà si indica con χ k2 ed è definita nel
modo che segue. Siano date k v.c. normali standardizzate:
Z1~N(0, 1), Z2~N(0, 1), ..., Zk~N(0, 1)
e supponiamo che siano indipendenti per cui risulta
f(z1 , z2 , ..., zk ) = f1(z1) f2(z2) ... fk(zk)
cioè la funzione di densità della v.c. k-pla (Z1 , Z2 , ..., Zk ) è pari al prodotto
delle k funzioni di densità marginali. Allora
la nuova v.c.
Y=
k
∑
i =1
Z i2
prende il nome di v.c. Chi-quadrato con k gradi di libertà.
Ove si definisce
gradi di libertà = numero delle variabili - numero dei vincoli
e nel caso sopra definito si ha che il numero delle variabili è, per costruzione,
pari a k, il numero dei vincoli è zero per cui i gradi di libertà risultano proprio
pari a k. Da un punto di vista geometrico, i gradi di libertà indicano la dimensione in cui ci si può muovere nella costruzione della v.c. Y. Nel seguito incontreremo casi in cui il calcolo dei gradi di libertà è più elaborato. In altri termini,
la v.c. Chi-quadrato con k gradi di libertà è data dalla somma di k normali
standardizzate indipendenti al quadrato.
La v.c. χ k2 è continua ed è definita, per come è stata costruita, nell'intervallo
(0; +∞ ). Si dimostra che la f.d. della v.c. Y~χ k2 è data da
f(y) =
e − y / 2 y ( k / 2 ) −1
2 k/ 2 Γ ( k / 2 )
per y > 0
Variabili casuali di uso comune
91
ove Γ(p) è detta funzione gamma e risulta
Γ(p) =
∞
∫
p-1
x e- x dx
per p > 0;
Γ(p+1) = p Γ( p),
0
mentre se p è un numero intero si ha
Γ(p) = (p-1) ! ;
...
1  1× 3 × 5 × × ( 2 p −1) π

Γ  p+ =
;
2

2p
inoltre
1 
Γ = π .
2
La forma di tale f.d. è riportata nella figura che segue per tre diversi valori dei
gradi di libertà.
Per quel che riguarda la media e la varianza della v.c. Chi-quadrato, ricordando
che E(Z) =0, E(Z 2) = 1, E(Z 3) = 0, E(Z 4) = 3, risulta
k

E(χ k2 ) = E 
Z i2  =

 i =1
∑
k
∑
i =1
E[Z i2 ] = k
Capitolo 3
92
var(χ k2 )
k
=
∑
i =1
k

= var 
Z i2  =
 i =1

k
∑
E{[Z i2 - E(Z i2 )] 2} =
k
∑
∑
i =1
var[Z i2 ] =
E[Z 4i - 2Z i2 E(Z i2 ) + (E(Z i2 ))2] =
i =1
=
k
∑
[3 - 2E(Z i2 ) + 1] =
i =1
k
∑
[3 - 2 + 1] = 2k
i =1
possiamo così calcolare il momento secondo della v.c. χ k2 ottenendo
µ2 = σ 2 + µ 2 = 2 k + k 2
In generale, si può dimostrare, che il momento r-esimo della v.c. χ k2 è dato da
µr = E(Y r) =
2 r Γ (r + k /2 )
= k (k+2) (k+4) ... (k+2(r-1))
Γ ( k /2 )
da cui si deriva
µ1 = k
µ2 = 2k + k 2 = k (k+2)
µ3 = 8k + 6k 2 + k 3 = k (k+2) (k+4)
µ4 =48k + 44k 2 + 12k 3 + k 4 = k (k+2) (k+4) (k+6)
che permette di calcolare
σ
2
= 2k ;
γ1 =
8
> 0;
k
γ2 =
12
> 0.
k
Da cui si ricava che la v.c. χ k2 è sempre asimmetrica positiva e leptocurtica qualsiasi sia k, asimmetria e curtosi tendono a zero al crescere di k.
La v.c. Chi-quadrato gode, come è facile verificare, della seguente proprietà
riproduttiva: la somma di due Chi-quadrato indipendenti è ancora una v.c. Chi-
Variabili casuali di uso comune
93
quadrato che ha per gradi di libertà la somma dei gradi di libertà. Formalmente, se
X~χ k2 ; Y~χ h2
sono indipendenti, allora risulta
V = X + Y ~χ k2 +h
LA V.C. T DI STUDENT
Date le due v.c. Z ~ N( 0, 1) ed Y ~ χ k2 indipendenti, definiamo
v.c. T di Student con k gradi di libertà la seguente
Z
N( 0 ,1)
=
Y /k
χ k2 / k
T(k) =
La v.c. T di Student è funzione del solo parametro k e la sua f.d., si dimostra, è
data da
f(t) =
1
Γ  (k + 1)
1
2
 1 + t 2 /k
kπ
1 
Γ  k
2 
(
)−( k+1) /2 ,
- ∞<t< ∞
Il grafico di f(t), per due diversi valori di k è riportato nella figura seguente
Capitolo 3
94
Come si può notare dalla figura, la v.c. T di Student è simmetrica intorno allo
zero qualsiasi sia k. Quando è k=1 questa variabile casuale prende anche il n ome di v.c. di Cauchy. Per quel che riguarda i momenti, si dimostra che data la
v.c. T(k) il momento µr esiste se risulta r < k. Inoltre, i momenti di ordine d ispari, quando esistono, sono nulli. In generale si ha
1
1
k r / 2 Γ  ( r + 1)Γ  ( k − r )

2
 2
µr = E( T r) =
1   1 
Γ  k Γ  
2   2 
se r è pari ed r<k. Otteniamo così come casi particolari:
µ1 = 0
se k > 1;
µ3 = 0
se k > 3;
k
k−2
3k 2
µ4 =
( k − 2 )( k − 4 )
µ2 =
se k > 2
se k > 4
che permettono di ricavare
σ2 =
k
k −2
se k > 2;
γ1 = 0
se k >3;
γ2 =
6
>0 se k >4.
k −4
Questo vuole dire che la v.c. T di Student, oltre ad essere simmetrica, è
sempre leptocurtica.
Tenendo conto che
Variabili casuali di uso comune
95
1
2
1
 1
1

E  χ k2  = k =1; var  χ k2  = 2 2k =
k
k
 k
k
 k
1 2
χ k è costante e pari ad uno mentre la sua vak
1 2
rianza tende a zero quando k cresce all'infinito. Ciò implica che
χ k , al dik
vergere di k all’infinito, assume il suo valore medio 1 con certezza. Ma allora,
dalla definizione della v.c. T di Student
segue che la media della v.c.
T(k) =
N ( 0, 1)
χ k2 / k
si ha che la variabile casuale che figura al denominatore tende con certezza al
valore 1 e di conseguenza T(k) → N(0, 1). In altri termini, al crescere dei gradi
di libertà della v.c. T di Student questa tende alla v.c. Normale standardizzata.
Nella figura seguente è messa a confronto la f.d. di una N(0, 1) con una T(10)
In pratica, basta che sia k ≥ 30 perché T(k) sia ben approssimata da una Normale standardizzata.
LA V.C. F DI FISHER
Date le due v.c. indipendenti X ∼ χ h2 e Y~ χ k2 ,
la nuova v.c.
Capitolo 3
96
F=
X/h
Y /k
si chiama v.c. F di Fisher con h e k gradi di libertà e si scrive F~F(h,k).
Come si può notare, la v.c. F di Fisher è funzione di una coppia di gradi di
libertà, in particolare h sono i gradi di libertà relativi al numeratore della F e k
sono quelli relativi al denominatore. Una caratteristica importante di questa v.c.
è che il suo inverso è ancora una v.c. F di Fisher con i gradi di libertà scambiati.
In altri termini, se F~F(h,k) allora
e quindi
1
~F(k,h)
F
P{0 ≤ F(h,k) ≤ 1/Fo } = P{F o ≤ F(k,h) < + ∞ }
per Fo > 0.
Inoltre, la v.c. F di Fisher può essere considerata una generalizzazione della
v.c. T di Student dato che si verifica facilmente, dalle definizioni delle due v.c.,
che se è X~T(k) risulta immediatamente
2
 N ( 0 , 1) 
2
 = χ1 /1 ~F(1,k)
X = 
 χ k2 / k 
χ k2 / k


2
cioè, il quadrato di una v.c. T di Student con k gradi di libertà è una v.c. F di
Fisher con (1, k) gradi di libertà. Infine, si può dimostrare che la funzione di
densità di questa v.c. è
1
Γ  ( h + k )
h/2
F h / 2 −1
2
 h
f( F) =
 
1
1
k
(1 + F h /k )( h + k ) 2
Γ  h Γ  k   
2  2 
per 0 ≤ F< ∞ .
Nella figura che segue è riportato il grafico della f.d. della F di Fisher per
tre diverse coppie di gradi di libertà.
Variabili casuali di uso comune
97
Come si vede, si tratta di una distribuzione asimmetrica positiva, qualsiasi siano
i gradi di libertà.
Per quel che riguarda i momenti di questa v.c., si può dimostrare che è
1
 1

kr Γ  h + r  Γ  k − r 
2
2

 

µr = E(F r) =
1   1 
r
h Γ  h  Γ  k
2   2 
1
1
per - 2 h < r < 2 k
da cui, come casi particolari, si ottiene:
µ1 =
k
k −2
per k > 2
µ2 =
k2 ( h + 2 )
h ( k − 2 )( k − 4 )
per k > 4
µ3 =
µ4 =
k 3 ( h + 2 )( h + 4 )
2
h ( k − 2 )( k − 4 )( k − 6 )
k 4 ( h + 2 )( h + 4 )( h + 6 )
h 3 ( k − 2 )( k − 4 )( k − 6 )( k − 8 )
per k > 6
per k > 8
che implicano
var(F) =
2 k 2 (h + k − 2 )
h(k − 2 )2 (k − 4 )
per k>4
Capitolo 3
98
γ1 =
γ2 =
8( k − 4 ) ( 2 h + k − 2 )
>0
h( h + k − 2 )
k−6
12[( k − 2 ) 2 ( k − 4 ) + h ( h + k − 2 )( 5 k − 22 )]
>0
h ( k − 6 )( k − 8 )( h + k − 2 )
per k > 6
per k > 8.
Questo vuole dire che la F di Fisher è sempre asimmetrica positiva e leptocurtica.
Osserviamo che, utilizzando argomentazioni simili a quelle illustrate per la T
di Student, segue immediatamente che per k → ∞ si ha
F(h,k) →
χh2
.
h
LA V.C. LOGNORMALE
Un’ultima v.c. che qui analizziamo, ottenibile come una particolare trasformazione della Normale, è la v.c. Lognormale. Si tratta di una v.c. di diffusa utilizzazione pratica specie in economia, medicina, geologia ed in particolare nella
descrizione della durata di vita di prodotti industriali. Questa v.c. è funzione di
due parametri, ma ne esiste una generalizzazione poco utilizzata nelle applicazioni che è funzione di tre parametri. Per dire che la v.c. Y si distribuisce come
una Lognormale con parametri (λ, δ) di solito viene utilizzata la simbologia
Y~LN(λ, δ).
Più precisamente, data la v.c. X~N(λ, δ) la nuova v.c.
Y=e
X
prende il nome di v.c. Lognormale con parametri (λ, δ).
Per costruzione, la Lognormale assume valori non negativi. Il nome di Lognormale nasce dal fatto che la v.c. log(Y) si distribuisce come una Normale
con parametri (λ, δ). Partendo dalla distribuzione della Normale non è difficile
dimostrare che la funzione di densità della Lognormale a due parametri è
Variabili casuali di uso comune
f(x) =
 1 log x − λ 2 
exp  − 
 ,
δ x 2π
δ
 
 2 
1
99
-∞ < λ < ∞ , δ > 0
Nella figura seguente è riportato il grafico della f.d. della Lognormale per
tre diverse coppie dei parametri
Se X~LN(λ, δ ) si dimostra che il suo momento r-esimo è
E(X r) = exp{r λ + r 2 δ 2/2}
da cui si ottengono, in particolare
µ1 = e λ e δ
2
µ3 = e 3 λ e 9 δ
/2
2
/2
µ2 = e 2 λ e 2δ
;
2
µ4 = e 4 λ e 8δ
;
2
Questi permettono di calcolare
2
2
γ1 =  e δ + 2  e δ − 1 > 0


2
2
σ 2 = e 2 λ e δ  e δ −1  ;


2
2
2
γ2 = e 4δ + 2 e 3δ + 3 e 2δ − 6 > 0 .
La v.c. Lognormale è una v.c. sempre asimmetrica positiva e leptocurtica, si
Capitolo 3
100
osservi che la distribuzione Lognormale è tanto più vicina alla simmetria ed alla
mesocurtosi quanto più δ è piccolo. Questo implica che la Lognormale può
approssimare fenomeni che si distribuiscono normalmente scegliendo un δ
opportunamente piccolo.
3.6 La variabile casuale Normale doppia
In questo paragrafo tratteremo brevemente della v.c. Normale doppia vista
come generalizzazione della Normale semplice già analizzata nelle pagine precedenti. La v.c. Normale doppia (X, Y) è definita sull’intero piano (x, y) ed è
funzione dei cinque parametri:
µ x , µ y , σ x2 , σ 2y , σx y
Di solito, per indicare che la v.c. ( X , Y) si distribuisce come una Normale
doppia si usa la notazione seguente:
( X , Y) ~ N2 ( µx , µy , σ x2 , σ 2y , σx y )
Fra le v.c. continue multivariate la Normale è quella che, in assoluto, è la più
utilizzata nelle pratiche applicazioni date le sue numerose proprietà. Il successo
di tale v.c. è dovuto anche, se non soprattutto, ai semplici sviluppi formali che
l'uso di tale variabile casuale implica. La funzione di densità dipende, come già
accennato, dalle medie e dalle varianze delle due marginali e dalla loro covarianza. Più precisamente si dimostra che è:
f (x) =
1
2πσ x σ
y
2
1 − ρ xy

( x − µ ) 2
x − µx
1

x

. exp −
− 2ρ
2
2
σx
σx
 2( 1 − ρ xy ) 
.
y−µy
σ
y
+
( y − µ y ) 2  

σ 2y
 

Si può dimostrare che ogni combinazione lineare di una Normale doppia è
ancora una normale. Da questo risultato segue come caso particolare che ciascuna marginale di una normale doppia è una normale semplice:
Variabili casuali di uso comune
X~N(µx , σ 2x )
101
Y~N(µy , σ 2y )
ma di solito non è vero il viceversa. Infatti, possono esistere v.c. che non sono
Normali doppie, ma hanno le marginali distribuite come Normali.
Nelle figure che seguono è riportato il grafico della f.d. della normale doppia per differenti valori dei parametri
µx = µy =0, σ 2x =1, σ 2y =2, ρxy =0.5
µx = µy =0, σ 2x =1, σ 2y =2, ρxy = 0
µx = µy =0, σ 2x = σ 2y =2, ρxy =0.5
Data la v.c. (X, Y) Normale doppia è facile verificare che condizione necessaria e sufficiente perché X ed Y siano indipendenti è che sia ρxy = 0. Da questo
Capitolo 3
102
risultato segue che nella Normale doppia, ma il risultato è facilmente estensibile
a quella multipla:
se un fenomeno si distribuisce come una normale multipla, allora
l’indipendenza delle marginali è equivalente alla loro incorrelazione
Si dimostra facilmente che se (X, Y) è una normale doppia allora la v.c.
condizionata (X|Y=y) è ancora una v.c. Normale semplice e precisamente

σ xy
(X|Y=y) ~ N µ x + 2 ( y − µ y );
σy

σ xy2 
σ − 2 .
σ y 
2
x
La stessa cosa vale per la condizionata (Y|X=x) che è una Normale semplice
data da

σ xy
σ xy2 
(Y|X=x) ~ N µ y + 2 ( x − µx ); σ 2y − 2  .
σx
σ x 

Come si può notare, la media della v.c. condizionata (Y|X=x) è una retta nei
valori assunti dalla variabile condizionante x:
µy|x = µy +
σ


σ
 µ y − xy2 µx  + xy x = βo + β1 x.
(
x
−
µ
)
=
x
2


σx
σx
σ x2


σ xy
Naturalmente, una relazione simile vale per la media della v.c. condizionata
(X|Y=y):
σ xy
µx|y = µx + 2 ( y − µ y ) = αo + α1 y
σy
La funzione di densità della normale doppia ha un unico massimo per (x ,
y) = (µx , µy ) ed è costante sull'ellisse con centro in ( µx , µy ). L’equazione di tale
ellisse è data da
Variabili casuali di uso comune
103
2
( x − µ ) 2
x − µx y − µ y ( y − µ y ) 
x
=c

− 2ρ
+
2
σx
σy
σ 2y

 σ x
ove c > 0 è una costante positiva qualsiasi. La situazione è illustrata nella figura
che segue
ove si è supposto che fosse σx y > 0.
Si può dimostrare che se ( X , Y) ~N2 ( µx , µy , σ 2x , σ 2y , σx y ) risulta
X-Y ~ N( µx - µy ; σ 2x + σ 2y +2 σx y )
X+Y ~ N( µx + µy ; σ 2x + σ 2y +2 σx y )
e se, inltre, è µx=µy=0 si ha
1
2
2
[ X σ y2- 2 XY σx y + Y σ 2x ] ~ χ 22
2
σ σ − σ xy
2
x
2
y
che generalizza al caso bivariato il risultato del caso univariato.
3.7 Alcuni teoremi limite
Nel seguito di questo paragrafo presenteremo alcuni risultati asintotici che
hanno una certa rilevanza nelle pratiche applicazioni.
Capitolo 3
104
ALCUNE LEGGI DI CONVERGENZA
In primo luogo tratteremo di alcuni tipi di convergenza di successione di
v.c. A tale proposito, consideriamo la successione di variabili casuali indipendenti
X1 , X2 , …, Xn ,… ≡ {Xn }
con medie e varianze date rispettivamente da
µ1 , µ2 , ..., µn , ....
σ 12 , σ 22 , ...., σ n2 , ....
e consideriamo la v.c. media
1
n
Xn =
n
∑
Xj
j =1
Dall’indipendenza delle Xi segue immediatamente che
E( X n ) =
1
n
var( X n ) =
n
∑ µ j = µ (n)
j =1
1
n2
n
∑
σ 2j .
j =1
Si noti che nel caso particolare, ma di rilevanza pratica, in cui è
µ1 = µ2 = … = µn = … = µ
σ 12 = σ 22 = … = σ n2 = … = σ 2
si ha immediatamente
E( X n ) = µ ; Var( X n ) =
Ciò detto, diamo le seguenti definizioni.
σ2
.
n
Definizione 1
La successione di v.c. { X n } converge in probabilità o debolmente alla v.c. X se
Variabili casuali di uso comune
105
per ogni ε > 0 risulta
lim P{|Xn - X| < ε} = 1.
n→ ∞
Spesso, per dire che Xn converge in probabilità ad X si usa una delle seguenti notazioni
P
Xn → X
plim Xn = X ;
n→ ∞
Definizione 2
La successione di v.c. {Xn } converge in media quadratica (quadratic mean, ed
in forma abbreviata q.m.) alla v.c. X se
lim E[(Xn - X)2] = 0
n →∞
o equivalentemente
q . m.
Xn → X.
Si può dimostrare che la convergenza in media quadratica implica quella in
probabilità.
Si può dimostrare che, data la successione di v.c. {Xn }, se
1
n →∞ n 2
lim
n
∑
σ 2j = 0
j =1
allora
P
X n - µ(n) → 0
Data la successione di v.c. {X n } nel caso particolare in cui risulti E(Xi ) = µ
per ogni i allora
P
X n - µ → 0.
P
Se g( ⋅) è una funzione continua e se Xn → X allora
Capitolo 3
106
P
g(Xn ) → g(X).
Definizione 3
Data la successione di v.c. {Xn }, indicando con Fn ( x ) la funzione di ripartizione di Xn , n=1,2,..., e con F(x) quella di una generica v.c. X, diremo che
{Xn } converge in distribuzione o in legge ad X se
lim Fn (x) = F(x)
n →∞
in ogni punto di continuità di F(x).
Se {Xn } converge, in distribuzione ad X allora F(x) viene detta la distribuzione asintotica della successione di v.c.
Spesso, per dire che {Xn } converge in distribuzione ad X si scrive
L
Xn → X.
Si può dimostrare che la convergenza in probabilità implica quella in distribuzione. In generale, non è vero il viceversa. I due tipi di convergenza si equivalgono se X è una v.c. degenere cioè se assume il valore costante c con probabilità 1. In tal caso si dimostra che
P
Xn → c
L
⇔
Xn → c.
L
Se g(⋅) è una funzione continua e se Xn → X allora
E[g(Xn )] → E[g(X)].
Definizione 4
La successione di v.c. {Xn } converge uniformemente in distribuzione alla v.c. X
se
lim sup |F n ( x ) - F( x )| = 0.
n →∞ x
Si può dimostrare che se {Xn } converge in distribuzione a X e se la fun-
Variabili casuali di uso comune
107
zione di ripartizione di X è continua allora la convergenza è uniforme.
Qui di seguito riportiamo brevemente altri risultati sulla convergenza in
probabilità ed in distribuzione:
(a) date la successione di v.c. doppie {Xn , Yn }, se
P
L
|Xn - Yn | → 0;
Yn → Y
allora
L
Xn → Y.
(b) Date la successione di v.c. doppie {Xn , Yn }, se
L
Xn → X;
P
Yn → 0
allora
P
Xn Yn → 0.
(c) Date la successione di v.c. doppie {Xn , Yn }, se
L
Xn → X;
P
Yn → c
allora
L
Xn + Yn → X + c ;
L
Xn Yn → Xc.
Esempio 10
Quest'ultimo risultato trova una immediata applicazione al caso della v.c. T di Student
con g gradi di libertà che per g tendente ad infinito tende ad una normale standardizzata.
Infatti, dato che
Z
T(g) =
X/g
con Z Normale standardizzata ed X chi-quadrato con g gradi di libertà, e dato che
E(X/g)=1 mentre var(X/g)=2/g 2, segue immediatamente che X/g converge in media
quadratica, e quindi in probabilità, ad uno al divergere di g, ma allora T(g) convergerà in d istribuzione a Z e questo dimostra quanto affermato.
Capitolo 3
108
IL TEOREMA DEL LIMITE CENTRALE
Qui di seguito illustriamo un importante risultato teorico che giustifica il largo uso che in statistica viene fatto della v.c. Normale. A tale proposito supponiamo di avere una successione di v.c. indipendenti:
X1 , X2 , ..., Xn , ...
con medie finite e varianze finite e strettamente positive. Consideriamo la seguente v.c. standardizzata
Zn =
( X1 + X 2 + ... + X n ) − E( X 1 + X 2 + ... + X n )
=
var( X1 + X 2 + ... + X n )
=
( X1 + X 2 + ... + X n ) − ( µ1 + µ 2 + ... + µn )
σ 12 + σ 22 + ... + σ n2
Sotto condizioni abbastanza generali, si dimostra che
Zn converge in distribuzione alla v.c. Normale standardizzata per n → ∞ :
L
Zn → N(0, 1).
Questo risultato è una delle versioni del Teorema del limite centrale. Nelle condizioni date, per n finito ma grande si avrà l’approssimazione
Zn ≈ Z ~N(0, 1)
che equivale a
( X1 + X 2 + ... + X n ) − ( µ1 + µ 2 + ... + µn )
σ 12 + σ 22 + ... + σ n2
≈Z
da cui si ricava
(X1 + X2 + ...+ Xn ) ≈ (µ1+ µ2+ ...+ µn ) + σ 12 + σ 22 + ... + σ n2 ⋅ Z.
Ma al secondo membro dell’ultima espressione vi è una trasformazione lineare
Variabili casuali di uso comune
109
di una Normale standardizzata che, come sappiamo, è ancora una v.c. Normale e precisamente:
(X1 + X2 + ...+ Xn ) ≈ N[(µ1+ µ2+ ...+ µn ); (σ 12 + σ 22 + ...+ σ n2 )]
Esempio 11
Sappiamo che la v.c. Chi-quadrato con k gradi di libertà è data dalla somma di k
Normali standardizzate indipendenti al quadrato. Ma allora se k è grande (in pratica basta
che sia k ≥ 30) è possibile utilizzare il teorema limite centrale ed ottenere
χ k2 ≈ N(k, 2k)
Nella figura che segue è riportata la f.d. di un χ 220 e la relativa N(20,40)
Sappiamo che la v.c. Binomiale con parametri (N, p) è data dalla somma di N v.c. di
Bernoulli indipendenti. Se N è grande (in pratica basta che sia Np > 20, oppure p ≈ 0.5)
possiamo utilizzare il teorema limite centrale ed ottenere l’approssimazione
B(N, p) ≈ N(Np, Np(1-p))
Nella figura seguente viene confrontata la distribuzione di una Binomiale con la relativa
Normale.
110
Capitolo 3
Sappiamo che la v.c. di Poisson è il limite in distribuzione, per N→ ∞ e p→0 con
Np= λ , della v.c. Binomiale. Ma allora possiamo utilizzare il teorema limite centrale e se
λ è grande (in pratica, essendo λ =Np basta che sia λ ≥ 20) ed ottenere l'approssimazione
P(λ) ≈ N(λ, λ).
LA DISUGUAGLIANZA DI CHEBYCHEV
Il risultato che presenteremo qui di seguito, senza dimostrazione, permette
di mettere in relazione media e varianza di una qualsiasi v.c. con le probabilità.
Si tratta di un risultato molto generale dato che vale qualsiasi sia il fenomeno in
studio, l’unica condizione è che possegga media e varianza finite. Il rovescio
della medaglia è che e l’approssimazione che si ottiene è piuttosto grossolana.
Più precisamente,
data una qualsiasi v.c. X con media µ e varianza σ 2 finite, vale sempre la disuguaglianza seguente
1
P{|X - µ| ≥ k σ} ≤ 2 , ove è k > 0
k
Dato che è
1 = P{- ∞ <X-µ<+ ∞ } = P{|X-µ| ≥ k σ ∪ |X-µ|< k σ} =
P{|X -µ| ≥ k σ} + P{|X - µ|< k σ},
la disuguaglianza di Chebychev si può equivalentemente scrivere
Variabili casuali di uso comune
P{|X - µ|< k σ} ≥ 1 o anche
111
1
k2
P{µ - k σ < X < µ + k σ} ≥ 1 -
1
.
k2
Da quanto abbiamo appena detto segue immediatamente che data una
qualsiasi v.c. X con media e varianza finita per k = 1, 2, 3 si ha sempre
per k=1:
per k=2:
per k=3:
1
=0
12
1
P{µ - 2 σ < X < µ + 2 σ} ≥ 1 - 2 = 0.75
2
1
P{µ - 3 σ < X < µ + 3 σ} ≥ 1 - 2 = 0.888
3
P{µ - 1 σ < X < µ + 1 σ} ≥ 1 -
Esempio 12
In questo esempio calcoliamo le probabilità sopra viste per tre v.c. di cui è nota la relativa
distribuzione in modo da avere una idea della capacità della disuguaglianza di Chebychev di
fornire limiti più o meno accettabili.
(a) Supponiamo che sia X~N(µ; σ2), nell'esempio 8 abbiamo visto che qualsiasi siano i parametri µ e σ2 si ha sempre
per k=1: P{µ-1σ < X < µ + 1σ} = 0.6826
per k=2: P{µ-2σ < X < µ + 2σ} = 0.9545
per k=3: P{µ-3σ < X < µ + 3σ} = 0.9973.
2
(b) Supponiamo che sia X~U(0; 6) in tal caso sappiamo che è µ = 3, σ = 3 e risulta
immediatamente
2 3
= 0.577
6
per k=2: P{3 - 2 3 < X < 3 + 2 3 } = 1
per k=1: P{3 - 3 < X < 3 + 3 } =
per k=3: P{3 - 3 3 < X < 3 + 3 3 } = 1.
(c) Supponiamo di avere la seguente v.c.
Capitolo 3
112
xi
pi
0
1
32
1
5
32
2
10
32
3
10
32
4
5
32
5
1
32
per cui risulta µ = 2.5 e σ 2 = 1.25 ed otteniamo immediatamente
per k=1: P{2.5- 1. 25 < X < 2.5+ 1. 25 } = P{1.382 < X < 3.619} =
= P{X = 2} + P{X = 3} =
10 10
+
= 0.625
32 32
per k=2: P{2.5-2 1. 25 < X < 2.5+2 1. 25 } = P{0.264 < X < 4.736} =
= P{X = 1} + P{X = 2} + P{X = 3} + P {X = 4}=
=
5
10 10
5
+
+
+
= 0.9375
32 32 32
32
per k=3: P{2.5-3 1. 25 < X < 2.5+3 1. 25 } = P{-0.354 < X < 5.854} =
= P{0 ≤ X ≤ 5} = 1.
Come era da attendersi, i limiti che si ottengono con la disuguaglianza di
Chebychev sono molto grossolani. Nelle pratiche applicazioni questo strumento viene raramente utilizzato. Il suo uso è riservato quasi esclusivamente a
sviluppi teorici.
Capitolo 4
ELEMENTI DI TEORIA DELLA STIMA
PARAMETRICA
4.1 Introduzione
Nell’ambito della Teoria delle Probabilità si suppone di conoscere esattamente le caratteristiche delle variabili casuali o popolazioni soggette a situazioni
di incertezza. In altri termini, di ogni v.c. X, descrivente le caratteristiche di dati
fenomeni, si suppone di conoscere la loro distribuzione probabilistica. In pratica, di un fenomeno descritto da X si conoscono solo un numero finito e limitato di informazioni ed utilizzando queste bisogna risalire ad alcune caratteristiche determinanti della popolazione. Nel seguito supporremo che le informazioni di cui si dispone siano solo di tipo campionario. Tali informazioni vengono utilizzate per inferire sulla popolazione o sulla variabile casuale da cui le informazioni sono state ottenute. L’inferenza è, quindi, una tipica procedura induttiva: risalire dal particolare (le informazioni raccolte su X e di cui si dispone) al
generale (la popolazione o variabile casuale X oggetto di analisi) con tecniche
messe a punto dalla statistica.
D’altra parte, quando si parla di informazioni parziali o campionarie è necessario specificare il tipo di campione che si prende in considerazione dato che
questo influenza in modo decisivo le conclusioni che vengono prese sulla popolazione o v.c. E’ evidente che bisogna possedere un campione che sia rappresentativo della v.c. e non delle aspirazioni soggettive del ricercatore. Per evitare
gli inconvenienti legati alle aspirazioni soggettive degli operatori, nella formazione del campione bisogna affidarsi a procedure neutrali cioè a metodi che
prescindono da influenze personali.
Il modo più semplice per ottenere tali campioni, come accennato all’inizio
del corso, è di considerare campioni casuali, cioè campioni costruiti in modo tale
che ogni unità della popolazione abbia la stessa probabilità di fare parte del
campione. E’ utilizzando campioni casuali che verrà costruita la teoria della sti-
Capitolo 4
114
ma, quella del test delle ipotesi e la teoria della regressione così come verranno
illustrate nei capitoli seguenti. Infatti, nel seguito, quando si parlerà di campioni
ci si riferirà esclusivamente a campioni casuali.
4.2 La stima parametrica
L’importanza dell’inferenza risiede nella necessità e possibilità di costruire un
modello per la popolazione a partire dal campione su di essa osservato in
modo da potere capire quale è la struttura o alcuni aspetti importanti della
struttura della popolazione. A tale proposito supponiamo di avere un fenomeno aleatorio descritto dalla v.c. X con funzione di densità (nel caso continuo) o
distribuzione di probabilità (nel caso discreto) f(x; θ) ove la funzione f( .) si
suppone nota mentre θ è il parametro incognito da stimare (da cui il nome di stima
parametrica) utilizzando le informazioni campionarie che si hanno su X. Naturalmente, θ può anche essere, e spesso lo è, un vettore di k parametri incogniti:
θ = (θ1 , θ2 , ..., θk )
Esempio 1
a) Supponiamo che il fenomeno X sia distribuito come una v.c. Normale, cioè X~N(µ, σ 2).
In tale caso f( .) è data da
f(x; µ, σ2) =
1
2πσ
2
 1

exp  −
( x − µ ) 2
2
 2σ

ed è nota a meno del vettore composto da due parametri θ = (µ, σ 2).
b) Supponiamo che il fenomeno X si distribuisca come una v.c. Binomiale, cioè risulta
X~B(N, p). In tal caso f( .) è data da
N
p(x) =  x  p x (1-p) N - x,
 
x = 0 ,1, 2, ..., N
che è nota a meno del vettore di parametri θ = (N, p).
c) Supponiamo che il fenomeno di interesse X si distribuisca come una v.c. di Poisson, cioè sia
X~P( λ). In tal caso f( .) è data da
Elementi di teoria della stima parametrica
p( x ) =
che è nota a meno del parametro θ =λ.
115
λ x e −λ
, x=0, 1, 2,...
x!
Il nostro problema, come già detto in precedenza, consiste nel valutare quanto vale (nella terminologia statistica stimare ) il parametro incognito θ, nota la
forma di f( .), sulla base di un campione casuale estratto da X. Inoltre, si vuole
che la stima così ottenuta sia accettabile , cioè soddisfi un certo numero di proprietà ritenute indispensabili.
Sia quindi X~f(x; θ) ed x = (x 1 , x2 , ..., xn ) un campione estratto bernoullianamente (cioè con rimessa ) da X. Se si ripete l’operazione di campionamento
x varia al variare del campione e descrive la v.c. n-pla:
X = (X1 , X2 , ..., Xn )
detta v.c. campionaria. Dato che l’estrazione è fatta con rimessa le v.c. X1 , X2 ,
..., Xn sono fra di loro indipendenti ed inoltre, per quanto abbiamo illustrato
nel paragrafo 2.2, hanno tutte la stessa distribuzione coincidente con quella della
popolazione da cui sono state estratte:
Xi ~ f(x i ; θ), i = 1, 2 ,..., n
Questo vuole dire che la v.c. campionaria ha la distribuzione di probabilità
X = (X1 , X2 , ..., Xn ) ~ f(x 1 ; θ) f(x 2 ; θ) ... f(x n ; θ) =
n
=
∏
f(x i ; θ)
i =1
Naturalmente, qualsiasi sia il parametro da stimare la sua stima, che indichiamo
con θ̂ , sarà sempre una funzione del campione:
θ̂ = dn ( x ) = d(x 1 , x2 , ..., xn )
Al variare del campione θ̂ varia e descrive una v.c. che prende il nome di stimatore di θ:
θ̂ = dn ( X ) = d(X1 , X2 , ..., Xn )
(notare che, per semplicità, per la stima e lo stimatore utilizziamo, impropria-
116
Capitolo 4
mente, lo stesso simbolo) la cui distribuzione, note la forma funzionale di f( .) e
dn ( .), è teoricamente derivabile.
4.3 Cenni di teoria delle decisioni
Vediamo di affrontare in questo paragrafo il problema della stima da un
punto di vista molto generale. D’altra parte, abbiamo già accennato al fatto che
stimare vuole dire valutare in base all’esperienza (il campione) quanto vale un
qualche cosa (i parametri). Questo vuole dire che quando si stima un parametro
incognito non si fa altro che prendere una decisione su quel parametro mescolando informazioni a priori e informazioni campionarie. Vediamo, perciò, c ome il problema di stima può essere affrontato utilizzando la teoria delle decisioni
statistiche di cui nel seguito si daranno brevi cenni.
A tale proposito supponiamo di avere un fenomeno descritto dalla v.c. X
di cui si conosce la sua funzione di densità (o se discreta la sua distribuzione di
probabilità) a meno di un parametro θ. Supponiamo che tale funzione di densità sia data da f(x ; θ) con θ parametro incognito. Il problema è stimare θ utilizzando l’informazione sulla funzione di densità di X e le informazioni campionarie ottenute da X. Per fare questo definiamo:
- l’insieme degli stati di natura o insieme parametrico: Ω, definito da tutti i possibili
valori che θ può assumere
- la variabile casuale campionaria: Xn = (X1 ,..., Xn ) ottenuta da X con rimessa
- la funzione di decisione (o stimatore ) : dn = d(X1 ,..., Xn )
- l’insieme delle azioni : D, definito da tutte le possibili decisioni dn
- la funzione di perdita: l(d ; θ) che misura il costo che bisogna sopportare se si
sceglie la decisione dn e si verifica θ
- la funzione di rischio: R(dn ; θ) = E[l(dn ; θ) ] che rappresenta la perdita media.
Questo ci permette di giudicare uno stimatore non da come si comporta in
un dato campione, ma su tutti i possibili campioni che possono essere
estratti da X.
Utilizzando questi elementi, è necessario definire una regola, logicamente corretta, che ci permetta di scegliere in D la decisione d * ottimale in qualche senso.
Una regola di decisione accettabile potrebbe essere la seguente:
si sceglie d * tale che sia
Elementi di teoria della stima parametrica
R ( d * ; θ ) ≤ R ( d ; θ )


R ( d * ; θ ) < R ( d ; θ )
117
per ogni θ ∈ Ω
per almeno un θ ∈ Ω
La figura seguente illustra il caso in cui è D ={d1 , d2 , d3} ove la decisione d3
è quella preferibile dato che, qualsiasi sia θ∈Ω, il relativo rischio è inferiore a
quello delle altre due decisioni possibili.
Per poter calcolare R(dn ; θ) è necessario conoscere la forma funzionale di
l(dn ; θ). Nelle pratiche applicazioni si considera, per la sua semplicità di calcolo e
per alcune proprietà statistiche che possiede, la seguente
l(dn ; θ) = (dn - θ) 2
che viene anche chiamata perdita quadratica, oppure
l(dn ; θ)= d n − θ
Entrambe le perdite sopra definite sono nulle se la decisione presa coincide con
il parametro incognito, mentre crescono quanto più dn e θ divergono.
La regola di decisione sopra riportata ci permette di effettuare un parziale
ordinamento sull’insieme delle decisioni D dato che vi sarà un sotto insieme,
diciamo D*⊂ D che soddisferà la regola di decisione e D* potrà contenere anche infiniti elementi.
L’insieme D* viene detto insieme delle decisioni ammissibili rispetto alla funzione di perdita utilizzata.
Capitolo 4
118
È chiaro che si è interessati non a D, ma a D* ed al modo come scegliere
una sola decisione (stimatore ) da D*. Naturalmente, se D* contiene un solo d*
questa è la decisione (stimatore ) ottimale di θ. Se D* contiene più di un elemento
risulta impossibile, a meno di non introdurre altre condizioni, derivare la decisione ottimale.
Anche se esiste uno stimatore ottimo d *, secondo la regola di decisione
considerata, può succedere che sia d * = g(Xn ; θ), cioè lo stimatore ottimo risulti funzione del parametro incognito che si vuole stimare per cui d * ha poco
o punto utilità pratica.
Esistono diverse strategie che permettono di superare le difficoltà prima segnalate, qui di seguito accenniamo ad alcune.
METODO DEL MINI-MAX
Consiste nel considerare come stimatore di θ quella decisione d * tale che sia
max R(d *; θ) = min max R(d ; θ),
θ
d
θ
*
cioè si sceglie quello stimatore d il cui rischio massimo è più piccolo dei massimi di tutti gli altri stimatori. Questo metodo ha l’inconveniente di focalizzare
l’attenzione su un punto specifico: i massimi dei diversi rischi, per cui si può
presentare una situazione simile a quella della figura seguente.
In tal caso il principio ci porta a scegliere la decisione d2 anche se d1 è nettamente preferibile per quasi tutti i θ esclusi quelli di un intorno di θ * in cui il rischio di d1 è di poco superiore a quello di d2 .
In ogni caso, questo metodo è molto utile per alcune sue implicazioni teoriche e per i legami che ha con altri approcci.
METODO DELL'AREA MINIMA
Consiste nel considerare come stimatore di θ quel d * tale che
Elementi di teoria della stima parametrica
A(d *) =
∫
R(d * ; θ) d θ= min
Ω
d ∈D
∫
119
R(d ; θ) d θ
Ω
Cioè quello stimatore d * il cui rischio, al variare di θ, ha area minima. Questo
metodo di stima ha il limite di individuare come stimatore ottimale stimatori
che da un punto di vista intuitivo si è portati a considerare poco accettabili come illustrato nella figura che segue
in cui, se è A(d1 ) = ∞ e A(d2 ) < ∞ si sceglie con questo metodo d2 anche se,
intuitivamente, si è portati a preferire d1 .
METODO DELLE PROPRIET À OTTIMALI
La logica di questo principio è quella di considerare, come stimatori di θ,
quelle decisioni dn che soddisfano alcune proprietà ottimali. In altri termini, al
posto di D si considera un suo sotto insieme, D*, di modo che le decisioni appartenenti a D* soddisfano alcune condizioni di ottimalità. Una volta fissate
queste proprietà si elaboreranno dei metodi di stima che, automaticamente,
sotto date condizioni più o meno restrittive, posseggono alcune di quelle proprietà. Ciò permette di elaborare stimatori con date proprietà senza che debbano, di volta in volta, essere verificate.
4.4 Alcune proprietà ottimali degli stimatori
La stima di θ sarà accettabile se il relativo stimatore θ̂ soddisfa una o più
proprietà ritenute importanti. In questo paragrafo illustreremo brevemente a lcune di queste proprietà ottimali.
SUFFICIENZA
Data la v.c. X con f.d. o distribuzione di probabilità f(x ; θ), con θ inco-
Capitolo 4
120
gnito e da stimare, sia X=(X1 ,..., Xn ) la v.c. campionaria estratta da X e d( X) =
d lo stimatore di θ. È evidente che nel passaggio dalla v.c. campionaria n-pla X
= (X1 ,..., Xn ) alla v.c. semplice d = d( X) si possono perdere informazioni su θ.
Uno stimatore d( X) è sufficiente se possiede le stesse informazioni che
X=(X1 ,..., Xn ) ha su θ.
Ciò vuole dire che fra tutti i possibili stimatori di θ bisogna prendere in considerazione, se esistono, solo quelli che non disperdono alcuna informazione che
il campione ha sul parametro incognito che si vuole stimare.
Esempio 2
Se il parametro da stimare è µ e X=(X1 ,..., Xn ) la v.c. campionaria, è evidente che
m
d1 =
∑
i=1
con m < n
Xi,
è meno informativo su µ di quanto non lo sia
n
d2 =
∑
i=1
Xi .
Questo concetto viene formalizzato nella definizione seguente
d( X) è uno stimatore sufficiente per il parametro θ se e solo se la distribuzione
condizionata ( X|d( X) = d) è indipendente da θ per ogni d.
Da questa definizione segue immediatamente che se d è sufficiente per θ, quello
che rimane di X dopo la sintesi, cioè ( X|d( X) = d), non possiede altre informazioni sul parametro incognito θ.
Un modo semplice per stabilire se uno stimatore d( X) sia sufficiente per il
parametro θ è di utilizzare, piuttosto che la definizione precedente, che da un
punto di vista operativo è piuttosto complessa, il seguente teorema riportato
senza dimostrazione.
Teorema (di fattorizzazione)
Sia d(X) uno stimatore di θ∈Ω, condizione necessaria e sufficiente perché
Elementi di teoria della stima parametrica
d(X) sia sufficiente per θ è che sia
f(x 1 ,x 2 ,…,x n ; θ) = f(x ;θ) =
121
n
∏
i=1
f(x i ; θ) = g[d(x) ; θ] h(x)
ove g[d(x) ; θ] dipende da θ e dalle osservazioni campionarie solo tramite d(x),
mentre h(x) è indipendente da θ.
Come corollario a questo teorema si può dimostrare che se θ̂ = d(X) è sufficiente per θ, allora essa è l’unica statistica sufficiente per θ, ad eccezione di una qualsiasi
funzione di d(X), con una corrispondenza uno ad uno, che è ancora sufficiente per θ.
L’importanza di questo risultato risiede nel fatto che se esiste uno stimatore
sufficiente (cioè che non disperde le informazioni contenute nel campione) per
θ allora esistono infiniti stimatori sufficienti date da tutte le sue trasformazioni
biunivoche. Questo vuole dire che la sola sufficienza non basta per caratterizzare uno stimatore come accettabile, ma è necessario prendere in considerazione anche altre possibili proprietà. Funzioni che non sono in corrispondenza uno
ad uno con uno stimatore sufficiente possono, in particolari casi, essere ancora
sufficienti.
La definizione di sufficienza ed il teorema di fattorizzazione possono essere
estesi al caso di un vettore θ di k parametri, ma questo problema non verrà affrontato in queste lezioni.
Notare che, dato il parametro θ da stimare e la v.c. campionaria X=(X1, ..,
Xn ), esiste sempre uno stimatore detto ordinamento statistico,
( X ( 1 ) ≤ ... ≤ X ( n ) )
ottenuto ordinando in senso non decrescente le n osservazioni campionarie (x 1, ..,
x n ), che è sufficiente per il parametro o il vettore di parametri. In pratica, si
cerca di individuare la statistica sufficiente minimale cioè quel vettore di dimensione m < n e possibilmente con m = 1 nel caso di un singolo parametro, che
contenga le stesse informazioni che ha l’ordinamento statistico su θ. Ricordiamo che l’ordinamento dei dati l’abbiamo più volte utilizzato nella statistica descrittiva ed in particolare nel calcolo dei quartili e nella concentrazione.
Esempio 3
Supponiamo di avere un fenomeno X distribuito come una v.c. di Poisson con parametro
λ incognito. Si vuole derivare uno stimatore sufficiente per λ a partire dal campione casuale
x = (x 1 ,..., xn ) estratto da X.
In questo problema risulta θ = λ e
Capitolo 4
122
λ x e −λ
x!
p(x ; λ) =
e quindi, utilizzando il teorema di fattorizzazione, avremo
p(x 1, x2, ..., xn ; λ) =
n
∏
p(x i ; λ) =
i =1
n
∏
i =1
λx i e −λ
=
xi !
λ∑ i e −nλ
x 1 ! x 2 !... x n !
x
=
in cui si può identificare
d(x) =
n
∑
x i ; h(x) =
i =1
1
;
x 1 ! x 2 !... x n !
g[d(x ) ; λ] = λd ( x ) e −nλ
Questo vuole dire che lo stimatore
n
d(X) =
è sufficiente per λ, ma lo è anche lo stimatore
λ̂ =
∑
i =1
Xi
1
1 n
d(X) =
X
n i =1 i
n
∑
essendo una trasformazione lineare, e quindi biunivoca, di d(X). Si noti che in questo caso λ̂
è la media campionaria delle osservazioni.
Si noti che dato un generico θ relativo a X ~ f(x ; θ) e la v.c. campionaria
(X1 ,..., Xn ), spesso non si riesce a ricavare, ma molte volte non esiste, uno stimatore sufficiente per θ e quando esiste non è unico. Una implicazione di questa osservazione è che la sola sufficienza non basta per rendere uno stimatore accettabile.
NON DISTORSIONE
Una proprietà molto importante di uno stimatore è la non distorsione:
data la v.c. X~f(x ;θ), con θ incognito, lo stimatore dn (X) = d(X1 ,..., Xn ) è non
distorto per θ se E[dn (X)] = θ, qualsiasi sia n.
Elementi di teoria della stima parametrica
123
In altri termini, d(X) è non distorto per θ se il baricentro della sua distribuzione coincide proprio con θ, cioè d(X) non sovrastima né sottostima, in m edia, il parametro o il vettore di parametri di interesse.
La non distorsione non è invariante, in generale, sotto trasformazioni funzionali per cui anche se d(X) è non distorto per θ, di solito, g(d(X)) è distorto
per g(θ). Notare che la sola non distorsione non basta per rendere accettabile uno
stimatore dato che possono esistere stimatori non distorti ma del tutto inaccettabili come si mostra nell’esempio che segue.
Esempio 4
Sia data la v.c. X~f(x ; µ), con µ la media incognita di X. Sia x = (x 1 ,..., xn ) un
campione estratto da X, consideriamo gli stimatori:
µ̂ =
1 n
X = X;
n i =1 i
∑
µ̂( i ) = Xi ,
i=1, ..., n
mostriamo che tutti questi stimatori sono non distorti. Infatti, si ha:
1 n
 1 n
Xi  =
E(Xi ) = µ
E( µ̂ ) = E 
 n i =1  n i =1
∑
∑
E( µ̂( i ) ) = E(Xi ) = µ ,
i = 1, ..., n
che dimostra quanto avevamo asserito. Notare che µ̂ è la media campionaria.
Si può dimostrare che se uno stimatore possiede entrambe le proprietà che
abbiamo illustrato fino ad ora: sufficienza e non distorsione allora è lo stimatore ottimale per il parametro incognito nel senso che la sua variabilità è la più piccola
possibile.
Abbiamo visto che uno stimatore dn (X) dipende, oltre che dalle caratteristiche delle v.c. Xi , anche dalla numerosità n. Può capitare che dn (X) sia distorto
ma che tale distorsione diventi sempre più piccola al crescere di n. In tal caso
diremo che
lo stimatore dn (X) è asintoticamente non distorto per θ se risulta
lim E[dn (X)] = θ
n→∞
Capitolo 4
124
Naturalmente, uno stimatore non distorto è sempre asintoticamente non d istorto. Se uno stimatore è distorto se ne può misurare la distorsione
Dn = E( θ̂ ) - θ.
Dn tende a zero se lo stimatore è asintoticamente non distorto, mentre è identicamente pari a zero se è non distorto. Se è Dn > 0 lo stimatore sovrastima s istematicamente il parametro incognito, viceversa se è Dn < 0 lo sottostima s istematicamente.
EFFICIENZA
Sia X~f( x ; θ) con θ parametro incognito, sia X = (X1 , X2 , ..., Xn ) la v.c.
campionaria ottenuta da X e dn ( X ) uno stimatore di θ. La quantità
E[(dn (X) - θ) 2]
prende il nome di errore quadratico medio (spesso siglato con MSE) dello
stimatore dn ( X ). Risulta immediatamente:
E[(dn ( X ) -θ) 2] = E{[dn ( X ) - E(dn ( X )) + E(dn ( X )) - θ] 2} =
2
= E{[(dn ( X ) - E(dn ( X ))) + Dn ] }=
2
= E{[dn (X) - E(dn (X))] + D n2 +2[dn ( X )-E(dn ( X ))] Dn }=
2
= E{[dn (X) - E(dn (X))] } + D n2 } +
2Dn E[dn ( X )-E(dn ( X ))] = var(dn ( X )) + D n2
ove nell’ultima espressione si è tenuto conto del fatto che la media degli scarti
dalla media è sempre nulla. In definitiva abbiamo che, qualsiasi sia lo stimatore
dn ( X ) di θ risulta sempre
MSE(dn ) = var(dn ( X )) + D n2.
In altri termini, MSE(dn ) è la somma di due addendi:
- la varianza dello stimatore: var(dn )
Elementi di teoria della stima parametrica
125
- la distorsione al quadrato dello stimatore: D n2 = [E(dn)-θ] .
2
Come si può notare, a parità di altre condizioni, MSE decresce al decrescere
della distorsione e coincide con la varianza nel caso in cui lo stimatore è non
distorto. Quanto detto ci porta a restringere la classe degli stimatori a quelli non
distorti e all’interno di questa ricercare quello, se esiste, che ha varianza minima.
Gli stimatori che sono non distorti e con varianza minima fra quelli non distorti vengono chiamati efficienti o anche stimatori UMVU (Uniformly Minimum Variance Unbiased).
Fra le altre cose, si può dimostrare che se dn(X) è non distorto e sufficiente
per θ allora è anche UMVU. Ma risulta anche che non sempre esistono stimatori non distorti di un parametro θ che si vuole stimare. E quindi non sempre
esistono stimatori efficienti.
Esempio 5
Supponiamo di avere una popolazione X che assume i tre valori seguenti 1, 2, 3 e quindi
possiede la seguente distribuzione di frequenza
xi
fi
1
1/3
2
1/3
3
1/3
Tot
1
In tal caso risulta immediatamente µx= 2, σ x2 = 2 / 3 . Vogliamo stimare il parametro
θ=µx utilizzando i risultati di un campione estratto bernoullianamente di ampiezza n=2.
La v.c. campionaria X=(X1, X2), costituita da tutti i possibili campioni che si possono estrarre da X, assume in tal coso le seguenti 9 coppie di valori
(1, 1) (1, 2) (1, 3) (2, 1) (2, 2) (2, 3) (3, 1) (3 2) (3, 3)
che implicano la seguente variabile casuale campionaria doppia X = (X1, X2)
x1\x2
1
2
3
p.j
1
1/9
1/9
1/9
1/3
2
1/9
1/9
1/9
1/3
3
1/9
1/9
1/9
1/3
pi.
1/3
1/3
1/3
1
Come si può notare, le marginali X1 e X2 della v.c. campionaria hanno la stessa distribuzio-
Capitolo 4
126
ne della popolazione X ed inoltre sono indipendenti dato che risulta pi j = pi. p.j equivalente a
1/9=(1/3)( 1/3) per ogni i e j.
Per stimare µ usiamo le seguenti 6 funzioni della v.c. campionaria:
ˆ 1 = X1 ; µ
ˆ 2 = min( X 1 , X 2 ) ; µ
ˆ 3 = max( X 1 , X 2 ) ;
µ
ˆ 4 = ( X1 + X 2 ) ; X = ( X 1 + X 2 ) /2 ; µ 6 =
µ
X1 X 2
ed otteniamo per ciascuno i valori che possono assumere
µ̂1
1
1
1
2
1
1
µ̂ 2
µ̂ 3
µ̂ 4
X
µ̂ 6
1
1
2
3
1,5
1
1
3
4
2
2
1
2
3
1,5
2
3
2
2
2
2
4
2
2
2
2
3
5
2,5
3
1
3
4
2
3
2
3
5
2,5
6
3
6
3
3
3
6
3
3
che implicano le seguenti 6 v.c. per ciascuno degli stimatori considerato
µ̂1
xi
1
2
2
µ̂ 2
pi
1/3
1/3
1/3
xi
1
2
3
µ̂ 3
pi
5/9
3/9
1/9
1
xi
1
2
3
1
µ̂ 4
µ̂ 6
X
pi
1/9
3/9
5/9
xi
2
3
4
pi
1/9
2/9
3/9
xi
1
1,5
2
pi
1/9
2/9
3/9
1
5
6
2/9
1/9
2,5
3
2/9
1/9
1
1
xi
1
2
3
2
6
3
pi
1/9
2/9
2/9
1/9
2/9
1/9
1
Nella tabella che segue riportiamo la media, la varianza e l’errore quadratico medio (MSE)
per ciascuno dei 6 stimatori che abbiamo derivato
Stimatore
Media
Varianza
MSE
µ̂1
2
0,6666
0,6666
µ̂ 2
1,5555
0,4691
0,6666
µ̂ 3
µ̂ 4
2,4444
0,4691
0,6666
4
1,3333
5,3333
µ̂ 6
X
2
1,9101
0,3333 0,3512
0,3333 0,3593
Si nota così che i due stimatori µ̂1 e X sono non distorti, ma che X è il più efficiente dei 6
Elementi di teoria della stima parametrica
127
dato che il suo MSE è il più piccolo. Osserviamo che X è la v.c. media campionaria cioè la
media costruita sulla v.c. campionaria X =(X1, X2).
Esempio 6
Nell’esempio 3 abbiamo visto che se X~P( λ) con λ incognita, uno stimatore sufficiente di
λ è dato da
1 n
X .
n i =1 i
∑
λ̂ = X =
D’altro lato risulta
1
E( λ̂ ) = E
n

n
n
1
∑ X i  = n ∑

i =1
i =1
E(Xi) =
1 n
λ=λ.
n i =1
∑
Questo vuole dire che λ̂ è non distorto e sufficiente per λ e quindi efficiente.
Dato che non sempre esistono stime UMVU si è cercato di costruire stimatori sotto condizioni meno restrittive. La definizione seguente serve a tale
scopo
Si dice che dn (X) è efficiente asintoticamente per θ se per ogni altro stimatore
d n* (X) questi sono entrambi asintoticamente non distorti e risulta
[
lim E n ( d n ( X ) − θ )
n →∞
]
2
< lim E
n →∞
[ n( d
*
n(
]
2
X ) − θ ) , per ogni θ∈Ω.
In termini meno precisi, possiamo dire che dn (X) è asintoticamente efficiente
per θ se la sua variabilità tende a zero più rapidamente della variabilità di qualsiasi altro stimatore d n* ( X ) .
Infine, diciamo che dn (X) è più efficiente di d n* ( X ) se
EFR =
MSE( d n )
MSE( d *n )
<1
Quest’ultima formula permette di calcolare l’efficienza relativa fra due stimatori. Si osservi che nel caso in cui dn e d n* sono entrambi non distorti si ottiene più
semplicemente
Capitolo 4
128
EFR =
var( d n )
var( d n* )
CONSISTENZA
Abbiamo visto che non sempre si riesce a costruire stimatori UMVU per
un parametro di interesse sia perché non si riesce ad individuare uno stimatore
non distorto, sia perché spesso riesce difficile mostrare che questo è sufficiente.
Per ottenere stimatori con qualche proprietà ottimale si è spesso costretti a r ichiedere che soddisfino almeno qualche proprietà asintotica, quella più rilevante
da un punto di vista pratico è la consistenza:
lo stimatore dn (X) è consistente in media quadratica a g(θ) se
lim E[(dn (X) - g(θ))2] = 0; per ogni θ∈Ω
n→∞
Questa definizione implica che dn (X) è consistente per g(θ) in media quadratica
se contemporaneamente è
lim var(dn (X)) = 0; lim Dn (g(θ)) = 0
n→∞
n→∞
Naturalmente, nel caso in cui dn (X) è non distorto per g(θ) la definizione di
consistenza in media quadratica diviene
lim var(dn (X)) = 0
n→ ∞
Da un punto di vista grafico, la consistenza è illustrata nella figura seguente
Elementi di teoria della stima parametrica
129
Esempio 7
Data una v.c. X~f(x; µ), con σ2< ∞ , abbiamo visto che X è non distorta per µ
inoltre, tenendo conto che le Xi sono v.c. indipendenti, risulta
1 n

1
var( X ) = var 
X i  = 2
 n i =1  n
∑
n
∑
i =1
1
n2
var(Xi ) =
n
∑
σ2=
i =1
σ2
n
e quindi X è uno stimatore consistente in media quadratica per la media µ.
Esempio 8
Data una v.c. X~f(x ; µ , σ2) dimostriamo che
S2=
1
n
n
∑ (X i − X )2
i =1
è uno stimatore asintoticamente non distorto e consistente per σ 2.
Sappiamo che X è uno stimatore non distorto e consistente per µ. In particolare si ha
σ2
2
2
2
= var( X ) = E( X 2 ) - [E( X )] = E( X ) - µ
n
da cui si ricava
E( X 2) =
D’altra parte abbiamo
1
E(S 2) = E 
 n
=
1
n
n
∑
σ2
+µ2
n
n

i =1

∑ X i2 − X 2  =
E(X i2 ) - E( X 2) =
i =1
1
n
n
∑µ
2
−E (X
2
i=
e sostituendo in questa espressione quella ricavata per E( X 2) si ottiene
E(S 2) = µ2 -
σ2
σ 2 n −1 2
-µ2=σ2=
σ
n
n
n
)
Capitolo 4
130
che dimostra come S2 sia uno stimatore asintoticamente non distorto per σ 2. S2 viene detta
varianza campionaria . Da questo risultato è facile verificare che
1 n
2
(
Xi − X)
n − 1 i =1
∑
s2=
è uno stimatore non distorto per σ 2.
Inoltre si ha
var(S 2) = E[(S 2) 2] - [E(S 2)] 2 = E[(m2 - m12 ) 2] - [E(S 2)] 2 =
= E(m 22 ) - 2E(m2 m 12 ) + E(m 14 ) -
( n −1 ) 2 4
σ
n2
ove con
mr =
1 n
X ir
n i =1
∑
si è indicato il momento campionario r-esimo. E dopo alcuni passaggi algebrici si può dimostrare che è
n − 3
( n −1) 2σ 4 
var(S 2) =
γ 2 + 3 −

3
n −1 

n
Questo implica che S 2 è consistente, in media quadratica per σ 2. Ovviamente anche s 2 sarà
consistente in media quadratica per σ 2.
Esempio 9
Data la v.c. doppia (X,Y) da cui è estratto il campione casuale (Xi , Yi ), i=1, 2 ,...,n ,
il coefficiente di correlazione campionario, come stimatore della correlazione ρ di (X,Y), è dato
da
n
r=
∑ ( X i − X )( Yi − Y )
i =1
∑
Si può dimostrare che
12
n
 n

2
( Yi − Y ) 2 
 ( Xi − X )
i =1
 i =1

∑
Elementi di teoria della stima parametrica
131
lim var( n r) = (1-ρ2) 2
n→∞
e quindi r è uno stimatore consistente di ρ.
4.5 Alcuni metodi di costruzione delle stime
Nei paragrafi precedenti abbiamo illustrato alcune proprietà ottimali che
uno stimatore deve possedere per essere considerato accettabile. Inoltre, ricorrendo all’errore quadratico medio, o alla varianza per gli stimatori non distorti,
si è elaborata una procedura capace di discriminare fra diversi stimatori.
In questo paragrafo illustreremo i metodi di stima più utilizzati nelle pratiche
applicazioni che ci permettono di ottenere, automaticamente e sotto specificate
condizioni, stimatori che posseggono alcune delle proprietà analizzate. In sintesi,
i metodi di stima che verranno presi in considerazione sono:
(a) metodo dei momenti
(b) metodo dei minimi quadrati
(c) metodo della massima verosimiglianza
In fine, tratteremo brevemente della distribuzione di probabilità di alcuni dei
più noti stimatori. In questo ambito presenteremo due tecniche basate sul riuso
del campione (il jackknife ed il bootstrap) per ottenere informazione sulla distribuzione di probabilità degli stimatori.
METODO DEI MOMENTI
Questo metodo di stima è il più semplice da applicare ed è quello che, per
la sua utilizzazione, richiede un numero limitato di condizioni. Infatti, per utilizzarlo non è necessaria la conoscenza della distribuzione della popolazione su cui
si vuole fare inferenza, ma solo delle informazioni sulla struttura di alcuni dei
suoi momenti. In pratica, questo metodo di stima viene applicato quando non
è possibile ricorrere ad altri più precisi e potenti. La sua logica può essere illustrata nel modo seguente. Data la popolazione X~f(x ; θ ) con θ = (θ1 ,…,θk )
vettore di parametri incogniti e da stimare. Siano
+∞
µr =
∫
x r f(x ; θ) dx , r =1,2,...,k
−∞
i primi k momenti teorici della popolazione X che si suppone esistano finiti.
Naturalmente tali momenti sono funzione dei parametri incogniti θ , cioè
Capitolo 4
132
µr = µr (θ
θ ), r=1,2,...,k
Il problema che ci si pone è quello di stimare il vettore dei parametri θ a partire dalla v.c. campionaria X = (X1 ,…, Xn ) estratta da X. Se si suppone di c oθ ), r =1, 2, …, k , indicando con
noscere la forma funzionale µr (θ
1 n
X ir , r = 1 , 2 ,…, k
n i =1
i momenti campionari, uno stimatore di θ può essere ottenuto risolvendo rispetto a θ il seguente sistema di k equazioni in k incognite
mr =
(
∑
 µ1( θ ) = m 1
µ ( θ ) = m
 2
2

 .......... .........
 µ k ( θ ) = m k
)
Se indichiamo con θ̂θ = θˆ 1 ,....,θˆ k una soluzione del sistema, questa rappresenta uno stimatore di θ ottenuto con il metodo dei momenti.
Esempio 10
Se X=(X1 ,…, Xn ) è la variabile campionaria generata da un campione casuale estratto da
una qualsiasi v.c. X si ha
1 n
µ1 =
Xi = X
n i =1
∑
e quindi m1 = X è lo stimatore della media, se esiste, della v.c. X ottenuto con il metodo dei
momenti.
Un limite del metodo dei momenti è che bisogna, a priori, conoscere i legami che esistono fra i parametri da stimare ed i momenti della v.c. di cui si
vogliono stimare i parametri. L’uso di questo metodo di stima non richiede la
conoscenza della distribuzione della v.c., ma solo quella della forma funzionale
dei primi k momenti in funzione dei parametri che vogliamo stimare. Inoltre, è
un metodo di stima facilmente applicabile e quindi può essere utilizzato per g enerare stime preliminari. Il sistema da risolvere è, in generale, non lineare ed
ammette spesso più di una soluzione; in tali casi è necessario utilizzare un qualche criterio di scelta come l’errore quadratico medio.Si può dimostrare che gli
stimatori ottenuti con il metodo dei momenti sono, in generale, distorti.
Si può dimostrare che se la v.c. X di cui vogliamo stimare i parametri ammette i momenti fino all’ordine k, gli stimatori ottenuti con il metodo dei mo-
Elementi di teoria della stima parametrica
133
menti sono consistenti.
Esempio 11
Data una qualsiasi v.c. X con i primi due momenti finiti, si voglia stimare media e v arianza di tale v.c. utilizzando il metodo dei momenti. Dato che è µ1 = µ e µ2 = µ 2 +
σ 2 si ottiene il sistema seguente
 µ = m1
 2
2
µ + σ = m 2
da cui si ricava
µ̂ = X
σ̂ 2 =
1
n
n
1
n
∑ X i2 − X 2 = n ∑( X i − X ) 2 = S 2
i =1
i =1
e, come è ben noto, X è non distorto e consistente per µ, mentre σ̂ 2 è consistente ed asintoticamente non distorto per σ 2. Ricordiamo che lo stimatore non distorto di σ 2
s2=
1 n
( Xi − X )2
n − 1 i =1
∑
non è uno stimatore dei momenti.
Con il metodo dei momenti si può ottenere, facilmente, lo stimatore di
qualsiasi momento della v.c. X senza conoscere la forma funzionale della f.d. di
X. Infatti, lo stimatore dei momenti di µr , se esiste, è dato da
mr = µ̂ r =
1 n r
X
n i =1 i
∑
che risulta essere non distorto e consistente per µr .
METODO DEI MINIMI QUADRATI
Questo metodo, che viene fatto risalire a Gauss, è largamente utilizzato per
la stima dei parametri specie nell’ambito della modellistica econometrica. Il suo
successo e la sua conseguente diffusione sono legati, sia ad alcune proprietà che
i relativi stimatori, in date circostanze, posseggono, sia alla sua facilità di applicazione.
Capitolo 4
134
Per illustrare la logica di tale metodo supponiamo di avere la v.c. X, la cui
distribuzione di probabilità dipende dal parametro θ da stimare, e la v.c. campionaria X = (X1 ,…, Xn ) estratta da X. Supponiamo, inoltre, che sia
E(X) = g(θ)
In tali condizioni si ha
E(Xi ) = g(θ
θ ),
i = 1 , 2 , ..., n
questo implica che gli scarti
ei = Xi - g(θ
θ ),
i = 1 , 2 , ..., n
rappresentano le deviazioni dalla media che si riscontrano nelle osservazioni
campionarie. Ovviamente risulta
E(ei) = E(Xi ) - g(θ
θ ) = 0,
i = 1 , 2 , ..., n
Da quanto abbiamo detto sembra naturale scegliere come stimatore di θ quel
valore che minimizza la somma dei quadrati degli scarti, cioè
n
n
i =1
i =1
∑ e i2 = ∑ [X i
− g( θ ) ]2 = min .
θ
Lo stimatore così ottenuto viene chiamato dei minimi quadrati (o anche LSE:
Least Square Estimation).
Questo metodo può essere facilmente generalizzato al caso in cui si vuole
stimare un vettore di p parametri incogniti e le informazioni di cui si dispone
non sono necessariamente indipendenti ed identicamente distribuite. Questo
aspetto più generale lo tratteremo nell’ultimo capitolo quando illustreremo il
modello di regressione.
Per l’applicazione di questo metodo non è necessaria la conoscenza della d istribuzione della popolazione, ma solo la forma funzionale di
E(Xi ) = gi ( )
Gli stimatori ottenuti con tale metodo sono, in generale, consistenti ma non i
più efficienti.
Esempio 12
Data la v.c. Y con distribuzione dipendente dal parametro θ e tale che sia E(Y) = θ ed
Elementi di teoria della stima parametrica
135
E(Yi ) = θ, i=1,2,…,n, stimiamo θ con il metodo dei minimi quadrati. In tal caso si ha
∑ e i2 = ∑( Yi
− θ ) 2 = min imo
da cui si ricava
d
dθ
∑ e 2i = − 2 ∑( Yi − θ ) = 0
e lo stimatore LS per θ è dato da
1
θˆ =
n
∑Y
i
=Y
Notare che in questo caso è
d2
dθ
2
∑ e 2i = 2n > 0
e quindi effettivamente θ̂ minimizza la somma dei quadrati degli scarti. Notare che lo stimatore della media ottenuta con il metodo dei minimi quadrati coincide con quello ottenuto con
il metodo dei momenti.
METODO DI MASSIMA VEROSIMIGLIANZA
Anche l’idea originaria di questo metodo di stima, pure in un contesto differente, pare sia da attribuire a Gauss anche se è stato Fisher ad investigarne le
proprietà ed a divulgarlo. Gli stimatori generati da tale metodo vengono di solito indicati con MLE (Maximum Likelihood Estimators) ed hanno una grande rilevanza sia sul piano teorico che operativo dato che, generalmente, forniscono
stimatori abbastanza accettabili per le numerose proprietà, spesso di tipo asintotico, che posseggono. L’uso di questo metodo di stima, a differenza di
quanto accade con quello dei minimi quadrati, richiede la conoscenza della d istribuzione della v.c. di cui vogliamo stimare i parametri.
Data la v.c. X con distribuzione di probabilità o funzione di densità f(x ; θ)
nota a meno di θ, con θ ∈ Ω, la distribuzione di probabilità (nel caso discreto)
o la funzione di densità (nel caso continuo) della v.c. campionaria X = (X1 , X2 ,
..., Xn ) generata da n estrazioni bernoulliane da X è data da
f(x 1 , x2 , ..., xn ) = f(x 1 ; θ) f(x 2 ; θ) ... f(x n ; θ)
vista come funzione della n-pla x = ( x1 , x2 , ... , xn ). La stessa funzione si
chiama funzione di verosimiglianza se vista come funzione di θ e si indica con
Capitolo 4
136
n
L(θ ; x) =
∏
f(x i ; θ)
i =1
in questo caso (x 1 , x2 , ..., xn ) è noto e rappresenta gli n valori che il campione
casuale ha effettivamente assunti. Notare che la funzione di verosimiglianza è
funzione solo di θ ed è sempre non negativa dato che è il prodotto di n funzioni di densità.
Data la v.c. X con distribuzione f(x ; θ ) nota a meno di θ su cui è stata c ostruita la funzione di verosimiglianza L(θ ; x), si chiama stimatore ML di θ
quel θ̂ tale che
n
L(θ̂ ; x) = max L(θ ; x) = max
θ∈Ω
θ ∈Ω
∏
f(x i ; θ )
i =1
E' da notare che la definizione di stima ML è equivalente a
L(θ̂ ; x) ≥ L(θ ; x),
L(θ̂ ; x) > L(θ ; x),
∀ θ ∈ Ω;
per almeno un θ;
Se la v.c. X è discreta e quindi f(x i ; θ) = P(Xi = x i ; θ), risulta
L(θ̂ ; x) = max P(X1 = x 1 , X2 = x 2 ,…, Xn = x n ; θ)
θ ∈Ω
e nella stima ML bisogna scegliere quel θ per cui è massima la probabilità che si
presenti proprio il campione che è stato estratto. Se X è continua si ha
f(x i ; θ)d x i = P(x i ≤ Xi < x i + d x i ; θ)
che implica una interpretazione identica al caso discreto. Le definizioni sopra
date, e le relative interpretazioni, continuano a valere anche quando θ è un vettore di parametri. Nella figura seguente è schematizzata l’individuazione della
stima di massima verosimiglianza come individuazione del massimo assoluto
nella funzione di verosimiglianza.
Come abbiamo sottolineato, e come è illustrato nella figura che segue, nella
scelta della stima ML non è importante quanto vale il massimo della funzione
di verosimiglianza, ma dove questo è localizzato. Se invece di L(θ ; x) consideriamo il suo logaritmo, essendo la funzione logaritmo monotona crescente, i
Elementi di teoria della stima parametrica
137
punti dove la funzione è massima o minima rimangono immutati. Questo vuole
dire che L(θ ; x) e logL(θ ; x) forniscono esattamente la stessa stima ML. Spesso
si preferisce ricercare le stime ML massimizzando logL(θ ; x) perché questo ne
semplifica la procedura:
l( θ ; x) = logL( θ ; x) =
n
∑
log f(x i ; θ)
i =1
*
Riportiamo, senza dimostrazione, una serie di risultati che caratterizzano gli
stimatori ML e ne giustificano il loro largo uso.
Teorema
Sotto condizioni molto generali risulta che:
(a) se T è l’unica, a meno di trasformazioni uno ad uno, statistica sufficiente per θ e se θ̂ è lo stimatore ML di θ allora θ̂ è funzione di T;
(b) se θ* è uno stimatore UMVU di θ allora lo stimatore ML è funzione di θ*;
(c) θ̂ è l’unico stimatore ML consistente di θ;
(d) gli stimatori ML sono asintoticamente normali;
(e) se θ̂ è uno stimatore ML di θ allora g(θ̂ ) è uno stimatore ML di
g( θ), qualsiasi sia la funzione g( ⋅).
L’importanza del punto (e) sopra riportato è evidente dato che permette di
ottenere stimatori ML, con le relative proprietà, come funzioni di altri stimatori
ML. In particolare, se si vuole stimare g(θ) e questo è complicato, si può stimare θ con ML ottenendo θ̂ , che spesso risulta di più facile derivazione, e quindi
Capitolo 4
138
risalire a g( θ̂ ) che è sicuramente uno stimatore ML di g( θ). I risultati stabiliti
nel caso di stima ML di un solo parametro possono essere estesi, con qualche
complicazione in più, al caso di più parametri.
Esempio 13
Supponiamo che sia X ~ N(µ ; σ 2) con µ e σ 2 incogniti, si vuole stimare tali parametri con il metodo della massima verosimiglianza utilizzando il campione x = (x 1 ,…, xn )
estratto da X.
Dato che
1
 1

f(x ; µ , σ2) =
exp  −
( x − µ )2 
2
2
 2σ

2πσ
la funzione di verosimiglianza risulta pari a
L(µ , σ 2; x)=
n
∏( 2πσ
i =1
2 -n/2
= (2πσ )
2
 1

) -1/2 exp  −
( x i − µ )2  =
2
 2σ

 1
exp  −
2
 2σ
∑( x
i

− µ )2 

e prendendone il logaritmo si ha
n
n
1
log(2π) − log(σ 2) −
(x i − µ )2
2
2
2
2σ
2
Derivando quest'ultima espressione rispetto a µ e σ ed uguagliando a zero si ottiene il s eguente sistema di due equazioni in due incognite:
∑
log L(µ , σ2; x) = −
 1
σ 2 ( x i − µ ) = 0


− n 1 + 1
( x i − µ )2 = 0
 2 σ 2 2σ 4
∑
∑
da cui, dopo alcuni semplici passaggi, si ottengono gli stimatori ML
Elementi di teoria della stima parametrica
139
ˆ 1
Xi = X
µ = n

σˆ 2 = 1 ( X − X ) 2 = S 2
i

n
∑
∑
che, in questo caso particolare, coincidono con quelli dei momenti.
Se le osservazioni x i , i=1,2,…,n, pur essendo indipendenti non sono identicamente distribuite, e quindi la distribuzione di Xi è fi (x i ; θ), allora la funzione
di verosimiglianza diviene
L( θ ; x) =
n
∏
fi (x i ; θ)
i =1
e le proprietà degli stimatori ML non risultano più vere, in particolare non è
vero neanche che tali stimatori sono, in generale, consistenti.
4.6 La distribuzione di probabilità di alcuni stimatori campionari
Prima di entrare nel merito delle tecniche che presenteremo, notiamo che
nell’inferenza statistica si possono, schematicamente, individuare due momenti
distinti:
I
Il momento della stima di
una quantità statistica
II
Il momento della valutazione
delle proprietà della quantità
statistica stimata
L’ambito in cui ci muoveremo in questo e nel prossimo paragrafo è essenzialmente il II: valutare le proprietà statistiche di una quantità stimata con uno dei
metodi disponibili. In questo paragrafo l’attenzione è rivolta ad alcuni semplici
metodi analitici utilizzabili per derivare la distribuzione di alcuni stimatori come
quelli della media, della varianza, della correlazione, mentre nel prossimo tratteremo di due procedure numeriche basate su particolari tecniche di ricampionamento dei dati osservati per derivare la distribuzione, praticamente, di tutti gli
stimatori che si incontrano nelle applicazioni correnti.
Abbiamo visto che, data una v.c. X con µ e σ 2 finite ma incognite, degli
stimatori accettabili di questi parametri sono:
Capitolo 4
140
1
X=n
n
∑
per µ
Xi
i=1
M̂ e = Mediana{X1 , ..., Xn }
σ̂ 2 =
s2=
1
n
n
∑ (X
i
− µ )2
per Me
per σ 2, se µ è nota
i =1
1 n
(Xi − X)2
n − 1 i =1
∑
per σ 2, se µ è incognita
e che data una v.c. doppia (X,Y), uno stimatore accettabile del coefficiente di
correlazione ρ è quello campionario
n
r =
∑ ( X i − X )( Yi − Y )
i =1
12
n
 n

2
( Yi − Y ) 2 
 ( Xi −X )
i =1
 i =1

∑
∑
Dato che questi stimatori sono delle v.c. con distribuzione di probabilità dipendente da quella della v.c. di partenza, sorge il problema di derivare, in
modo esatto o approssimato, la loro distribuzione in modo da potere inferire
sulle relative proprietà statistiche.
DISTRIBUZIONE DI PROBABILITÀ DELLA MEDIA CAMPIONARIA
Data la v.c. X con media e varianza finite, supponiamo che σ 2 sia nota.
Uno stimatore accettabile di µ è la media campionaria
1 n
Xi
n i =1
ove le Xi sono, per costruzione indipendenti, inoltre sappiamo che
X =
∑
E( X ) = µ ; var( X ) =
σ2
n
che ci permettono di costruire la v.c. standardizzata
Elementi di teoria della stima parametrica
Z=
X −µ
var( X )
=
n
141
∑( Xi − µ )
σ
ed applicando il teorema limite centrale si ha
L
Z → N(0,1)
Questo vuole dire che se n è sufficientemente grande, in pratica basta che sia
n ≥ 30, qualsiasi sia la distribuzione di X risulta
 σ 2
X ≈ N  µ ;
n





Nel caso particolare, ma di grande rilevanza applicata, in cui è X~N(µ, σ2) segue immediatamente che, per una delle proprietà delle v.c. normali (una trasformazione lineare di normali indipendenti è ancora una normale) risulta
qualsiasi sia n.
 σ2
X ~ N µ ;

n





In definitiva, possiamo affermare che qualsiasi sia la distribuzione di partenza da cui è estratto il campione, se questa possiede media e varianza finita, allora la media campionaria X , per n sufficientemente grande, può essere approssimata da una v.c. normale con media µ e varianza σ 2/n.
Nelle due pagine seguenti mostriamo la distribuzione effettiva di X a
partire da v.c. note ma molto diverse fra di loro. I grafici vanno letti per colonna.
142
Capitolo 4
Distribuzione della v.c. X
Distribuzione di X per n=2
Distribuzione di X per n=4
Distribuzione di X per n=25
Elementi di teoria della stima parametrica
Distribuzione della v.c. X
Distribuzione di X per n=2
Distribuzione di X per n=4
Distribuzione di X per n=25
143
Capitolo 4
144
Le figure delle due pagine precedenti mostrano quanto sia potente, nel caso
dello stimatore della media, il Teorema del Limite Centrale. Infatti, partendo
da distribuzioni molto diverse (triangolare, uniforme, esponenziale, a forma di
U), per n=25 si ottiene una distribuzione che è molto simile a quella della normale.
Il risultato precedente può essere facilmente esteso al caso di trasformazioni
di X . Infatti, si può dimostrare che data la trasformazione Y = g( X ), se g(⋅)
ha derivata prima g’(µ) non nulla in µ, posto
v 2 = σ 2[g’(µ)] 2
si ha

v 2 
Y = g( X ) ≈ N  g( u ),
n 

cioè lo stimatore g( X ) di g(µ) è, per n sufficientemente grande, approssimativamente normale con media g(µ) e varianza v 2/n.
In definitiva, possiamo affermare che la distribuzione di X o di una sua trasformata regolare g( X ) è sempre, in modo esatto o approssimata, normale.
DISTRIBUZIONE DI PROBABILITÀ DEI PERCENTILI CAMPIONARI
Data una v.c. X continua, e quindi con f.d. f(x), indichiamo con Qp il
p-esimo percentile di X cioè tale da soddisfare l’equazione seguente
Qp
∫
f(x) dx = p,
−∞
e con Q̂ p la relativa stima ottenuta sul campione e definita nel modo seguente
[ proporzione osservazio ni ≤ Q̂ p ] ≥ p

Q̂ p : 
[ proporzione osservazio ni ≥ Q̂ p ] ≥ 1 − p
Se Q̂ p è unico si dimostra (teorema di Glivenko-Cantelli) che
Elementi di teoria della stima parametrica
145

p( 1 − p ) 
L
n Q̂ p − Q p → N  0 ;
.
 [ f ( Q )] 2 
p


In altri termini, sotto le condizioni sopra riportate, se n è sufficientemente grande (in pratica deve essere n ≥ 80) risulta
(
)

p( 1 − p )
Q̂ p ≈ N  Q p ;

n [ f ( Q p )]

2




Si noti che per p=0.5 il relativo percentile è la mediana, per p=0.25 è il primo
quartile, per p=0.75 è il terzo quartile. Si osservi che Q̂ p è asintoticamente non
distorta e consistente per Qp .
DISTRIBUZIONE DELLA VARIANZA CAMPIONARIA
Distinguiamo due diverse situazioni
(A) Caso di µ nota
2
Supponiamo che la v.c. X abbia media µ nota e varianza σ incognita e mo2
menti µ3 e µ4 finiti, in tal caso uno stimatore accettabile di σ è
σ̂ 2 =
1 n
∑( X i − µ ) 2
n i =1
Dato che le v.c. (Xi - µ)2 sono indipendenti per costruzione ed hanno media e
varianza finita per ipotesi, applicando il teorema limite centrale per n sufficientemente grande risulta
σˆ 2 ≈ N σˆ 2 ; var(σˆ 2 )
con
1 n
1
var( σ̂ 2 ) = 2
var((Xi - µ) 2) = var[( X - µ) 2]
n i =1
n
(
)
∑
=
1
[µ4 - 4µ3 µ + 6µ2 µ 2 - 3µ 4- σ 4]
n
Nel caso particolare in cui è X~N(µ; σ 2) da σ̂
2
si ottiene
Capitolo 4
146
n σˆ 2
σ2
n
 Xi − µ 
=


σ 
i =1 
∑
2
e per costruzione (Xi - µ)/σ = Zi è una normale standardizzata per cui
n σˆ 2
=
σ2
n
∑ Z i2 ~ χ n2 .
i =1
In altri termini, se la variabile casuale X è normale allora σ̂ 2 è proporzionale ad
una v.c. Chi-quadrato con n gradi di libertà, inoltre risulta immediatamente
σ 2 2  σ 2
2
2
E( σ̂ 2 ) = E 
χ n  =
E( χn ) = σ
 n
 n
σ 2 2  σ 4
2
2σ 4
var(σ̂ 2 ) = var 
χ n  = 2 var( χn ) =
.
n
 n
 n
(B) Caso di µ incognita
2
In questa situazione, uno stimatore accettabile di σ è dato da:
S2 =
1 n
( X i − X )2
n i =1
∑
e vale il seguente
Teorema
Se X~N(µ ; σ2) allora
n 2
S ~ χ n2−1 ;
σ2
 σ2
X ~ N  µ,
n




con X e S 2 indipendenti. Una conclusione analoga si ha se al posto di S 2 si considera lo stimatore ottimale s 2.
Elementi di teoria della stima parametrica
147
Questo risultato è di grande importanza pratica perché ci permette di derivarne altri di notevole interesse. In particolare, dato che
n( X − µ )
~ N(0; 1);
σ
n −1 2
s ~ χ n2−1
2
σ
e queste v.c. sono indipendenti, segue immediatamente che
t=
N ( 0 ;1 )
χ n2−1
( n −1 )
=
(X −µ) n
σ
1
n −1 s 2
σ 2 n −1
=
(X −µ) n
~ T(n-1)
s
Cioè, t si distribuisce, al variare del campione nell’universo campionario, come
una v.c. T di Student con (n-1) gradi di libertà. Come si può notare, la v.c.
(X −µ) n
s
ha una distribuzione indipendente dai parametri incogniti µ e σ2, per questo
viene detta pivotale.
DISTRIBUZIONE DELLA CORRELAZIONE CAMPIONARIA
Abbiamo visto che, data una v.c. doppia (X, Y) una stima accettabile della
correlazione fra X ed Y è data dalla correlazione campionaria la cui distribuzione è derivata nei teoremi seguenti:
Teorema
Data la v.c. (X, Y) ~ N2 ( µx , µy , σ 2x , σ 2y , ρ ) con correlazione ρ = 0, sia
(Xi , Yi ), i = 1,2,…,n, la v.c. campionaria estratta da (X , Y), sia r la stima campionaria di ρ, si dimostra che
r
n−2
1−r 2
~ T(n-2) .
Osserviamo che in questo caso X ed Y sono indipendenti.
Teorema
Data la v.c. (X , Y) ~ N2 ( µx , µy , σ 2x , σ 2y , ρ), con correlazione ρ ≠ 0, se
Capitolo 4
148
(Xi ,Yi ), i =1, 2, …, n, è la v.c. campionaria estratta da (X, Y), posto
1 1 + r 
Z = log 
;
2 1 − r 
zp=
1 1 + ρ 
log 

2 1 − ρ 
per n moderatamente grande risulta

1
4 − ρ 2 
+
(Z - z p ) ≈ N  0;

 n − 1 2( n − 1 ) 
E’ facile verificare che
1
4−ρ4
1
+
≈
n − 1 2( n − 1 ) n − 3
4.7 Due metodi di inferenza basati sul ricampionamento
Nel paragrafo precedente abbiamo derivato, in modo esatto o approssimato, la distribuzione degli stimatori della media, dei percentili, della varianza e
della correlazione utilizzando procedure di tipo analitico. Di solito queste procedure, esclusi i semplici casi sopra analizzati, richiedono assunzioni molto r estrittive come la normalità di X, ma anche sotto questa assunzione, in molti casi,
la distribuzione che si conosce è solo di tipo asintotico, quando si riesce a derivarla, e spesso non è analiticamente trattabile. Qui di seguito presentiamo due
procedure che forniscono informazioni sulla distribuzione di probabilità dello
stimatore riutilizzando ripetutamente i dati campionari.
Le procedure di riuso del campione, ed in particolare le metodologie che
vanno sotto il nome di Bootstrap e Jackknife, hanno assunto nei problemi di inferenza un ruolo sempre più rilevante come vie alternative a quella analitica classica. Questo ha portato alla comparsa di un numero sempre più rilevante di l avori nella letteratura internazionale sia di tipo teorico che applicato sulle metodologie citate. Una caratteristica specifica su cui poggiano queste tecniche di r icampionamento, ed il Bootstrap in particolare, è la simulazione con metodi Monte
Carlo di una procedura statistica, utilizzando il minor numero possibile di a ssunzioni a priori.
Nel seguito porremo maggiore attenzione alla procedura Bootstrap nella
versione non parametrica, che è quella che riserva i maggiori sviluppi ed i più
interessanti sbocchi applicativi, e la problematica ad essa connessa, e a quella
Jackknife per la sua semplicità d’uso e per le relazioni che questa ha con il
Elementi di teoria della stima parametrica
149
Bootstrap. Più in particolare:
- data la variabile casuale o popolazione X con f.r. F(x ; θ), con θ parametro incognito di interesse;
- sia X=(X1 ,…,Xn ) la v.c. campionaria estratta da X;
- sia θ̂ n = θ(X) uno stimatore di θ ottenuto con uno dei metodi classici di
stima,
si vuole inferire sulle proprietà statistiche di θ̂n come stimatore di θ. Da un
punto di vista statistico ciò può volere dire, per esempio:
(a) ottenere una stima di var( θ̂ n )
(b) fissate le costanti a e b, e ottenere una stima di P{a ≤ θ̂ n -θ ≤ b}
(c) trovare le quantità σ̂ , x ( 1−α) , x ( α) di modo che sia
P{θ ∈ [ θ̂ n - n-1/2 σ̂ x ( 1−α) ; θ̂ n - n-1/2 σ̂ x ( α) ]} = 1-2α.
La soluzione a problemi del tipo sopra esposti può essere ottenuta con due
diversi approcci:
(i) tenuto conto delle caratteristiche di X, delle informazioni contenute in
X=(X1 ,...,Xn ), del problema che si vuole risolvere, si deriva analiticamente, in
modo esatto o asintotico, la distribuzione di Rn (funzione monotona di θ̂ n )
e la si usa per ottenere risposte ai problemi del tipo (a)-(c). Questa impostazione è stata seguita nel paragrafo precedente.
I casi più noti di statistiche Rn sono
Rn (x ;θ̂ ) = θ̂ n - θ
Rn (x ; θ̂ ) =
θˆ n − θ
sn
con sn stima dello scarto quadratico medio di θ̂ n ;
(ii) in molte situazioni è difficile o impossibile ottenere la distribuzione di probabilità di Rn , altre volte l’approssimazione asintotica che si ottiene è non
soddisfacente specie per piccoli campioni. In questi casi si può tentare di
stimare la distribuzione di R n con metodi di simulazione Monte Carlo basati
Capitolo 4
150
sul ricampionamento da X=(X1 ,...,Xn ). Le procedure Bootstrap e Jackknife
sono di questo tipo.
Qui di seguito presentiamo sinteticamente le due procedure nella loro versione originaria.
LA PROCEDURA JACKKNIFE
Questa procedura è stata proposta per la prima volta da Quenouille nel
1956 e ripresa e generalizzata da Tukey nel 1958. E’ una procedura nata, ed
usata per molti anni, essenzialmente per ridurre o eliminare la distorsione presente in alcuni stimatori. Successivamente il suo uso è stato esteso alla stima
della varianza di stimatori ed infine per derivare una distribuzione approssimata
dello stimatore o di una sua trasformazione.
Dato il campione x =(x 1 ,…,x n ) e la stima θ̂ n = θ(x) di θ, costruiamo le
stime θ̂( i ) = θ(x (i) ), i=1, 2 ,…, n, ove
x (i) = x escluso xi .
Le n stime θ̂( i ) rappresentano la distribuzione Jackknife di θ̂ n , queste vengono
utilizzate per ottenere stime Jackknife di θ, della distorsione e della varianza di
θ̂ n . Più in particolare,
(i) la stima Jackknife di θ basata su θ̂ n è
1
θˆ J ( ⋅ ) =
n
n
∑ θˆ
(i)
;
i =1
(ii) la stima della distorsione di θ̂ n è
d̂ J ( θ̂ n ) = (n-1) ( θˆ J ( ⋅ ) - θ̂ n )
si dimostra che questa stima, sotto condizioni non eccessivamente restrittive,
è non distorta per la distorsione vera di θ̂ n
(iii) la stima Jackknife corretta di θ basata su θ̂ n risulta
(
)
(
)
θˆ J = θˆ n − ( n − 1 ) θˆ J(.) − θˆ n = θˆ J ( ⋅ ) - n θˆ J ( ⋅ ) − θˆ n =
Elementi di teoria della stima parametrica
=
[
]
[
(
n
1 n ˆ
ˆ =1
n
θ
−
(
n
−
1
)
θ
∑ n
(i)
∑ θˆ ( i ) + n θˆ n − θˆ ( i )
n i =1
n i =1
151
)];
(iv) la stima Jackknife della varianza di θ̂ n è data da
( )
n
[
n −1
V J2 θˆ n =
θˆ( i ) − θˆ J (.)
∑
n i =1
]
2
(v) Tukey nel 1958 ipotizzò che
tJ =
θˆ J − θˆ n
V θˆ
J
( n)
potesse essere approssimata con una v.c. normale standardizzata. Altri autori come Arvesen, Beran, Miller, Sen dimostrarono che l’ipotesi di Tukey è
vera sotto condizioni.
E’ importante osservare che la procedura Jackknife per la stima della varianza di θ̂ n non sempre fornisce risultati accettabili. Per esempio tale stima, a
meno di non considerare generalizzazioni particolari del Jackknife qui non presentate, non è consistente per la varianza della mediana campionaria e per i percentili campionari in generale.
Esempio 14
Sia θ = µ e θˆ n = X lo stimatore di µ. In questo caso è noto che
E( X ) = µ; var( X ) = σ2/n
ed una stima non distorta di var( X ) è
2
^ (x- ) = s
var
n
con
s2=
Se si utilizza la procedura Jackknife si ottiene
1 n
( x − θˆ n ) 2 .
n − 1 i =1 i
∑
Capitolo 4
152
x( i ) =
1
n −1
n
∑
j ≠i
xj=
n 1
n −1 n
n
1
∑x j − n −1 x i =
j =1
nx − xi
n −1
e quindi
x J(.) =
mentre è
n 2 x −nx
1 n
x
=
=x
∑
n i =1 ( i )
n ( n −1)
d̂ J ( x ) = ( n − 1 ) ( x J(.) − x ) = 0 .
In definitiva, in questo caso si ha
x J(.) = x J = x
Per la stima Jackknife della varianza di x si ottiene:
V J( x ) =
[
n −1 n
∑ x(
n i =1
j)
− x J(.)
]2 = n n−1 ∑  n xn −−1x i
n
i =1 
2

− x =

2
=
n −1 n  x − x i 
1 1 n
s2
2
=
[
x
−
x
]
=
.
∑
∑
i
n i =1  n − 1 
n n − 1 i =1
n
Come si può notare, in questo caso particolare, l’uso della procedura
Jackknife genera gli stessi stimatori di quella classica. Naturalmente questo non
succede in generale.
LA PROCEDURA BOOTSTRAP
Questa procedura è una generalizzazione di quella Jackknife. E’ stata proposta per la prima volta da Efron nel 1979. Ripresa da altri ricercatori, oltre allo
stesso Efron, è stata via via approfondita ed applicata a numerose situazioni
concrete.
Dato il campione x = (x 1 ,…, xn ), estratto bernoullianamente dalla v.c. X
con funzione di ripartizione F(x ;θ), data la stima θ̂ n =θ(x) di θ, si estraggono
con rimessa da x i campioni x 1* , x *2 ,..., x *B e si calcolano le stime di θ:
θˆ1* = θ ( x 1* ) , θˆ 2* = θ ( x *2 ) ,..., θ B* = θ ( x *B )
Elementi di teoria della stima parametrica
153
le B stime θ̂ *b rappresentano la distribuzione Bootstrap di θ̂ n e vengono utilizzate per ottenere:
(i) la stima Bootstrap di θ tramite
1
θˆ B =
B
B
∑θˆ
*
b
i =1
(ii) la stima Bootstrap della varianza di θ̂ n utilizzando la seguente
∑[
( )
1 B * ˆ
VB θˆ n =
θb − θ B
B − 1 b =1
]
2
(iii) si ipotizza che
tB =
θˆ B − θˆ n
1 /2
V θˆ
[ ( )]
B
n
si distribuisce asintoticamente come una normale standardizzata. Efron, Bickel,
Hall fissano le condizioni, che risultano essere molto generali, per cui una tale
affermazione è vera.
Capitolo 5
INTRODUZIONE AL TEST DELLE IPOTESI
5.1 Introduzione
Il problema che affronteremo qui di seguito è uno dei più importanti per la
Statistica sia da un punto di vista teorico che applicativo: cercare una regola che
permetta di decidere se, dato un certo prefissato livello di probabilità di commettere uno specificato errore, sia da accettare o da rifiutare una ipotesi formulata su una data v.c. o popolazione. Più precisamente, la problematica può
essere formalizzata nel modo seguente. Supponiamo di avere un fenomeno descritto da una v.c. X con distribuzione di probabilità (o funzione di densità, nel
caso continuo) f(x ; θ), con:
a) f( . ; θ) nota e θ∈Ω incognito (caso parametrico)
b) f( . ) incognita (caso non parametrico).
Nel seguito tratteremo più dettagliatamente del caso parametrico, ma non
tralasceremo di fornire alcuni utili strumenti per quello non parametrico.
Supponiamo di agire in un ambito parametrico e di voler analizzare un fenomeno X che è distribuito secondo una legge probabilistica f(x ; θ) nota a meno di θ. Supponiamo di aver estratto da X il campione x n = (x 1 ,…,x n ). Formuliamo le seguenti ipotesi su θ e quindi sulla struttura probabilistica di X
Ho : θ ∈Θo
verso
H1 : θ ∈ Θ1
con Θo ∩ Θ1 = Ø e tali che Θo ∪ Θ1 = Ω. Bisogna individuare una strategia ottimale in modo da poter decidere se è da accettare o rifiutare l’ipotesi Ho . Dato
che θ è incognito non sapremo mai se è vera Ho oppure è vera H1 ; potremo
156
Capitolo 5
dire solo che Ho è vera con un certo livello di probabilità. L’insieme Ω viene
detto insieme parametrico generato da θ; mentre le ipotesi Ho ed H1 sopra r iportate si chiamano rispettivamente ipotesi nulla ed alternativa. Nel caso particolare in cui Θo si riduce ad un solo punto, Ho si chiama ipotesi semplice. Una
considerazione analoga vale per Θ1 e H1 .
La decisione per stabilire se Ho è da rifiutare o accettare (in favore di H1)
viene presa utilizzando le informazioni campionarie contenute in x n = (x 1 ,…,
x n ). Al variare di tutti i possibili campioni, fissata la numerosità campionaria n,
si ottiene la v.c. campionaria Xn = (X1 ,…, Xn ) che descrive un insieme, chiamiamolo C, detto spazio campionario. Il problema del test è di individuare in
C una regione C1 per cui se il particolare campione x n = (x 1 ,…, xn ) di cui si
dispone appartiene a C1 si rifiuta Ho, mentre se appartiene all’insieme complementare Co = C - C1 non si può rifiutare Ho . Come si vede, la decisione se r ifiutare o meno Ho viene presa sullo spazio campionario, ma viene fatta valere
per quello parametrico. Schematicamente questo processo decisionale è rappresentato nella figura seguente:
Dato che non sappiamo in quale regione θ cade, le possibili conseguenze
che si possono avere nel rifiutare o accettare Ho sono le seguenti:
E1 = si rifiuta Ho , mentre in realtà Ho è vera
E2 = si accetta Ho , mentre in realtà Ho è falsa
G1= si accetta Ho , che è effettivamente vera
G2= si rifiuta Ho , che è effettivamente falsa.
Come si vede le prime due delle quattro conseguenze possibili sono errori,
Introduzione al test delle ipotesi
157
mentre le seconde due danno luogo a decisioni giuste. Da un punto di vista
formale questi quattro possibili risultati sono degli eventi condizionati e si possono scrivere:
E1 = (X n ∈C1|θ ∈Θo )
E2 = (X n ∈C-C1|θ ∈Θ1 )
G1 = (X n ∈C-C1|θ ∈Θo )
G2 = (X n ∈C1|θ ∈Θ1 ).
L’evento E1 prende il nome di errore del primo tipo, l’evento E2 prende il nome di
errore del secondo tipo.
Di solito, l’errore del primo tipo viene considerato più rilevante per le conseguenze pratiche che può portare e quindi si cerca di controllarlo in qualche
modo. Notiamo, infine che
G1 = E 1 ;
G 2 = E2 .
Dato che E1 , E2 , G1 , G2 sono degli eventi, essendo funzione della v.c. campionaria X n , ammetteranno una qualche probabilità e precisamente:
P(E1 ) = P( X n ∈C1|θ ∈Θo ) = α(C1 ; θ)
P(E2 ) = P( X n ∈C-C1|θ ∈Θ1 ) = β(C1 ; θ)
Naturalmente risulta
P(G1 ) = 1 - α(C1 ; θ)
P(G2 ) = 1 - β(C1 ; θ)
La probabilità dell’errore del primo tipo α(C1 ; θ) viene chiamata livello di
significatività del test. La probabilità di G2 , indicata di solito con π(C1 ; θ) = 1 β(C1 ; θ), viene chiamata potenza del test. La regione C1 viene chiamata regione critica, mentre Co viene detta regione di accettazione.
Come si può notare, i due errori sono funzione della regione critica e del
valore vero di θ . L’ipotesi Ho riflette, in generale, la situazione prima che
l’esperimento (l’estrazione del campione di n elementi) venga effettuato nel senso che se si accetta Ho la situazione rimane immutata. In questa impostazione
Capitolo 5
158
bisogna cautelarsi dalle conseguenze che si hanno per il rifiuto di Ho , dato che
ciò comporta la modifica delle condizioni e delle acquisizioni fino ad allora ritenute valide. E’ partendo da queste considerazioni che si ritiene più grave
l’errore del primo tipo rispetto a quello del secondo tipo ed è per questo che si
procede in modo da cautelarsi il più possibile rispetto alla possibilità di commettere tale errore (impostazione di Neyman e Pearson).
Esempio 1
Supponiamo di avere la popolazione X~f(x ; θ), ove X rappresenta il reddito di una
qualche categoria di lavoratori e sia θ = µ. Supponiamo che dalle dichiarazioni dei redditi
risulti che, in media, questi soggetti abbiano dichiarato µo = 15 mila euro. Supponiamo
che il ministro delle finanze sia poco convinto della veridicità delle dichiarazioni delle persone
suddette. In tal caso, le ipotesi che il ministro vuole sottoporre a test sono
Ho : µ ≤ µo = 15.000 verso H1 : µ > µo = 15.000,
osserviamo che lo spazio parametrico è dato dall’intera retta reale Ω = (- ∞ ; + ∞ ). Per
decidere se si deve accettare o rifiutare Ho si estrae, con rimessa, da X un campione di n elementi x n = (x 1 , x2 , ..., xn ) e sulla base delle informazioni contenute in questo campione si
decide su Ho . Al variare del campione varia x n e descrive la v.c. campionaria Xn = (X1 ,
X2 , ..., Xn ) che descrive il nostro spazio campionario. In questo contesto sulla base dei risultati del campione posso:
E1 = Penalizzare quei soggetti (rifiuto Ho ), mentre hanno detto il vero
E2 = Accettare quanto dichiarato (accetto Ho ), mentre hanno detto il falso
G1 = Accettare quanto dichiarato (accetto Ho ) ed hanno detto il vero
G2 = Penalizzare quei soggetti (rifiuto Ho ) che hanno dichiarato il falso.
Osserviamo come effettivamente E1 sia l’errore più grave perché se viene commesso si penalizza
(per esempio si commina una condanna penale) un innocente.
5.2 Il lemma di Neyman-Pearson
Come emerge dal paragrafo precedente, il problema che si deve affrontare
è di individuare la regione critica C1 tale che α(C1 ; θ) e β(C1 ; θ) siano piccoli
qualsiasi sia θ. D’altro lato, si evince immediatamente che se è α(C1 ; θ) = 0 necessariamente deve essere β(C1 ; θ) = 1 e viceversa e quindi non è possibile decidere rendendo nulli contemporaneamente α e β. La strategia per risolvere il
Introduzione al test delle ipotesi
159
problema, ormai generalmente accettata, è quella di scegliere C1 in modo che
α(C1 ; θ) non superi una certa soglia prefissata, qualsiasi sia θ, e contemporaneamente sia β(C1 ; θ) minimo. Più precisamente:
il test uniformemente più potente è quello che permette di scegliere la regione
critica C1 tale che, per ogni altra regione critica C*1 , sia contemporaneamente:
P(E1) = P(Xn ∈C*1 |θ∈Θo ) = P(Xn ∈C1|θ∈Θo ) ≤ α
min P(E2 ) = min P(Xn ∈C-C*1 |θ ∈Θ1 ) = P(Xn ∈C-C1|θ ∈Θ1 )
per qualsiasi θ ∈Θ1.
Un test che soddisfa la definizione sopra riportata ha la potenza massima
dato che in tal caso risulta π(C1 ; θ) > π(C*1 ; θ). I test uniformemente più potenti non sempre esistono, il lemma seguente mostra che tale test sicuramente
esiste, e mostra come ottenerlo, in un caso particolare:
Lemma (di Neyman e Pearson)
Data la v.c. X, che per semplicità supponiamo continua, con f.d. f(x ; θ), se
H o : θ = θo
verso
H 1 : θ = θ1
e quindi si ha Ω = θo ∪θ1, se Xn =(X1 ,…, Xn ) è la v. c. campionaria, allora il
test con
P(Xn ∈C1|θ = θo ) = α
basato sulla regione critica C1 tale che
L ( x n ; θ1 )
≥k
L( x n ; θ 0 )
per X∈ C1 ;
L ( x n ; θ1 )
<k
L( x n ; θ 0 )
per X ∉ C1 ,
ove k è una costante per cui P(Xn ∈C1|θ = θo ) = α mentre L(x n ; θ) è la funzione di verosimiglianza, è il test più potente.
Per poter applicare il lemma è, comunque, necessario conoscere la distribuzione di Xn a meno di θ in modo da poter costruire la funzione di verosimi-
Capitolo 5
160
glianza. Inoltre, questo lemma permette di ottenere la regione critica solo in casi
molto particolari.
Il problema maggiore risiede nel fatto di dovere individuare una statistica pivotale (cioè indipendente dai parametri della v.c. di partenza) che, fissata la probabilità dell’errore di primo tipo, minimizzi quello del secondo tipo qualunque
sia il valore del parametro incognito in Θ1. Se abbandoniamo la seconda caratteristica, o quanto meno richiediamo che questa si verifichi solo per grandi
campioni, si ha un allargamento della classe dei possibili test che si possono costruire in modo da comprendere anche casi di importanza applicativa. Questa è
la strategia che seguiremo nel seguito.
5.3 Test basato sul rapporto di verosimiglianza. Caso di Ho semplice (LRT)
Data la variabile casuale X con distribuzione di probabilità (discreta o continua) f(x ; θ) si voglia sottoporre a test le ipotesi
Ho : θ = θo verso H1 : θ ∈Θ1
con Ω = {θo ∪Θ1}. Sulla base di un campione casuale x n = (x 1 ,…,x n ) si c ostruisce la funzione di verosimiglianza
L( xn ; θ ) =
n
∏ f(xi ; θ)
i =1
che sotto Ho diviene
L( xn ; θo ) =
n
∏ f(xi ; θo )
i =1
mentre la stima di massima verosimiglianza di θ è, come sappiamo, quel θ̂ tale
che risulti
max L( xn ; θ ) = L( x n ; θ̂ )
θ ∈Ω
Si chiama rapporto di massima verosimiglianza (nel seguito MLR) la funzione
λ(x n ) =
L( x n ; θ o )
L( x n ; θ o )
=
,
max L ( x n ; θ ) L ( x n ; θˆ )
θ∈Ω
Introduzione al test delle ipotesi
161
da cui segue immediatamente che
0 < λ( x n ) ≤ 1.
Se λ( x n ) è vicino ad 1 si è portati ad accettare Ho dato che, per n grande, risulta
θo ≈ θ̂ ; viceversa, se λ( x n ) è lontano da 1 allora Ho è poco verosimile e si è
portati a rifiutarla dato che θo ≠ θ̂ .
Queste considerazioni ci portano ad affermare che
il test basato su LRT definisce la regione di rifiuto (regione critica) costituita da
tutti i campioni x n tali che
P{λ(Xn ) ≤ k | θ = θo } = α
E’ facile verificare che se anche H1 è semplice ed il parametro è uno solo, il
test basato su MLR coincide con quello più potente. Se H1 è composta il test
basato su MLR non sempre coincide con quello uniformemente più potente.
Per poter determinare la regione critica nel test basato su MLR è necessario
derivare la distribuzione di probabilità di λ(Xn ).
Nei due esempi seguenti tratteremo due casi particolari di test basati su
MLR.
Esempio 2
Supponiamo che X~N(µ; σ 2), con σ 2 noto, e si voglia sottoporre a test le ipotesi
Ho: µ = µo
verso
H 1: µ ≠ µo
sulla base di un campione di ampiezza n estratto da X. In questo caso si ha
 1
L(x n ; µo ) = (2πσ 2)-n/2 exp  −
2
 2σ
 1
L(x n ; x ) = (2πσ 2)-n/2 exp  −
2
 2σ
e quindi la regione critica è data da
∑

( x i − µo ) 2 

∑ (x
i

− x)2 

Capitolo 5
162
 1
λ( x n ) = exp  2
 2σ
∑ (x
− x )2 −
i
1
2σ 2
∑ (x
i
 1  x − µ
o
 − 
2
σ
/
n


che, equivalentemente, può essere scritta nel modo seguente
 n

= exp  −
( x − µo ) 2  = exp
2
 2σ

 x − µo

σ / n

− µo ) 2  =




2

≤ k

2

 ≥ -2 log k.

D’altro lato, dato che 0 < k ≤ 1 segue che log(k) < 0 e quindi - 2log(k) > 0. Posto
-2log(k) = z 2 si ottiene
 x − µo

σ / n
2

 ≥ z 2

⇔
zc=
|x − µo |
≥ z α/2.
σ/ n
La statistica z c viene chiamata statistica test e sotto l’ipotesi Ho , in questo caso, si distribuisce come una v.c. Normale standardizzata così che si rifiuta Ho al livello α se risulta z c ≥
z α/2, ove z α/2 si trova sulle tavole della normale standardizzata ed è ottenuta in modo che
fissato α deve essere
| X − µo | 2 
α = P
≥ z α/ 2 
 σ/ n

Il test basato su MLR ha alcune importanti proprietà come stabilito nel s eguente
Teorema (di Wilks)
Data la v.c. X con distribuzione f(x; θ) se si sottopongono a test le ipotesi
H o : θ = θo
verso
H1 : θ∈Θ1
utilizzando il rapporto di verosimiglianza allora
1)
L
-2 log λ( X n ) → χ
2
( g)
ove g è il numero dei parametri da sottoporre a test. Questo risultato permette
Introduzione al test delle ipotesi
163
di costruire il test anche se non è nota la distribuzione di λ(Xn )sotto la condizione che n sia sufficientemente grande (spesso basta che sia n ≥ 25)
2) Se C1 è la regione critica per Ho, allora
lim P{Xn∈C1|θ ∈Θ1} = lim P(G2 ) = 1
n→ ∞
n→ ∞
indipendentemente da θ. In altri termini, se n è sufficientemente grande allora la
potenza del test è vicina ad uno per ogni θ ≠ θo .
Esempio 3
Supponiamo che sia X~N(µ , σ 2), con µ e σ 2 incogniti, e si voglia sottoporre a test le
ipotesi
Ho : µ = 2; σ 2= 9
H1 : µ ≠ 2; σ 2 ≠ 9
verso
supposto di avere estratto un campione casuale con n=30, X =3, S2=30. In questo caso,
utilizzando il rapporto di massima verosimiglianza si ha
 1

( 2π 9 ) −n / 2 exp −
( x i − 2 )2 
 18
 =
λ(x n ) =
n
1
( 2πS 2 ) −n / 2 exp − 2
( x i − x ) 2 
2
S
n


∑
∑
 S2
= 
 9



n/2
n
n n

exp  − S 2 − ( x − 2 ) 2 
18
 2 18

o equivalentemente
- 2 log(λ(x n )) = -n [log S2 - log9 + 1 - S2/9 - ( x - 2)2/9].
La distribuzione esatta sia di λ(Xn ) che di -2log(λ(Xn )) è molto complicata e quindi si
può ricorrere all’approssimazione con il Chi-quadrato per ottenere una regione critica approssimata. In questo caso si ha
L
- 2log (λ(Xn )) → χ
Dato che
2
( 2) .
Capitolo 5
164
-2 log (λ(x n )) = -30[log30-log9 + 1 - 30/9 - (3-2)2/9] = 37.21,
dalle tavole del Chi - quadrato risulta
χ
2
( 2 ; 1−0.05 ) =
χ
5.99;
2
( 2 ; 1−0.01 =
χ
9.21;
2
( 2 ; 1−0. 001 ) =
13.8,
possiamo rifiutare Ho al livello α =1‰ .
5.5 Test basato sul rapporto di verosimiglianza. Caso di Ho complessa (LRT)
Se le ipotesi Ho e H1 sono entrambe complesse, cioè se
Ho : θ∈Θo
con Ω = Θo ∪Θ1, allora
H1 : θ∈Θ1,
verso
il test MLR è basato sul rapporto
sup L ( x n , θ )
sup L ( x n , θ )
λ(x n ) =
θ ∈Θ 0
sup L ( x n ,θ )
=
θ ∈Ω
θ ∈Θ 0
L ( x n ,θˆ )
Quanto abbiamo detto fino ad ora può essere esteso al caso in cui θ sia un
vettore di parametri incogniti.
Una generalizzazione di quanto affermato nel teorema riportato nel paragrafo precedente è data nel seguente
Teorema (di Wilks)
Data la v.c. X con distribuzione f(x ;θ) se si sottopongono a test le ipotesi
Ho : θ∈Θo
verso
H1 : θ∈Θ1
Allora
L
-2 log λ(Xn ) → χ
2
( g)
ove
g = Dimensione(Ω) - Dimensione(Θo ) .
Introduzione al test delle ipotesi
165
5.6 Particolari test basati su MLR
In questo paragrafo presentiamo alcuni test, di larga utilizzazione pratica, basati sul rapporto di massima verosimiglianza e sotto l’ipotesi che la popolazione, o le popolazioni, di partenza siano distribuite normalmente.
TEST SULLA MEDIA
Supponiamo che sia X~N(µ ; σ 2), con µ e σ
2
2
incogniti e quindi risulti
θ =(µ ; σ ), e si voglia sottoporre a test le ipotesi
Ho : µ = µo , σ 2>0
verso
H1: µ ≠ µo , σ 2>0
utilizzando il MLR test. In questo caso Ω è costituito da un semipiano, mentre
Θo si riduce ad una semiretta così come illustrato nella figura
Si ha
1
n
2
sup L(x n ; µ , σ ) = L(x n ; µo , s o2 ),
con
s o2 =
2
2
sup L(x n ; µ , σ ) = L(x n ; x , S ),
con
2
S =
θ ∈Θ 0
θ ∈Ω
∑( x
1
n
i
∑( x
e quindi il rapporto di verosimiglianza è
 1

( 2πs o2 ) −n / 2 exp− 2 ∑ ( x i − µo ) 2 
 2 s o

λ( x n ) =
 1

( 2πS 2 ) −n / 2 exp−
( x i −x ) 2 
2 ∑
 2S

− µo ) 2
i
− x)2
Capitolo 5
166
Dopo una serie di sviluppi, che per brevità non riportiamo, si arriva alla seguente statistica test:
t=
n ( n − 1) ( X − µ o )
∑( X
i
− X )2
=
n ( X − µo ) T
~ (n-1)
s
con
s2=
1
n −1
∑( X
i
−X) 2
ed indicando con tc il valore di T ottenuto nel campione
si rifiuta Ho se risulta
|tc| =
n x − µo
s
≥ t(n-1; 1-α/2)
Graficamente si ottiene
Naturalmente, con gli stessi ragionamenti sopra fatti si ha che:
a) se si vuole sottoporre a test le ipotesi
Introduzione al test delle ipotesi
Ho : µ ≤ µo , σ 2>0
verso
167
H1 : µ > µo , σ 2>0
si rifiuta Ho al livello α se risulta
tc =
n ( x − µo )
≥ t(n-1; 1-α) = - t(n-1; α)
s
.
Graficamente si ha una situazione come quella descritta nella figura seguente
b) se si vuole sottoporre a test le ipotesi
Ho : µ ≥ µo , σ 2>0
verso
H1 : µ < µo , σ 2>0
si rifiuta Ho al livello α se risulta
tc =
(
)
n x − µ0
≤ t ( n−1; α) = −t ( n−1;1−α)
s
Graficamente si ha una situazione come quella descritta nella figura seguente
Capitolo 5
168
Ricordiamo che la v.c. T di Student è simmetrica intorno allo zero e quindi
risulta t(n-1; 1-α) = - t(n-1; α). Si osservi ancora che se come stima di σ 2 al posto di
s 2 (stima non distorta di σ 2) si usa S 2 (stima asintoticamente non distorta di
σ 2), tenuto conto delle relazioni che intercorrono fra s 2 ed S 2, segue immediatamente che tc si può scrivere indifferentemente
tc =
n − 1( x − µ o )
n( x − µ o )
=
.
S
s
Nelle pratiche applicazioni, di solito, i livelli a cui si fissa α sono rispettivamente 5%, 1%, 1‰ ed è conveniente utilizzare la prima delle due espressioni.
Giustificazione empirica
Vediamo ora di dare una giustificazione, basata su argomentazioni di tipo
intuitivo, alla derivazione della statistica test tc sopra riportata. Per fare questo focalizziamo la nostra attenzione al caso in cui
Ho : µ ≤ µo ,
σ 2>0
verso
H1 : µ > µo ,
σ 2>0
(per gli altri il ragionamento è simile) ove µ e σ 2 sono i parametri incogniti di
una v.c. X distribuita come una normale. Sappiamo che la stima ottimale di µ e
σ 2 è data rispettivamente da x e s 2 e queste sono indipendenti. In tale situazione siamo portati a rifiutare Ho se ( x - µ o ) è positiva e grande, mentre siamo
portati ad accettarla se ( x - µ o ) è piccola. Bisogna stabilire cosa si intende per
grande e per piccola. Puntualizzando, se è vera Ho , una statistica test che sembra
Introduzione al test delle ipotesi
169
plausibile è
 σ2

( x - µo ) ~ N 0;

 n 
e dato che la sua distribuzione dipende dal parametro incognito σ 2 non può
essere usata per costruire il test. Se la standardizziamo otteniamo
x − µo
σ /n
2
=
n ( x − µo )
σ2
~ N(0, 1)
che, dipendendo ancora da σ, non è pivotale e, quindi, non utilizzabile come statistica test. Se al posto di σ 2 sostituiamo la sua stima ottimale s 2 otteniamo
tc =
n ( x − µo )
~ T( n-1)
s
che è la statistica test pivotale derivata in precedenza.
Esempio 4
Supponiamo di avere un fenomeno aleatorio X e che sia X~N(µ, σ 2) con µ e σ 2 incogniti. Si vuole sottoporre a test le ipotesi
Ho : µ ≤ 3
verso
H1 : µ >3
Estraiamo da X un campione casuale di n = 10 elementi ottenendo i seguenti risultati campionari
3; 5; 4; 2; 5; 6; 3; 4; 5; 2
La media e la varianza campionaria sono in questo caso, rispettivamente
x = 3.9;
che implicano
S 2 = m2 - x 2 = 1.69;
S = 1.3
Capitolo 5
170
n −1( x − µo ) 3( 3.9 − 3 )
=
= 2.077
S
1.3
Dalle tavole della v.c. T di Student con g = 9 gradi di libertà otteniamo
tc =
t( 9; 1-0.05) = 1.833;
t( 9; 1-0.01) = 2.821
Questo vuole dire che al livello di α = 5% si può rifiutare Ho ma non la si può rifiutare al
livello di α = 1%. In definitiva diremo che il test è significativo al 5%.
Se le ipotesi da sottoporre a test fossero state
Ho : µ = 3
verso H1 : µ ≠ 3
in tal caso il valore di |tc | sarebbe stato esattamente lo stesso, mentre avremmo avuto
t( 9; 1-0.025) = 2.262;
t( 9; 1-0.05) = 3.250
ed in questo caso non potevamo rifiutare Ho neanche al livello del 5% .
Esempio 5
Data la popolazione X~N(µ , σ 2), con µ e σ 2 incogniti, verificare
Ho : µ ≤ 20 verso H1 : µ > 20
utilizzando le informazioni di un campione di n=26 elementi da cui si è ricavato x = 22.5
e S 2 = 16. Sappiamo che in questo caso la regione critica ottimale, ottenuta tramite il rapporto di massima verosimiglianza, è data da
Introduzione al test delle ipotesi
tc =
x − µo
S / n −1
≥ t( 25;
171
1-α)
che in questo caso diventa
tc =
22.5 − 20
= 3.125 ≥ t( 25;
4 / 25
1-α)
ove t( 25; 1-α) è, al solito, l’(1-α) percentile della T-di Student con 25 gradi di libertà. In particolare, per i tre livelli di α = 5%; 1%; 1‰ si ottiene rispettivamente
t( 25; 1-.05) = 1.708;
t( 25; 1-.01) = 2.465;
t( 25; 1-.001) = 3.45
ed essendo
tc = 3.125 > t( 25; 1-.01) = 2.465;
tc = 3.125 < t( 25; 1-.001) = 3.45
si rifiuta Ho al livello α = 1%, ma non si può rifiutare al livello dell’1‰. In tal caso si dice
più sinteticamente che il test è significativo all’1%. D’altro lato, si ricava che la regione critica
è anche data da
λ2/n (x) =
1
≤ k1
T2
1+
n −1
o equivalentemente da
 T2 
 ≥ k2
-2log(λ(x)) = n log 1 +

 n −1
Ma per n moderatamente grande, se è vera Ho , sappiamo dal Teorema di Wilks che è
 T2 
 ≈ χ (21 )
-2log(λ(X )) = n log 1 +

n
−
1


e quindi una regione critica approssimata è ottenuta da
Capitolo 5
172
P{ χ (21 ) ≥ k} = 1 - P{ χ (21 ) < k} = α ⇔
P{ χ (21 ) < k| µ = µo } = 1-α
ove k = χ (21; 1− a ) si deriva dalle tavole della v.c. χ (21 ) . In questo caso risulta

T2 
 = 26 log
n log 1 +
 n −1
 ( 3.1257 ) 2
1 +
25


 = 8.57

Mentre per i soliti tre livelli di α = 5%; 1%; 1‰, dalle tavole del Chi-quadrato con un
grado di libertà otteniamo rispettivamente
χ (21; 1− 0.05 ) = 3.84; χ(21; 1 −0. 01 ) = 6.63; χ (21; 1 − 0.001) = 10.8
e dato che è
-2log(λ(x)) = 8.57 > χ (21; 1 −0.05 ) = 3.84;
-2log(λ(x)) = 8.57 < χ (21; 1 −0.001 ) = 10.8
si arriva alle stesse conclusioni di quelle ottenute con la regione critica esatta.
TEST SUL CONFRONTO FRA DUE MEDIE
Supponiamo che X1~N(µ1 ; σ 12 ) e X2~N(µ2 ; σ 22 ) siano due v.c. indipendenti e si voglia sottoporre a test, utilizzando MLR, le ipotesi
Ho : µ1 = µ2 ,
σ 12 >0, σ 22 > 0
Η 1 : µ1 ≠ µ 2 ,
σ 12 >0, σ 22 > 0
Per far questo utilizziamo i due campioni indipendenti
x 1 = (x 11 , x12 ,..., x1m );
x 2 = (x 21 , x22 ,..., x2n )
estratti, rispettivamente da X1 ed X2 . Si ha
Introduzione al test delle ipotesi
173
Ω = {µ1 , µ2 , σ 12 , σ 22 } : spazio a quattro dimensioni
Θo = {µ1= µ2 , σ 12 , σ 22 } : spazio a tre dimensioni.
Dato che i due campioni sono indipendenti la funzione di verosimiglianza è
L( x1 , x 2 ; µ1 , µ2 , σ 12 , σ 22 ) = L1( x 1 ; µ1 , σ 12 ) L 2 ( x 2 ; µ2 , σ 22 )
ed il rapporto di verosimiglianza è pari a
λ( x1 , x 2 ) =
L1 ( µ, σ12 ) L 2 ( µ, σ 22 )
[µ ,σ 1 ,σ 2 ] L ( x 1 , x 2 , σˆ 12 , σˆ 22 )
max
con µ = µ1 = µ2 . E risulta molto complicata la ricerca del massimo del numeratore di λ(x 1 ,x 2 ). Questo problema, noto come problema di Behrens-Fisher,
non ammette una soluzione esatta e le soluzioni approssimate trovate sono tutte
più o meno soddisfacenti. Una delle più semplici dovuta a Banerji nel 1960
propone di usare la seguente regione critica al livello α:
rifiutare Ho se la disuguaglianza seguente è vera
 t 2S 2 t 2 S 2
| x 1 - x 2 | ≥  1 1 + 2 2
n2
 n1




1 /2
⇔
n1n2( x 1 - x 2 )2 ≥ n2 t12 S 12 + n1 t 22 S 22
ove n1 = m-1, n2 = n-1, ti è il valore calcolato sulla T-di Student con ni gradi di
libertà tale che
{
}
P T( ni ) ≥ t i = α / 2
per i= 1, 2.
Il problema risulta di più facile soluzione se viene ridotto al seguente
Ho : µ1 = µ2 = µ , σ 12 = σ 22 = σ 2 >0
verso
Capitolo 5
174
H1 : µ1 ≠ µ2 , σ 12 = σ 22 = σ 2 >0
In questo caso le due v.c. X1 ed X2 hanno la stessa variabilità e quindi la
stessa forma e differiscono, se Ho è falsa, solo per la media (caso di omoschedasticità). Si ha che
Ω = {µ1 , µ2 , σ 2}:
2
Θo = {µ , σ }:
spazio a tre dimensioni
spazio a due dimensioni
In tal modo, la stima ML di µ1 , µ2 , σ 2 in Ω è data, rispettivamente, da
x1=
S2 =
1
m
m
∑
x 1i ;
x2=
i =1
1 m
( x 1i − x 1 ) 2 +

m + n  i =1
∑
1
n
n
∑
n
∑ (x
i =1
x 2i
i =1
2i

− x 2 )2 

per cui


m+n
L( x1 , x 2 , S )= 

2
2
 2π {∑ ( x 1i − x 1 ) + ∑ ( x 2 i − x 2 ) } 
( m +n ) / 2
2
exp{-(m+n)/2}
Viceversa, la stima ML di µ e σ 2 in Θο è data, rispettivamente, da
x=
S 2=
=
m x1 + n x 2
m +n
n

1 m
2
(
x
−
x
)
+
( x 2i − x 2 )2  =
∑ 1i
∑
1
m + n  i =1
i =1

n

1 m
mn
2
(
x
−
x
)
+
( x 2i − x 2 )2 +
( x1 − x 2 ) 2 
∑ 1i
∑
1
m + n  i =1
m +n
i =1

Introduzione al test delle ipotesi
175
e quindi, il rapporto di verosimiglianza risulta pari a


mn


( x1 − x 2 ) 2
m +n

λ( x ) = 1 + m
n

2
2
 ∑ ( x 1i − x 1 ) + ∑ ( x 2 i − x 2 ) 
i =1

 i =1
(m +n ) / 2
che dopo alcune semplificazione, non riportate per brevità, diviene:
2/(m+n)
[λ(X)]

T2 
= 1 +

 m + n −2 
−1
Per quanto detto nel caso del test su una sola media si ha:
1) Se è
H 1: µ1 ≠ µ2
⇔
H 1: µ1 - µ2 ≠ 0
si rifiuta Ho se risulta
tc =
x1 − x 2
( m − 1 )s 12 + ( n − 1 )s 22
mn( m + n − 2 )
> t ( n + m − 2 ; 1 −α/ 2 )
m +n
Graficamente le regioni di accettazione e rifiuto sono:
con g= m+n-2.
2) Se è
H 1: µ1 > µ2
⇔
H 1: µ1 - µ2 > 0
Capitolo 5
176
si rifiuta Ho al livello α se
tc =
x1 − x 2
( m −1 )s 12 +( n − 1) s 22
mn( m +n − 2 )
> t(m+n-2;1-α) ,
m +n
che graficamente diviene:
3) Se è
H 1 : µ1< µ2
⇔
H1 : µ1 - µ2 < 0
la regione critica è data da (si rifiuta Ho se)
tc =
x1 − x 2
( m −1 )s +( n − 1 )s
2
1
2
2
mn( m +n − 2 )
< t(m+n-2;α) = - t(m+n-2;1-α) ,
m +n
che graficamente diviene:
Giustificazione empirica
Vediamo ora di dare una giustificazione di tipo intuitivo alla derivazione
della statistica test tc sopra riportata. Per fare questo focalizziamo la nostra attenzione al caso in cui si vuole sottoporre a test
Ho : µ1 ≤ µ2 , σ 2>0
verso
Η1 : µ1 > µ2 , σ 2>0
ove i tre parametri µ1 , µ2 , σ 2 sono relativi a X1~N(µ1 ; σ 2) e X2~N(µ2 ; σ 2)
con X1 e X2 indipendenti. In tal caso siamo portati a rifiutare Ho se x 1 - x 2 è
Introduzione al test delle ipotesi
177
positiva e grande, mentre siamo portati ad accettarla se la stessa è piccola. Bisogna
stabilire cosa si intende per grande e per piccolo. Se è vera Ho una statistica test
plausibile è
 σ2 σ2 
= N
+
( x 1 - x 2 ) ~ N  0 ;

m
n



1 
2 1
0 ; σ  m + n  ,



ma non è utilizzabile dato che la sua distribuzione dipende dal parametro incognito σ 2. Se la standardizziamo otteniamo
x1 − x 2
~ N(0, 1)
1 1
σ
+
m n
che, dipendendo ancora da σ 2, non è utilizzabile come statistica test. Se al posto di σ 2 sostituiamo la sua stima ottimale
m
s2=
∑
( x1 i − x1 ) 2 +
i =1
n
∑( x
2i
−x 2 )2
i =1
=
m +n−2
( m − 1 )s 12 + ( n − 1) s 22 m S12 + n S 22
=
m +n − 2
m +n − 2
otteniamo sotto Ho
tc =
x1 − x 2
1/ 2
 1 1
s + 
m n
=
x1 − x 2
m S12 + n S 22
m n( m + n − 2 )
~ T(m+n-2)
m +n
che è la statistica pivotale derivata in precedenza. Notare che per la stima di σ 2,
comune a X1 e X2 , abbiamo utilizzato congiuntamente le informazioni campionarie provenienti da X1 e da X2 , in tal modo s 2 risulta non distorta e sufficiente, e quindi ottimale, per σ 2.
TEST SU UNA PROPORZIONE
Supponiamo di avere una popolazione finita P composta da H unità di rilevazione (ampiezza della popolazione) con un carattere di interesse dicotomico
nel senso che K unità della popolazione sono del tipo 1 ed H-K del tipo 0. In
Capitolo 5
178
pratica, vi sono molte situazioni con tali caratteristiche, per esempio: buono/cattivo; giusto/sbagliato; si/no; maschio/femmina; testa/croce; acquisto/non acquisto; produco/non produco; ecc. Indichiamo con
p=
K
H−K
, q = 1-p =
H
H
rispettivamente la proporzione degli elementi di tipo 1 e di tipo 0 presenti nella
popolazione. In genere, è nota H ma è incognita K e quindi p. Il problema che
si vuole affrontare è quello di costruire un test per il parametro incognito p del
tipo:
Ho : p = po
verso
H1 : p > po
con 0 < po < 1 fissato. Per dare una risposta al problema, estraiamo bernoullianamente (cioè con reimmissione) da P un campione di ampiezza n ottenendo
(x 1 , x2 , ..., xn ) . Al variare del campione ciascuna x i descriverà una v.c. Xi con
la stessa struttura della popolazione e precisamente
P(Xi = 1) = p;
P(Xi = 0) = 1-p = q,
per i =1, 2, ..., n .
In altri termini, ciascuna Xi è una v.c. di Bernoulli indipendente e la stima ottimale di p è data semplicemente dalla frequenza relativa:
ˆp = x 1 + x 2 + ... + x n
n
che, per quanto già visto per la v.c. Binomiale frequenza, risulta
ˆp ~ BF(n, p)
con
E( ˆp ) = p ,
var( ˆp ) =
pq
.
n
Ma allora, ricorrendo ad una procedura simile a quella del test sulla media, si
può utilizzare come statistica test la seguente
Introduzione al test delle ipotesi
zc=
ˆp − po
=
po ( 1 − po )
n
179
n ( ˆp − po )
po ( 1 − po )
ed è facile verificare che, al variare del campione, se Ho è vera, zc descrive la v. c.
Zc con
E(Zc) = 0,
var(Zc) = 1.
La distribuzione esatta di Z è di complessa derivazione. D’altro lato, ricordando
il teorema del limite centrale, si ricava facilmente che per n moderatamente grande si
ha
Zc ≈ N(0, 1).
In pratica, si può ritenere n grande se risulta n>10 nel caso in cui sia p≈q e negli
altri casi se è
npo ( 1 − po ) ≥ 15

30 Hpo ( 1 − po )

n
≥

 3 Hpo ( 1 − po ) − 11
in queste condizioni si rifiuterà Ho al livello α se risulta
zc > z(1-α).
Se l’ipotesi alternativa è H1: p < po la relativa regione critica al livello α è
data da
zc < z(α) = - z(1-α),
mentre se l’ipotesi alternativa è H1: p ≠ po la regione di rifiuto al livello α è data
da
| zc | > z(1-α/2)
ove le quantità del tipo z(α) sono i percentili della normale standardizzata e sono
riportati nelle tavole della normale standardizzata.
Capitolo 5
180
TEST SUL CONFRONTO DI DUE PERCENTUALI
Nel caso in cui si voglia sottoporre a confronto le percentuali p1 e p2 di due
popolazioni dicotomiche:
Ho : p1 = p2
verso
H1 : p1 > p2
utilizzando le informazioni di due campioni bernoulliani estratti indipendentemente da ciascuna delle due popolazioni:
x 11 , x12 , ..., x1n ;
x 21 , x22 , ..., x2m
con ragionamenti del tutto simili si ha che la statistica test risulta pari a
zc=
p̂1 − p̂ 2
[ p̂( 1 − ˆp )](1/ n + 1/ m)
ove abbiamo posto:
n
ˆp 1 =
∑x
i =1
n
m
1i
,
ˆp 2 =
∑x
2i
i =1
m
,
ˆp = n p̂1 + m p̂ 2 .
n +m
Sotto Ho , per n ed m sufficientemente grandi, risulta Zc ≈ N(0, 1) per cui
si rifiuterà Ho al livello α se risulta
z c > z(1-α).
Per i casi H1: p1 < p2 ed H1: p1 ≠ p2 si procede con la usuale tecnica vista
precedentemente.
Se l’estrazione campionaria è fatta senza reimmissione, come succede nelle pratiche applicazioni, gli sviluppi formali sono più complessi anche se i risultati finali si modificano solo marginalmente. Infatti, in questo caso, indicando con f =
n
la percentuale di elementi estratti dalla popolazione, detta anche frazione di
H
campionamento, si dimostra che è ancora
Introduzione al test delle ipotesi
mentre
ˆp = x 1 + x 2 + ... + x n ;
n
var( ˆp ) =
181
E( ˆp ) = p
pq
(1 − f )
n
e sotto Ho , se n è grande ed f piccola, si ottiene
zc =
p̂ − p o
po(1− po )
(1 − f )
n
che al variare del campione si distribuisce con buona approssimazione come
una v.c. N(0, 1) e quindi la regione critica è definita come al solito. E’ interessante osservare che per popolazioni infinitamente grandi è f = 0 ed i risultati,
come intuitivamente atteso, coincidono con quelli dell’estrazione bernoulliana.
Esempio 6
In una fabbrica con H=1120 operai ve ne sono alcuni che soffrono di una determinata
allergia che si sospetta dovuta alla presenza di una particolare sostanza usata nella lavorazione. Inoltre, è noto che nella popolazione in generale la percentuale di coloro che soffrono di
quella allergia, è pari a po = 0.30. Si vuole stabilire se fra gli operai della fabbrica vi è una
maggiore incidenza di quella patologia rispetto a quanto succede nella popolazione in generale
oppure no. In tal caso bisogna sottoporre a test
Ho : p = po = 0.3
verso
H1 : p>0.3
Per rispondere al quesito viene estratto a caso un campione di N=95 operai e sottoposti alla
relativa prova allergologica. Da queste prove è risultato che 36 operai erano allergici alla sostanza sospetta e 59 non allergici. Avremo, pertanto
ˆp = 36/95 =0.379,
1- ˆp = 59/95 = 0.621
e quindi, supponendo che l’estrazione sia bernoulliana otteniamo
z c = 1.68
e dato che per α = 0.05 risulta z(1-0.05) = 1.65, rifiuto l’ipotesi Ho al livello del 5%. Se
l’estrazione fosse stata effettuata senza reimmissione in tal caso avremmo avuto f= 95/1120
Capitolo 5
182
= 0.084821 e quindi
z c = 1.756
ed anche in questo caso avremmo rifiutato Ho al livello del 5%. In definitiva possiamo dire
che, con un livello di errore del primo tipo pari al 5%, la sostanza utilizzata in quella produzione ha una incidenza nell’allergia superiore a quanto riscontrato nella popolazione. Osserviamo, infine, che in questo caso si ha
np o ( 1 − po ) = 19.95 > 15

30 npo ( 1 − po

 95 > 3 np ( 1 − p ) −11 = 55.8
o
o

e quindi l’approssimazione alla normale risulta giustificata.
TEST SU DATI APPAIATI
Supponiamo di avere una popolazione doppia (X,Y) e precisamente (X,
Y)~N(µx , µy , σ 2x , σ 2y , σx y ), ove i cinque parametri della normale doppia
sono incogniti, e si voglia sottoporre a test
Ho : µy ≤ µx
verso
H1 : µy > µx
sulla base di un campione di ampiezza n estratto da (X,Y) :
(x 1 , y1 ), (x 2 , y2 ), ..., (x n , yn ) .
Osserviamo che, affinché il test abbia senso, i due caratteri X ed Y devono
essere confrontabili. In particolare X può essere interpretato come il carattere di
controllo, mentre Y come il trattamento in un dato esperimento a cui gli n soggetti
sono stati sottoposti. Per esempio se ad n individui viene prima somministrato,
a loro insaputa, un placebo e poi un dato farmaco allora X è l’effetto placebo
ed Y l’effetto farmaco. Osserviamo ancora che in situazioni del genere fra X ed
Y esiste di solito un qualche legame lineare misurato da σx y di cui bisogna tener
conto nel test. In altri termini, si tratta di un test sul confronto fra medie con
dati dipendenti. Osserviamo inoltre che, per ciascun soggetto, la decisione di
somministrare prima il farmaco o prima il placebo viene effettuata a caso.
La derivazione formale del test avviene con una procedure simile, anche se
più elaborata, a quella illustrata nel caso di X ed Y indipendenti. Qui di seguito
riportiamo, per semplicità, la giustificazione empirica.
Introduzione al test delle ipotesi
183
Anche in questo caso è plausibile rifiutare Ho se ( y - x ) è positiva e grande
e quindi bisogna stabilire quando quella quantità è grande e quando è piccola. Se
Ho è vera, per una proprietà della normale, al variare del campione si ha
 σ x2 +σ 2y − 2σxy
Y − X ~ N 0 ;

n

(
)




e standardizzando si ottiene
(
)
+σ 2y
− 2σ xy
n Y −X
σ x2
~ N(0, 1).
Sostituendo in quest’ultima espressione al posto di σ 2x , σ 2y , σx
ottimale data rispettivamente da
s 2x =
1
n −1
n
∑
( x i − x )2 ;
s 2y =
i =1
sxy =
1
n −1
si ricava
tc =
n
∑( x
i
n
∑( y
i
i =1
−x )( y i − y )
i =1
(
n Y −X
s x2
1
n −1
+s 2y
)
− 2 s xy
~T(n-1) .
Si rifiuta Ho al livello prefissato α se risulta
tc > t(n-1; 1-α).
Con un ragionamento simile:
a) si rifiuta Ho : µy ≥ µx verso H1 : µy < µx se
tc < -t(n-1; 1-α) ,
y
− y) 2
la loro stima
Capitolo 5
184
b) si rifiuta Ho : µy = µx verso H1 : µy ≠ µx se
|tc | < t(n-1; 1-α/2) .
Notare che posto D = Y - X, che rappresenta il vantaggio del trattamento sul
controllo, si ha immediatamente
var(D) = var(Y-X) = σ x2 + σ 2y − 2σ xy
(
D ~ N µz , σ z2 = σ x2 + σ 2y − 2σ xy
)
di = yi - xi , i = 1, 2, ..., n ;
d=
1
n
n
∑
( y i − xi ) = y - x ;
var(D ) =
σ x2 + σ 2y − 2σ xy
i =1
s 2D =
n
1 n
( d − d ) 2 = s 2x + s 2y - 2 sx y ,
n − 1 i =1 i
∑
e la statistica test tc si può scrivere più semplicemente come
tc =
nd
~ T(n-1) .
sD
In altri termini, il test su dati appaiati si riduce al test sulla media di Z ed in
questo particolare caso si testa Ho : µD ≤ 0 verso H1 : µD > 0. Si osservi che
nelle pratiche applicazioni è conveniente calcolare la statistica test in questo ultimo modo.
Esempio 7
Nella tabella seguente abbiamo riportato il consumo di gasolio per miglia di N=7
macchine prima (X) e dopo un dato trattamento (Y)
Introduzione al test delle ipotesi
Macchine
xi
yi
di=yi -xi
1
17.2
18.3
1.1
2
21.6
20.8
-0.8
3
19.5
20.9
1.4
4
19.1
21.2
2.1
185
5
22.0
22.7
0.7
6
18.7
18.6
-0.1
7
20.3
21.9
1.6
Si vuole sottoporre a test l’ipotesi che il trattamento non ha avuto, in media, alcun effetto contro l’ipotesi che ha avuto un effetto positivo. Per far questo utilizziamo il test per dati appaiati
calcolando la stima della media e della varianza di Z. Otteniamo:
d=
1. 1 − 0.8 + 1.4 + 2.1 + 0.7 − 0.1 + 1.6 6
= = 0.857
7
7
s 2D = 1.022857 e quindi
tc =
7 0.857
= 2.237
1.0136
e dato che al livello α = 0.05 risulta t(6;1-0.05) = 1.943 avremo tc =2.237 > t(6;1-0.05) =
1.943 per cui rifiuteremo l’ipotesi che il trattamento non abbia alcun effetto e siamo portati ad
accettare quella che abbia, invece, un effetto positivo.
Notare che se in questo caso non avessimo tenuto conto della dipendenza dei dati avremmo
dovuto utilizzare la statistica test
tc =
x−y
(
( n −1 ) s x2 + s 2y
)
n 2 ( n −1 )
n
ottenendo tc = 0.97 che ci porterebbe, erroneamente, all’accettazione di Ho e quindi al rifiuto
che il trattamento abbia in media effetto sul consumo di gasolio.
TEST SULLA VARIANZA
Supponiamo che sia X1~N(µ ; σ 2), con µ e σ 2 incogniti, e si voglia sottoporre a test, utilizzando la MLR, le ipotesi.
Ho : σ 2 = σ
2
o
verso
H1 : σ 2 > σ
Nella figura che segue sono indicati gli spazi Ω , Θ1 , Θo .
2
o
Capitolo 5
186
Ω
Abbiamo già visto che è
 1
L(x n ; µ , σ 2) = (2πσ 2)-n/2 exp  −
2
 2σ
∑ (x

− µ)2  .

i
e dopo alcuni sviluppi si ottiene il rapporto di massima verosimiglianza:
S2
λ( x n ) =  2
 σo




n /2
2


1
n
exp  −
( x i − x ) +
2 ∑
2
 2σ o

dopo una serie di passaggi risulta
si rifiuta Ho al livello α se
1
σ 02
∑
( x i − x ) 2 > χ (2n−1; 1−α)
⇔
χ c2 =
( n −1)s 2
σ o2
=
nS 2
>χ
σ o2
2
( n−1 ;1 −α) .
Introduzione al test delle ipotesi
187
Se le ipotesi da sottoporre a verifica sono
Ho : σ 2 = σ
2
o
H1 : σ 2 < σ
verso
2
o
la regione critica per Ho , con gli stessi ragionamenti, diventa
1
σ 02
∑( x i − x )
2
<χ
2
( n −1 ; 1−α)
χ c2
⇔
=
( n −1)s 2
σ o2
nS 2
= 2 < χ (2n −1; 1−α)
σo
Giustificazione empirica
Qui di seguito diamo una giustificazione empirica per la determinazione
della regione di rifiuto del test. Osserviamo che si vuole sottoporre a test
Ho : σ 2 = σ o2
⇔
σ2
=1
σ o2
H1 : σ 2 > σ o2
verso
⇔
σ2
>1
σ o2
sulla base di un campione casuale (x 1 , x2 , ..., xn ) estratto da X~N(µ , σ 2).
Sappiamo che la stima ottimale per σ 2 è s 2 e quindi risulta plausibile utilizzare
come statistica test
s2
σ o2
nel senso che più questa quantità è grande più si è portati a rifiutare Ho . Ma sappiamo che, se è vera Ho , al variare del campione è
χc =
( n −1)s 2
σ o2
=
n S2
σ o2
~ χ (2n −1 )
che è pivotale e quindi utilizzabile per costruire il test.
Esempio 8
2
Data la popolazione X~N( µ ; σ ) si voglia sottoporre a test
Capitolo 5
188
Ho : σ 2 = σ o2 = 4 verso
H1 : σ 2 > σ
2
o
tenuto conto che sulla base di un campione di n=26 osservazioni risulta
x = 3; s 2 =
1
n
n
∑( x i − 3 ) 2
= 6.3
i =1
Sappiamo che la regione di rifiuto per Ho è data da
χ c2 =
n
∑
i =1
xi −x

 σ
o

2

( n − 1 ) s 2 nS 2
 =
= 2 ≥ χ (2n −1; 1−α)
2

σo
σo

nel nostro caso si ha
6.3
= 39.375
4
mentre dalle tavole del Chi-quadrato con (n-1) = 25 gradi di libertà risulta
χ c2 = 25
χ (2n −1; 1−0.05 ) = 37.7;
χ (2n −1;, 1−0.01 ) = 44.3
ed essendo
χ
2
c
< χ (2n −1; 1−0.05 ) = 37.7 e χ
2
c
> χ (2n −1; 1−0.01 ) = 44.3
si rifiuta Ho al livello del 5%, ma non si può rifiutare al livello dell’1%. In altri termini, il
test è significativo al 5%.
CONFRONTO FRA DUE VARIANZE
Supponiamo che siano X1~N(µ1 ; σ 12 ) e X2~N(µ2 ; σ 22 ) due popolazioni indipendenti e si voglia sottoporre a test le ipotesi
Ho : σ 12 = σ 22 = σ2
verso
H1 : σ 12 > σ
utilizzando le informazioni contenute nei due campioni casuali
x 1 = (x 11 , ..., x1n );
In questo caso è
x 2 = (x 21 , ..., x2m ) .
2
2
Introduzione al test delle ipotesi
189
Θo = {µ1 , µ2 , σ 2}
Ω = {µ1 , µ2 , σ 12 , σ 22 }
e quindi
max L( µ1 , µ2 , σ 12 , σ 22 ) = max L 1( µ1 , σ 12) max L 2 ( µ2 , σ 22 )
Ω
Ω
Ω
2
2
2
max L( µ1 , µ2 ,σ ) = max L 1( µ1 , σ ) max L 2( µ2 , σ )
Θo
Θo
Θo
E dopo alcuni passaggi dato che sotto Ho , è
n
∑( X
1i
F=
i =1
m
∑( X
2i
X1 ) 2 /( n − 1 )
=
X 21 ) 2 /( m −1 )
s 12
~ F( n −1; m −1 )
s 22
i =1
In conclusione, si rifiuta Ho al livello α se risulta
Fc =
s12
s 22
=
n − 1 m S12
> F(n-1, m-1;1-α) .
n m − 1 S 22
Per calcolare Fc si pone al numeratore la stima della varianza supposta in H1
maggiore. Naturalmente i valori della F(n-1, m-1;1-α) si ricercano sulle tavole della
F-di Fisher con (n-1 , m-1) gradi di libertà al livello 1-α.
Giustificazione empirica
Sappiamo che X1~ N(µ1 ; σ 12 ) e X2~ N(µ2 ; σ 22 ) sono indipendenti
e si vuole sottoporre a test le ipotesi
Ho : σ 12 = σ 22 ⇔
σ12
=1
σ 22
verso
H1 : σ 12 > σ 22 ⇔
utilizzando le informazioni contenute nei due campioni casuali
x 1 = (x 11 , ..., x1n );
x 2 = (x 21 , ..., x2m ).
σ12
>1
σ 22
Capitolo 5
190
Consideriamo le stime ottimali di σ 12 e σ 22 ottenendo s 12 e s 22 e la statistica
s 12
s 22
che ci porterà a rifiutare Ho quanto più questa è di molto più grande di 1, ma
sappiamo che sotto Ho è
s 12
~ F( n-1 ,
s 22
Fc =
m-1)
che è pivotale e quindi utile per costruire il test.
Esempio 9
Supponiamo che sia X1~N(µ1 ; σ 12 ) e X2~N(µ2 ; σ 22 ) si vuole sottoporre a test le
ipotesi
Ho : σ 12 = σ 22
verso
H1 : σ 12 > σ 22
sulla base di un campione di n=15 elementi estratti da X1 , che ha fornito
s 12 =
1
n −1
∑ (x
1i
− x 1 ) 2 = 8,
ed un campione di m=20 elementi estratti da X2 , che ha fornito
s 22 =
1
m −1
∑ (x
2i
− x 2 ) 2 = 4.
Sappiamo che in tali circostanze la regione critica ottimale è data da
Fc =
s 12
> F(n-1, m-1;
s 22
1-α)
e nel nostro caso è
Fc = 2 ;
F(14 , 19 ;
1- 0.05)
= 2.23
Introduzione al test delle ipotesi
191
per cui non si può rifiutare Ho al livello α = 5%.
TEST SUL COEFFICIENTE DI CORRELAZIONE
Bisogna distinguere due casi: ρ = 0 e ρ ≠ 0.
Caso di ρ=0
Supponiamo di avere la v.c. doppia (X, Y)~N2(µ1 , µ2 , σ 2x , σ
voglia sottoporre a test
Ho : ρ = 0
2
y
, ρ) e si
H1 : ρ ≠ 0
verso
sulla base del campione (x 1 , y1 ),…,(x n , yn ) estratto dalla normale doppia (X,
Y). In tal caso sappiamo che, sotto Ho , è
tc =
r n−2
2
~ T(n-2)
1−r
ove r è la stima dei momenti di ρ:
( x i −x )( y i − y )
r=
( x i −x ) 2
( yi − y )2
∑
∑
∑
Si rifiuta, al livello α, Ho se è
|tc| =
|r | n − 2
1−r 2
> t(n-2; 1-α/2) .
Caso di ρ ≠ 0
Si voglia sottoporre a test
Ho : ρ = ρo ≠ 0
verso
H1: ρ ≠ ρo , con 0 < |ρo | < 1.
È possibile trovare solo una regione approssimata basata sulla seguente trasformazione (detta di Fisher)
Capitolo 5
192
zc=
1 1 + r 
log 
;
2 1 − r 
1  1 + ρo 

log 
2  1 − ρ o 
zo =
dato che si può dimostrare, come accennato nel capitolo precedente, che sotto
Ho al variare del campione è
(Z c – z o )
L
n − 3 → N(0; 1),
questo risultato ci permette di derivare la seguente regione critica approssimata.
Per n moderatamente grande si rifiuta, al livello α , Ho se risulta
z c − z o n − 3 > z (1-α/2 ) ,
ove, al solito, con z(1-α/2) si è indicato l’(1-α/2)-esimo percentile della normale
standardizzata.
Esempio 10
Data la normale doppia (X, Y), vogliamo sottoporre a test le ipotesi
Ho : ρ = 0.5
verso
H1: ρ ≠ 0.5
sulla base di un campione di n=103 elementi e con r = 0.4. In queste condizioni è
zc =
e quindi
1  1. 4 
log 
 = 0.4236;
2  0.6 
zo =
1  1.5 
log 
 = 0.549
2  0. 5 
|z c – z o | 103 − 3 = |0.4236 - 0.549|10 = 1.254
Dalle tavole della normale standardizzata, con α =0.05, risulta z(1- 0.025) = 1.96, e con
quel fissato α non si può rifiutare Ho .
5.7 Alcuni test non parametrici
In questo paragrafo presenteremo brevemente alcuni test non parametrici di
diffusa utilizzazione in una grande varietà di pratiche applicazioni.
Introduzione al test delle ipotesi
193
TEST DI ADATTAMENTO
Supponiamo di avere una qualsiasi v.c. X discreta o discretizzata con struttura probabilistica incognita ed una v.c. Y discreta o discretizzata nota. Inoltre,
supponiamo che entrambe assumano le stesse modalità ai , le modalità possono
essere sia delle qualità che delle quantità. In particolare supponiamo che la d istribuzione di Y sia la seguente
yi
pio
a1
p1o
a2
p2o
a3
p3o
...
ak
pko
...
Tot.
1
Se poniamo pi = P(X = ai ), i =1, 2, ...,k , le ipotesi che vogliamo sottoporre a
test sono
Ho : pi = pio , i=1,2,..,k,
⇔
Distrib.(X) = Distrib.(Y)
H1 : pi ≠ pio , per almeno una i
⇔
Distrib.(X) ≠ Distrib.(Y)
Queste ipotesi vanno verificate sulla base di un campione di ampiezza n estratto
bernoullianamente da X e riportato nella distribuzione di frequenza della tabella
seguente
Valori xi
Frequenze ni
Stime di pi
a1
n1
ˆp 1
a2
n2
ˆp 2
…
…
…
ak
nk
ˆp k
Tot.
n
1
ove con ni abbiamo indicato la frequenza assoluta riferita alla modalità ai e con
ˆp i = ni /n la frequenza relativa, cioè la percentuale delle volte che su n prove
fatte su X si è presentato il risultato ai che, per quanto detto nel capitolo relativo
alle variabili casuali, sono stime ottimali delle probabilità pi .
Questo tipo di test lo risolveremo in due modi alternativi, ma che, di solito,
portano agli stessi risultati. Il primo modo è quello di calcolare il rapporto di
massima verosimiglianza ed utilizzare l’approssimazione asintotica. Precisamente, in questo caso è
Dimensione( Ω) = k-1;
Dimensione( Θo ) = 0,
Capitolo 5
194
notare che la dimensione di Ω è k-1 dato che le variabili sono k date da p1 , ...,
pk ed esiste l’unico vincolo
∑p
io
=
∑p
i
= 1.
Tenuto conto che ad ogni estrazione campionaria di tipo bernoulliano è associata una v.c. di Bernoulli, avremo n v.c. di Bernoulli indipendenti di cui n1 assumeranno il valore a1 con probabilità p1 , n2 assumeranno il valore a2 con probabilità p2 , ..., nk assumeranno il valore ak con probabilità pk ; la relativa funzione
di verosimiglianza sarà data da
k
L(pi ) =
∏
p nii
i =1
e il rapporto di massima verosimiglianza è
k
λ=
∏
p nioi
∏
ni
i
i =1
k
k
=
p̂
∏
i =1
n
 p io  i
  = n n
 p̂ i 
k
∏
i =1
n
 p io  i
 
 ni 
i =1
e quindi, per n sufficientemente grande, sotto Ho si ha
-2 log(λ) = - 2
k
∑
ni log (pio / ˆpi ) = -2n log(n) - 2
i =1
k
p 
∑ n i log  nioi  ≈ χ
i =1


2
( k −1 )
Si rifiuta Ho al livello α se risulta
-2 log(λ) > χ
2
( k−1, 1−α) .
Alternativamente, si può anche dimostrare che, se n pio ≥ 5 per tutti gli i =1,
2 ,…,k, allora se Ho è vera risulta
χ 2c =
( n i − n pio ) 2
=
n pio
i =1
k
∑
k
∑
i =1
n 2i
− n ≈ χ(2k −1 )
n p io
Introduzione al test delle ipotesi
195
e si rifiuta Ho al livello α se risulta
χ c2 > χ (2k −1; 1−α) .
Il test basato sul Chi-quadrato sopra descritto è indipendente dalle modalità
ai e quindi può essere applicato anche a fenomeni qualitativi non ordinabili. Si
dimostra che questo test è poco potente, cioè la probabilità dell’errore del secondo tipo è elevata e si tende a non rifiutare Ho anche quando è manifestamente falsa.
Se la distribuzione della v.c. di confronto Y è continua, per esempio
nell’intervallo (a, b) contenente il minimo ed il massimo delle ai , e se supponiamo che le ai siano state ordinate in senso crescente, questa viene discretizzata
calcolando le probabilità
pio = P{hi-1 ≤ Y < hi}, per i=2,...,k-1
p1o = P{a ≤ Y < h2}; pko = P{hk-1 ≤ Y ≤ b}
ove si è posto hi = (ai + ai+1)/2. Queste probabilità verranno utilizzate per calcolare la relativa regione critica.
Esempio 11
In un grande magazzino si suppone che la probabilità che un avventore entri nel negozio e faccia delle compere in uno dei sei giorni lavorativi della settimana è data da:
giorni:
pio:
L
0.1
M
0.1
M
0.1
G
0.1
V
0.2
S
0.4
Si vuole verificare tale ipotesi sulla base di una indagine campionaria fatta su n=200 clienti
scelti a caso che ha dato i seguenti risultati
Capitolo 5
196
Distribuzione empirica
giorni
L
M
M
G
V
S
Tot.200
Distribuzione teorica
ni
ˆpi
giorni
24
25
23
18
45
65
0.120
0.125
0.115
0.090
0.225
0.325
1.000
Tot.
L
M
M
G
V
S
n pio
20
20
20
20
40
80
200
Sappiamo che una regione critica approssimata è data da
k
∑
-2log(λ) = -2
i =1
p 
ni log  io  > χ (2k −1; 1−α )
 p̂ i 
ove k rappresenta il numero delle modalità della distribuzione, ed una alternativa alla precedente è data da
k
( n i − np i ) 2
χ c2 =
> χ (2k −1; 1−α )
np
i
i =1
∑
È facile verificare che nel nostro esempio risulta
-2log(λ) = -2
k
∑
i =1
χ c2 =
k
∑
i =1
χ
p 
ni log  io  = 6.152
 p̂ i 
( n i − n p io ) 2
= 6.1375
n pio
2
( k −1 ,1−0 .05 )
= 11.1
ed ambedue le regioni critiche ci portano all’accettazione di Ho .
TEST SULL’INDIPENDENZA
Data una qualsiasi v.c. doppia (X, Y) discreta si vuole sottoporre a test
Ho : X ed Y sono indipendenti
Introduzione al test delle ipotesi
197
verso
H1 : X ed Y non sono indipendenti
sulla base di un campione casuale di n unità estratto da (X, Y). Se supponiamo
che X ed Y sono v.c. discrete o discretizzate ed assumono coppie di valori (x i ,
yj ) per cui P(X=x i , Y=yj )= pi j , i=1, ..., k , j=1, ..., h , allora l’ipotesi Ho è equivalente alla seguente
Ho : pi j = pi . p. j ,
per ogni i , j ,
ove con pi. e p.j abbiamo indicato le probabilità delle marginali X ed Y e più
precisamente
pi . = P(X = xi ) ,
p. j = P( Y = yj ) .
I risultati del campione possono essere riportati in una tabella a doppia e ntrata del tipo seguente
Y\X
y1
y2
...
yk
x1
x2
…
xh
n11
n12
...
n1k
n1 .
n21
n22
...
n2k
n2 .
…
…
...
..
...
nh 1
nh 2
...
nhk
nh .
n. 1
n. 2
...
n. k
n
in cui le marginali ni . ed n. j sono supposte fissate e quindi uguali per tutti i possibili campioni di ampiezza n che si possono estrarre da (X, Y). In queste condizioni risulta
Dimensione( Ω) = h k-1;
Dimensione( Θo ) = h-1+k-1
e quindi
Dimensione( Ω) - Dimensione( Θo ) = h k-1- (h-1+k-1) = (h-1) (k-1)
e questo perché esistono i vincoli:
(a) la somma delle frequenze ni j deve essere pari ad n,
(b) le frequenze marginali sono fissate.
Capitolo 5
198
Con un ragionamento simile a quello fatto per il test di adattamento, si verifica facilmente che la funzione di verosimiglianza è data da
L(pij ) =
∏p
n ij
ij
i,j
ed il rapporto di massima verosimiglianza diviene
k
λ=
h
∏ p̂ ∏ p̂
ni.
i.
i =1
n.j
.j
j =1
k
h
i =1
j =1
∏∏ ˆp
nij
ij
ove si è posto
ˆpi . = n i . ;
n
ˆp. j =
n.j
n
; ˆpij =
n ij
n
Anche in questo caso, per N sufficientemente grande, sotto Ho risulta
-2 log( λ ) =

∑∑ n

=2 

i
ij
log( n ij ) + n log( n ) −

∑ ni . log( ni . ) − ∑ n. j log( n. j )  ≈ χ
i
j
j

2
( k −1 )( h −1 )
e si rifiuta Ho al livello α se è
-2 log( λ) >χ 2[( k−1 )( h −1 ); 1−α ] .
ni .n. j
≥ 5, per ogni i, j (in altri termini, in ogni
n
casella della tabella doppia teorica le frequenze sono pari ad almeno 5), allora
Si dimostra anche che, se
Introduzione al test delle ipotesi
χ c2 =
k
h
∑∑
( n ij − n *ij ) 2
n *ij
i =1 j
199
≈ χ (2k−1 )( h−1 )
ove si è posto
n *ij =
ni . n. j
n
e si rifiuta per Ho al livello α se risulta
χ c2 > χ
2
[( k−1 )( h −1 ); 1−α] .
Esempio 12
Data la seguente tabella che classifica i voti, riportati da un campione casuale di studenti,
per classi di voti e diversa facoltà
Fac.\ Voti
A
B
C
D
Totale
18-21
15
3
4
10
32
22-24
8
2
3
4
17
25-27
10
4
8
0
22
28-30
7
6
5
11
29
Totale
40
15
20
25
100
si vuole sottoporre a verifica l’ipotesi che Voti e Facoltà siano indipendenti. Per far questo a ccorpiamo le righe A e B da un lato e quelle C e D dall’altro, inoltre mettiamo insieme le c olonne 18-21 e 22-24. In tal modo otteniamo la seguente tabella
Fac.\ Voti
A ∪B
C ∪D
Totale
18-24
28
21
49
25-27
14
8
22
28-30
13
16
29
per la quale, a differenza di quella originaria, è sempre
n *ij =
ni .n. j
n
e la relativa regione critica al livello α è data da
≥5
Totale
55
45
100
Capitolo 5
200
χ c2 =
∑∑
i
( n ij − n *ij ) 2
n *ij
j
> χ ((2h −1 )( k−1 );1−α )
o equivalentemente

χ c2 = n 

n 2ij
∑∑ n n
i
j
i.
j.

− 1 > χ ((2h −1 )( k−1 );1−α )

Tenuto conto che è χ c2 = 1.966
χ (22 ,1 −.05 ) = 5.99
non è possibile rifiutare Ho al livello di probabilità del 5%. Se utilizziamo la regione critica
ottenuta con il rapporto di verosimiglianza si ottiene
- 2 log(λ) = 5.452
ed ancora una volta non è possibile rifiutare Ho .
TEST DI WILCOXON
Questo test viene utilizzato per confrontare due medie, relative a popolazioni indipendenti, quando non è plausibile l’ipotesi di normalità delle stesse e la
numerosità dei due campioni è relativamente piccola. Supponiamo di avere le
due popolazioni X ed Y con funzione di ripartizioni date rispettivamente da
F(t) e G(t) incognite. Si vuole sottoporre a test
Ho : F(t) = G(t)
verso
H1 : G(t) ≤ F(t) .
Notiamo che se H1 è vera la v.c. Y tende ad assumere valori più grandi della v.c. X.
Inoltre, tenendo conto che
F(t) = P(X ≤ t)
e
G(t) = P(Y ≤ t)
segue che, se H1 è vera, deve essere
P(Y>t) ≥ P(X>t) = 1-G(t) ≥ 1-F(t)
Questo vuol dire che, equivalentemente, si ha
⇔
G(t) ≤ F(t).
Introduzione al test delle ipotesi
H1: P(Y>t) ≥ P(X>t)
⇔
201
G(t) ≤ F(t).
Se la H1 è vera si dice che Y è stocasticamente più grande di X. Graficamente, se è
vera H1 , si ha una situazione come quella descritta nella figura seguente
Per risolvere il problema se accettare o rifiutare Ho estraiamo, senza ripetizione, da X un campione di ampiezza n e, indipendentemente, da Y un campione
di ampiezza m ottenendo rispettivamente:
x 1 , x2 , ...., xn
y1 , y2 , ...., ym
Consideriamo il campione di ampiezza n +m:
x 1 , x2 , ...., xn , y1 , y2 , ...., ym ,
ordiniamolo in senso crescente ed associamogli i primi n+m numeri interi:
In,m = {1, 2, ..., n, n+1, n+2, ..., n+m};
consideriamo i ranghi delle n estrazioni dalla X e delle m estrazioni dalla Y
{r 1 , r2 , ..., rn } {r n+1 , rn+2 , ..., rn+m }
ove:
r 1 è il posto occupato dalla X1 in In, m
r 2 è il posto occupato dalla X2 in In, m
..............................................
r n è il posto occupato dalla Xn in In, m
Capitolo 5
202
r n+1 è il posto occupato dalla Y1 in In, m
...............................................
r n+m è il posto occupato dalla Ym in In, m
Bisogna ora:
(a) selezionare una statistica test,
(b) trovare il valore soglia per il test, fissato α .
Si può dimostrare che non esiste una soluzione ottimale per il punto (a),
d’altro lato è intuitivo capire che più la media delle Y è grande rispetto alla m edia delle X, più si è portati a rifiutare Ho . In questa ottica, siccome non conosciamo la distribuzione di X e di Y e quindi non abbiamo informazioni sulle
loro medie, la cosa più ovvia è di confrontare la media di {r 1 , r2 , ..., rn } con
quella di {r n+1 , rn+2 , ..., rn+m } costruendo, in similitudine a quanto fatto per il
confronto di due medie provenienti da due popolazioni normali indipendenti,
la relativa statistica tc :
tc =
r 2 − r1
n +m
1
( ri − r ) 2
n + m − 2 i =1
∑
nm
n+m
ove si è posto:
1
n
r1 =
n
∑
ri ;
r2 =
i =1
1 n+m
ri ;
m i = n +1
∑
r=
1 n +m
ri .
n + m i =1
∑
Ricordando quanto detto per l’uniforme discreta, si ha immediatamente
r=
n + m +1
;
2
n+m
∑ (r
i
− r ) 2 = (n+m)
i =1
Inoltre
n+m
∑
i =1
ri =
n
∑
ri +
ma allora, posto
è facile verificare che è
∑
i =n +1
i =1
Wc =
n +m
n +m
∑
i =n +1
ri
ri
( n + m ) 2 −1
.
12
Introduzione al test delle ipotesi
1 12 nm( n + m − 2 ) 
tc = 

m  ( n + m ) 2 −1 
1 /2
203
1/ 2
 3nm( n + m − 2 ) 
Wc - (n+m+1) 

2
 ( n + m ) −1 
.
Notiamo che tc dipende, a meno di costanti note, funzioni di n e di m, solo da
Wc . La statistica Wc è detta statistica di Wilcoxon. In definitiva, possiamo affermare che per sottoporre a test Ho basta calcolare solo Wc , cioè la somma dei
ranghi del campione estratto da Y (quello supposto statisticamente più grande).
Per derivare il valore critico, fissato α = P(E1 ), è necessario derivare, sotto
l’ipotesi Ho , la distribuzione di Wc al variare dei due campioni estratti rispettivamente da X e da Y. Osserviamo che Wc assume il valore minimo quando
tutti gli m ranghi delle Yi sono ai primi m posti ed in tal caso si ha Wm=
1+2+...+m=m(m+1)/2, mentre assume il valore massimo quando tutti gli m
ranghi delle Yi sono agli ultimi m posti ed in tal caso si ha WM=
(n+1)+(n+2)+...(n+m)=m(m+2n+1)/2 e quindi si ha che
m( m + 1)
m( m + 2 n + 1 )
≤ Wc ≤
2
2
e di conseguenza si è portati a rifiutare Ho quando Wc è grande. L’esempio che
segue mostra come il test va costruito in un caso concreto.
Esempio 13
I controllori di un impianto nucleare operano con due differenti politiche, diciamo la PI e la
PII. Nella tabella che segue sono riportati i tempi, misurati in ore, fino a che si verifica un
guasto sia sotto PI che sotto PII. Si vuole sottoporre a test
Ho : PI = PII
H1 : PII migliore di PI
⇔
GII(t) ≤ FI(t)
Per stabilire se accettare o rifiutare Ho furono condotti n=5 esperimenti sotto PI e m=5 sotto
PII ottenendo
X: PI
Y: PII
1
7
3
2
26
150
3
10
40
4
8
34
5
29
32
Capitolo 5
204
In questo caso è n=m=5. Attribuiamo i ranghi alle n+m=10 osservazioni, per far questo
dobbiamo in primo luogo ordinare le 10 osservazioni in senso crescente indicando quale si riferisce ad X e quale ad Y ed otteniamo:
ri
X
Y
1
3
2
7
x
3
8
x
4
10
x
5
26
x
6
29
x
y
7
32
8
34
9
40
10
150
y
y
y
y
I ranghi saranno
(r 1 , r2 , r3 , r4 , r5 ) = (2, 3, 4, 5, 6) per il carattere X
(r 6 , r7 , r8 , r9 , r10 ) = (1, 7, 8, 9, 10) per il carattere Y
Avremo
Wc = 1+7+8+9+10 = 35
Bisogna verificare se il valore Wc=35 è da considerare “grande” oppure piccolo. Nel caso
in questione, sappiamo che è 15 ≤ Wc ≤ 40 e quindi:
più Wc è “vicino” a 40 più siamo portati a rifiutare Ho
più Wc è “vicino” a 15 più siamo portati ad accettare Ho
Per stabilire se Wc =35 è grande o piccolo è necessario calcolare la probabilità, ottenuta al
variare del campione nell’universo campionario, dell’evento: (W ≥ 35 sotto l’ipotesi che Ho sia
vera). Se questa probabilità è “grande” sono portato ad accettare Ho , se è “piccola” sono portato a rifiutare Ho . In termini formali bisogna calcolare:
p = P(W ≥ 35 | Ho ).
Osserviamo che se in questo caso usassimo l’usuale test t sul confronto fra due medie indipendenti otterremmo
x = 16
tc =
y = 51.8
s 2x = 90
51.8 − 16
4( 90 ) + 4( 2574.56 )
s 2y = 2574.56
25( 5 + 5 − 2 )
= 1.55
10
Introduzione al test delle ipotesi
205
e rifiuteremmo Ho (cioè che µx e µy sono uguali) con una probabilità compresa fra 5% e
10%. Notiamo ancora che in questo caso l’ipotesi che le due varianze siano uguali (indispensabile per poter applicare correttamente il t-test) non può essere accettata dato che risulta
Fc =
s 2y
s 2x
= 28.61
mentre
F(4, 4; 1-0.01) = 16.00
cosa che può avere forti conseguenze sulla potenza del test t.
Per l’uso del test W sono state costruite delle tavole, riportate in appendice,
che permettono di calcolare p a partire dalla distribuzione di
U=W-
m( m + 1)
2
con n, m ≤ 10 ed m ≥ n. Le tavole suddette riportano le probabilità
m( m + 1 )
m( m + 1 ) 

P(W ≥ Wc ) = P W −
≥ Wc −
=
2
2


m( m +1 ) 

= P U ≥ Wc −
 = P{U ≥ n m - a} = P{U ≤ a}
2


in funzione delle costanti
a = n m - Wc+
m( m + 1)
2
k1 = min{n, m}
k2 = max{n, m}
Esempio 14
Nel caso dell’esempio precedente risulta:
Con
P(W ≥ 35) = P{U ≥ 25 - 5}
Wc = 35; n = 5; m = 5; k1 = 5; k2 = 5; a = 25-35+15 = 5
ed in corrispondenza della tripla
Capitolo 5
206
(k1 = 5; k2 = 5; a = 5)
dalla tavola citata si trova p = 0.0754 che è vicino a quello trovato sotto l’ipotesi di normalità e di uguale variabilità di X ed Y.
Nel caso in cui è n, m > 10 il valore di p può essere trovato utilizzando
l’approssimazione di U alla normale. Per far questo è necessario derivare la
media e la varianza di U. Si può dimostrare che è
E(U) =
e che risulta
nm
;
2
var(U) =
nm ( n + m + 1 )
12
nm
2
≈ N(0, 1)
1/ 2
 nm ( n + m + 1 ) 


12
U−
pertanto
si rifiuta Ho al livello α se è
nm
2
≥ z(1-α).
1/ 2
 nm ( n + m + 1 ) 


12
U−
Osserviamo che nell’esercizio precedente risulta 1.57 ≥ z(1-α) che porta al rifiuto di Ho solo se è α ≥ 0.059 contro il valore di p=0.0754. Come si può
notare, l’approssimazione asintotica non è molto buona e questo dipende essenzialmente dal fatto che in questo caso è n, m < 10.
Si può dimostrare che la v.c. U è simmetrica intorno alla sua media e quindi
si ha
nm
nm




P U =
+ k = P U =
− k
2
2




ma allora la quantità
Introduzione al test delle ipotesi
U−
207
nm
2
è una statistica test per il caso bilaterale
Ho : F(t) = G(t)
H1 : G(t) < F(t) ∪ F(t) < G(t).
Si può, inoltre, dimostrare che il test di Wilcoxon è competitivo con il test
T-di Student dato che la massima perdita di potenza di W rispetto a t è inferiore al 5% nel caso in cui il test t è ottimale (fenomeni distribuiti normalmente e
con uguale varianza), altrimenti la potenza di W è nettamente superiore a quella
del test t.
Nel test di Wilcoxon sopra illustrato si è implicitamente supposto che fra i
dati campionari di X e di Y non vi siano valori ripetuti. In pratica spesso alcuni
valori possono ripetersi ed in tal caso il valore dei ranghi non può essere associato a ciascun x i ed yi in modo univoco. Quando si presentano casi di questo
tipo ai valori che si ripetono viene sostituito al rango teorico la loro media. Per
essere più chiari, supponiamo che i valori osservati per Y ed i relativi ranghi in
assenza di ripetizioni fossero
yi :
ri :
76
5
81
7
81
8
90
10
90
11
90
12
100
14
in tal caso questi ranghi dovranno essere sostituiti dai seguenti
ri :
5
7.5
7.5
11
11
11
14
ove 7.5 è la media di 7 ed 8 mentre 11 è la media di 10, 11 e 12, quindi si procede come già visto. Il test che ne risulta è ancora abbastanza buono specie se n
ed m sono maggiori di 10.
TEST DEI SEGNI
Questo test è la variante non parametrica del test sul confronto fra medie
per dati appaiati se l’ipotesi di normalità bivariata non è sostenibile; inoltre, vedremo che può essere particolarizzato per sottoporre a test una sola media rimuovendo l’ipotesi di normalità del fenomeno.
Supponiamo di avere un fenomeno bivariato (X, Y) e di aver osservato a
Capitolo 5
208
caso un campione di n coppie (x i , yi ) indipendenti ed identicamente distribuite.
Più in particolare supponiamo che:
x i è il controllo
yi è il trattamento.
Sia Z = Y-X e zi = yi - xi , i=1,2,..., n. Supponiamo che la funzione di ripartizione F(t) di Z sia incognita ma continua. Si vuole sottoporre a test l’ipotesi
Ho : Il trattamento Y non ha effetto.
Questa ipotesi equivale a dire che Zi = Yi - Xi ha la stessa funzione di ripartizione di - Zi = Xi - Yi . Ma allora Zi è simmetrica intorno allo zero, cioè:
P{- Z ≥ t} = P{Z ≥ - t} = 1 - P{Z < -t},
In definitiva, Ho diviene
Ho : F(t) = 1 - F(-t) = F( t )
ove si è posto F( t ) = 1 - F(-t).
Per quel che riguarda l’ipotesi alternativa, in questo caso, è
H1 : Il trattamento Y ha effetto positivo
che è equivalente a dire che Z è stocasticamente più grande di -Z, cioè
P{Y - X > t} ≥ P{X - Y > t}
che a sua volta equivale a F(t) ≤ F( t ) . In definitiva, le ipotesi che si vuole sottoporre a test possono essere formalizzate nel modo seguente
Ho : F(t) = F( t )
verso
H1 : F(t) ≤ F( t ) .
Sia S la statistica così ottenuta
sc = Numero[z i = ( yi - xi ) > 0]
cioè sc = numero delle differenze (yi -xi ) positive. Osserviamo che, nell’universo dei
campioni, è sempre 0 ≤ S ≤ n questo vuol dire che si rifiuta Ho se sc è grande,
cioè supera un certo valore critico. Dall’impostazione data al problema sc può an-
Introduzione al test delle ipotesi
209
che essere interpretata come numero di successi (quanti zi sono positivi) in n prove
indipendenti e dato che
P(Z i > 0) = 1 - F(0).
Segue immediatamente che sc , sotto Ho , ed al variare del campione nell’universo
campionario genera la v.c. Binomiale S :
S ~ B(n; 1-F(0))
Se Ho è vera ci si aspetta che il numero delle z i positive sia uguale a quelle nega1
tive, in altri termini che 1-F(0) = per cui risulta
2
(S | Ho ) ~ B(n; 1/2)
pertanto il valore critico si ottiene dalla v.c. Binomiale con parametri (n; 1/2 ) r iportata in una delle tavole dell’appendice. Inoltre, se è n > 10 la B(n; 1/2) è bene approssimata da una normale con media n/2 e varianza n/4 per cui
si rifiuta Ho al livello α se risulta
n 1
2  s c − − 
2 2

> z(1-α)
n
ove la costante 1/2 è stata introdotta per tenere conto del fatto che la Binomiale, che è discreta, è stata approssimata con la Normale che è continua.
Esempio 15
Riprendiamo i dati dell’esempio 7
Macchine
xi
yi
zi=yi-xi
1
17.2
18.3
1.1
2
21.6
20.8
-0.8
3
19.5
20.9
1.4
da cui risulta immediatamente sc = 5 ed avremo
4
19.1
21.2
2.1
5
22.0
22.7
0.7
6
18.7
18.6
-0.1
7
20.3
21.9
1.6
Capitolo 5
210
p = P(S ≥ 5) = P(S=5) + P(S=6) + P(S=7) =
=
 7  1 1 +  7  1 1 + 7  1 1 = 0.22656
 5  2 2 2 5 6  2 2 6
7  2 0 2 7
La probabilità di rifiutare Ho quando è vera è più del 22% e quindi si è portati ad accettare
Ho . Se utilizziamo l’approssimazione normale otteniamo
n 1
2  s c − − 
2 2

= 0.7559 > z(1-α)
n
e dalle tavole della normale segue immediatamente che questa disuguaglianza è verificata se è 1α ≤ 0.7749 che implica α ≥ 0.2251 che è una discreta approssimazione del valore esatto
prima derivato. Ricordiamo che nell’esempio 7 il test su dati appaiati sotto l’ipotesi di normalità portava al rifiuto di Ho .
Osserviamo che questo test può anche essere utilizzato per ipotesi alternative
bilaterali tenendo conto che in tal caso la statistica test diviene semplicemente
2 sc −
n
2
n
Osserviamo ancora che il test proposto può essere utilizzato, come caso particolare, per costruire test non parametrici su una media ponendo nelle formule
e nei ragionamenti precedenti zi = yi - µo .
Nel test del segno appena visto viene preso in considerazione il segno delle
differenze zi =yi - xi ma non il loro valore, questo porta ad una riduzione della
potenza che lo rende spesso non affidabile.
5.7 Cenni agli intervalli di confidenza
In questo paragrafo tratteremo brevemente di un argomento di grande utilità pratica. Nelle applicazioni a fenomeni concreti, il più delle volte, non interessa sapere se per un generico parametro incognito θ è da accettare o rifiutare
una data ipotesi, ma in quale intervallo cade una volta fissata una determinata
probabilità. In termini generali, fissata la probabilità di errore del primo tipo α
Introduzione al test delle ipotesi
211
bisogna derivare le funzioni c1(Xn ) e c2(Xn ) di modo che risulti
P {c1 ( X n ) ≤ θ ≤ c 2 ( X n )} = 1 − α
e l’intervallo [c1(Xn ) ; c2(Xn )] sia ottimale in qualche senso. Nel seguito per ottimale intenderemo l’inervallo più piccolo possibile. Ove Xn indica, come al s olito, la v.c. generata dal campione di n elementi estratto da X. Rileviamo che
[c1(Xn ) ; c2(Xn )] è esso stesso una v.c. visto che è funzione di Xn e quindi la
formula sopra scritta va interpretata come
il più piccolo intervallo casuale [c1(Xn ) ; c2(Xn )] che contiene, nell’1-α per cento dei
casi, il parametro incognito θ.
In pratica, si possiede un solo campione x n = (x 1 , x2 , …, x n ) che permette
di calcolare un solo intervallo. Per questo si parla di intervallo di confidenza o intervallo fiduciario visto che si spera che quest’unico intervallo contenga il parametro vero con probabilità pari ad 1-α.
I casi che illustreremo nel seguito, di rilevanza pratica, chiariscono quanto si è
fin qui affermato. In generale, per derivare tale intervallo utilizzeremo la regione
di accettazione dei test bilaterali.
INTERVALLO DI CONFIDENZA PER LA MEDIA
2
2
Sia X~N(µ ; σ ), con µ e σ incogniti, e si voglia costruire, sulla base del
campione osservato x=(x 1 ,…,x n ), un intervallo in cui con probabilità pari ad
1- α cada il valore incognito della media. Questo intervallo viene detto intervallo
di confidenza per la media.
Dal test delle ipotesi bilaterale della media sappiamo che per Ho : µ = µo
verso H1 : µ ≠ µo ha senso usare la statistica
tc =
n ( x − µo )
s
che sotto Ho si distribuisce come una T-di Student con (n-1) gradi di libertà con
regione critica C1 data, per la simmetria della v.c. T, da
n | x − µo |
≥ t(n-1; 1-α/2) = - t(n-1; α/2)
s
Capitolo 5
212
ove al solito è
P(T ≥ t (n-1; 1-α/2) ) = α/2; P(T ≤ t(n-1; α/2) ) = α/2.
Questo implica che la regione di accettazione C o è data, qualsiasi sia µo , da
t(n-1; α/2) ≤
n( x − µ )
≤ t(n-1; 1-α/2)
s
che, dopo semplici passaggi algebrici, tenuto conto della simmetria della v.c. T,
implica il seguente
intervallo di confidenza per µ
x-
s
t(n-1; 1-α/2) ≤ µ ≤ x +
n
s
t(n-1; 1-α/2)
n
Se la popolazione di partenza non è normale l’intervallo trovato è valido solo
asintoticamente.
Esempio 16
Data la popolazione X~N(µ ; σ 2), con µ e σ 2 incogniti, si vuole costruire per µ un
intervallo di confidenza al livello 1 - α = 0.95 sulla base di un campione di n=10 osservazioni per il quale è risultato x = 3 e s 2 = 5.
Sappiamo che l’intervallo di confidenza ottimale per µ al livello 1- α è
Dato che è
s

x + n t ( n −1, a / 2 ) ;

x+
s

t ( n −1, 1 −a / 2 ) 
n

Introduzione al test delle ipotesi
t(9;
= - t(9;
1- α /2)
α /2)
213
= 2.262
l’intervallo di confidenza risulta pari a
[3 -
5 /10 2.262; 3 +
5 /10 2.262] = [1.4005; 4.8526]
INTERVALLO DI CONFIDENZA PER UNA PERCENTUALE
Abbiamo visto che nel caso di popolazioni dicotomiche ed estrazione bernoulliana un test accettabile per Ho : p = po verso H1: p po è basato sulla statistica asintoticamente pivotale
zc=
n ( p̂ − p o )
po(1 − po )
che sotto Ho si distribuisce asintoticamente come una N(0, 1). La relativa regione critica C1 è
n p̂ − p o
po(1 − po )
> z(1-α/2)= - z(α/2)
questo implica che la regione di accettazione è data, qualsiasi sia po , da
z(α/2) ≤
n ( p̂ − p o )
po(1 − po )
≤ z(1-α/2)
che dopo semplici trasformazioni, tenendo conto della simmetria della normale
e sostituendo ai valori incogniti le relative stime, implica il seguente
intervallo di confidenza al livello 1-α per il parametro p nel caso di estrazione
bernoulliana
ˆp - z(1- /2)
α
p̂( 1 − p̂ )
≤ p ≤ ˆp + z(1-α/2)
n
p̂( 1 − p̂ )
n
Notiamo che l’errore tollerabile ε al livello 1-α prima di effettuare l’estrazione
del campione è dato da
Capitolo 5
214
ε = | ˆp - p| = z(1-α/2)
p( 1 − p )
n
ove p è incognito. Se teniamo conto che p(1-p) è massimo per p=1/2 si ha i mmediatamente che
1
ε = | ˆp - p| ≤ z(1-α/2)
2 n
questo permette di calcolare l’errore massimo tollerabile al livello (1-α) fissato n, da
questa è possibile derivare n fissato ε:
n≤
z (21−α / 2 )
4ε 2
che rappresenta la numerosità massima del campione, fissato l’errore tollerabile, al
livello (1-α). Con un ragionamento simile, nel caso di estrazione senza reimmissione si ha che
l’intervallo di confidenza al livello 1-α per il parametro p nel caso di estrazione
senza reimmissione è dato da
ˆp - z(1- /2)
α
p̂( 1 − ˆp )
( 1 − f ) ≤ p ≤ ˆp + z(1-α/2)
n
p̂( 1 − ˆp )
(1 − f )
n
mentre, l’errore massimo tollerabile, fissato n ed α, è pari a
ε = | ˆp - p| ≤ z(1-α/2)
(1− f )
,
2 n
la numerosità massima, fissato l’errore tollerabile ed α, è pari a
n≤
H z (21−α/ 2 )
4Hε 2 + z (21−α/ 2 )
ove con H si è indicata la numerosità della popolazione da cui il campione viene estratto.
Introduzione al test delle ipotesi
215
Esempio 17
Riprendiamo il caso riportato nell’esempio 6 in cui è
H = 1120, n = 95, f = 0.08482, ˆp = 0.379
In queste condizioni l’intervallo di confidenza per p nel caso di estrazione con reimmissione al
livello 1-α = 0.95 è dato da
0.379 - 1.96(0.049774) ≤ p ≤ 0.379 + 1.96(0.049774) ⇔
⇔ [0.2814 ≤ p ≤ 0.4765]
Nel caso di estrazione senza reimmissione l’intervallo di confidenza è dato da
0.379 - 1.96(0.049774)0.95665 ≤ p ≤ 0.379 + 1.96(0.049774)0.95665 ⇔
⇔ [0.2857 ≤ p ≤ 0.4723]
Come si può notare l’intervallo di confidenza ottenuto nel caso di estrazione in blocco, come
atteso, è più corto di quello dell’estrazione bernoulliana. Questo è una conferma della maggiore
efficienza dell’estrazione in blocco rispetto a quella bernoulliana.
Deriviamo ora l’errore massimo tollerato per n=95 ed al livello α = 5% nei due sistemi
di estrazione. Dalle formule sopra riportate otteniamo
ε ≤ 1.96(0.0512989) = 0.1005
ε ≤ 1.96(0.0512989)0.95665 = 0.0962
per il caso bernoulliano
per il caso in blocco.
Come si può vedere l’errore massimo è abbastanza rilevante visto che in ogni caso supera il
9%.
Capitolo 6
IL MODELLO DI REGRESSIONE
6.1 Introduzione
In questo capitolo conclusivo generalizziamo quanto esposto nell’ultimo capitolo del Volume I. In particolare affrontiamo da un punto di vista probabilistico il problema di grande rilevanza pratica riguardante l’esistenza di una relazione fra una data variabile (variabile endogena o dipendente ) ed una o più altre variabili (variabili esplicative o indipendenti ). Il legame è del tipo cause-effetto che supponiamo di tipo unidirezionale: sono le variabili esplicative che causano quella dipendente, ma non è ammesso, logicamente, il viceversa. Questa problematica è
il primo passo di una disciplina abbastanza importante e complessa che va
sotto il nome di Econometria.
Da un punto di vista formale, se indichiamo con Y la variabile dipendente e
con X1 , X2 , ..., Xk le k variabili esplicative che entrano nel problema si suppone che sia
Y = f(X1 , X2 , ..., Xk ; β )
(1)
ove f( ) è una qualche funzione nota a meno del vettore di parametri β. Più
precisamente:
X1 , X2 , ..., Xk
sono le cause
Y
è l’effetto
β
è un vettore di parametri incogniti
f( )
è una funzione nota
Se si escludono fenomeni di tipo fisico, ed anche in quell’ambito la cosa è
discutibile, è ben difficile sostenere che fra cause ed effetto vi sia una perfetta
relazione matematica. Di solito su Y, oltre alle k variabili esplicative (X1 , X2 ,
..., Xk ) individuate, esercitano la loro influenza tutta una serie di micro-cause
Capitolo 6
218
(compresi gli inevitabili errori di misurazione dei fenomeni) di difficile o impossibile osservazione che sintetizziamo sotto la voce caso. Da un punto di vista
statistico queste micro-cause possono essere rappresentate da una variabile casuale non osservabile, che chiamiamo errore o scarto, e che indichiamo con e.
Un modo molto semplice per includere in Y l’influenza di e è quello di sommare questa variabile casuale nella (1) ottenendo il modello di regressione
Y = f(X1 , X2 , ..., Xk ; β ) + e
(2)
Nella (2) Y è essa stessa una variabile casuale visto che è una funzione
dell’errore casuale e. Nel seguito supporremo che il carattere descrivente Y è un
fenomeno continuo, l’estensione al caso discreto non viene qui presentata.
Esempio 1
Indichiamo con R il reddito individuale di un certo insieme di soggetti, con C i relativi consumi, dalla teoria economica sappiamo che ha senso scrivere
C = f(R ) + e
In altri termini, con questa relazione diciamo che i consumi individuali sono una qualche funzione del reddito individuale a cui si somma una variabile scarto che può essere identificata con
i diversi gusti, la diversa religione, errori di misurazione ecc.
Indichiamo con D la domanda di un dato bene, P il prezzo unitario di quel bene, R il
reddito del consumatore, Pc il prezzo unitario di un bene complementare, Ps il prezzo unitario
di un bene sostitutivo, sappiamo dalla teoria economica che ha senso la relazione seguente
D = f(P, R , Pc , Ps ) + e
Indichiamo con CA il consumo di carburante e con CI la cilindrata di date autovetture,
ha senso scrivere la relazione seguente
CA = f(CI ) + e.
Nella (2), per procedere oltre, esplicitiamo la forma funzionale di f( ) e
quindi ci poniamo così in un ambito parametrico (le uniche incognite sono i
parametri β presenti nel modello). Si potrebbe anche utilizzare un approccio
più complesso, che in questa sede non viene presentato, in cui la forma funzionale f( ) è essa stessa incognita (caso non parametrico) e da stimare. Per sempl ificare ancora gli sviluppi ed i risultati teorici, nel seguito supporremo che f( ) sia
lineare e di conseguenza parleremo di modello di regressione lineare.
Nel caso in cui vi sia una sola variabile esplicativa ed f( ) è lineare si parla di
Il modello di regressione lineare
219
regressione lineare semplice, se le variabili esplicative sono più di una si parla di regressione lineare multipla. Tratteremo in modo diffuso della regressione lineare semplice avvertendo che, almeno da un punto di vista concettuale, tutto ciò che
viene detto per questo caso vale per quello, più interessante da un punto di vista applicativo, multiplo. La scelta di analizzare e presentare in modo dettagliato il modello di regressione lineare semplice è che in tal caso molti sviluppi
formali si semplificano ed i relativi calcoli applicativi possono essere eseguiti
anche con una semplice calcolatrice tascabile. D’altro lato, almeno concettualmente, faremo vedere come questi sviluppi si generalizzano al caso multiplo e
presenteremo in tal senso anche qualche applicazione a fenomeni reali.
6.2 La costruzione del modello di regressione
La costruzione di un modello, ed in particolare quello di regressione, consiste in una serie di passaggi, di stadi, logici e formali molto complessi che rendono l’operazione abbastanza delicata. Vediamo di ripercorrerne, sinteticamente le tappe più rilevanti:
(1)
(2)
(3)
(4)
(5)
(6)
in primo luogo è necessario individuare il fenomeno su cui si vuole costruire il modello;
tenendo conto della teoria o di pezzi di teoria già esistenti si individuano la
variabile dipendente Y e quelle esplicative (X1 , X2 , ..., Xk ), quindi si raccolgono informazioni statistiche su (Y ; X1 , X2 , ..., Xk );
utilizzando la teoria già esistente o lavori che già hanno affrontato, in tempi
o contesti differenti, la stessa problematica ed i relativi risultati ottenuti si
formula il modello di regressione esplicitando la forma funzionale f( );
si stimano i parametri incogniti del modello formulato con un metodo di
stima che porti, quanto meno, a stimatori consistenti;
si verifica che il modello formulato e stimato sia “accettabile” sottoponendolo ad una serie di test;
se il modello viene “accettato” si usa a fini interpretativi, previsivi, descrittivi,
di controllo ecc. Se il modello non viene ritenuto idoneo a rappresentare il
fenomeno in studio si ritorna al punto (1) per ripercorrere il ciclo e terminarlo fino a che il modello non viene accettato.
Nella figura che segue sono riportate le tappe dello schema logico per la
costruzione di un modello.
Come si può arguire da quanto abbiamo detto schematicamente qui sopra,
le fasi più delicate nell’elaborazione di un modello sono la sua formulazione identificazione e la sua verifica. Infatti, un modello elaborato per uno o più de-
220
Capitolo 6
gli scopi sopra accennati può non superare la fase di verifica (fallimento del
modello). In tal caso è necessario cercare di scoprire gli ostacoli che lo rendono
non utilizzabile e rimuoverli. In generale, i motivi più frequenti per cui un modello fallisce sono dovute ad una o più delle seguenti cause:
(i) la teorizzazione che è stata utilizzata per formulare il modello non regge alla
prova dei fatti ed il modello elaborato non si adatta alla realtà osservata. È
molto difficile individuare una tale fonte di errore. Ogni modello, per
quanto complesso, è una semplificazione della realtà e di solito si assume
che sia valido per quella realtà fino a prova contraria;
(ii) la teorizzazione è corretta ma la formulazione-identificazione del modello è
errata. Così, se utilizziamo un modello lineare, mentre in realtà le relazioni
sono non lineari i risultati che si ottengono sono scadenti;
(iii) i dati a disposizione, in qualità o in quantità, oppure il metodo di stima non
sono idonei.
6.3 Il modello di regressione lineare semplice
Poniamo ora la nostra attenzione al caso di un modello di regressione lineare semplice. In altri termini, supponiamo che per i fenomeni che si stanno studiando si può ritenere valido un modello di regressione lineare semplice e
quindi che sia
Il modello di regressione lineare
Y = βo + β1 X + e
221
(3)
con: Y la variabile dipendente che descrive il fenomeno di interesse, X l’unica
variabile esplicativa (causa) di Y, e la variabile casuale scarto non osservabile, βo
e β1 due parametri incogniti e da stimare.
Osserviamo che nella (3), βo + β1 X rappresenta l’equazione di una retta ove
βo è la relativa intercetta mentre β1 è il coefficiente angolare. Per poter procedere alla stima dei parametri incogniti del modello (3) è necessario:
(a) avere informazioni sulle due variabili osservabili Y ed X ,
(b) formulare delle ipotesi sulla variabile casuale scarto non osservabile e.
A tale proposito supponiamo di disporre di un campione casuale di n coppie
estratte da (X , Y) ottenendo la seguente rilevazione statistica:
(x 1 , y1 ), (x 2 , y2 ), ..., (x n , yn ).
Naturalmente, queste n coppie di osservazioni possono essere analizzate con
gli strumenti della statistica descrittiva di cui abbiamo parlato nei capitoli iniziali
ed in particolare possono dare luogo ad una distribuzione di frequenza doppia
ed ai relativi indici descrittivi ivi presentati.
Se il modello (3) è vero, e tale lo riteniamo fino a prova contraria, allora sarà vero per ogni coppia di osservazioni ottenendo
y1 = βo + β1 x 1 + e1
y2 = βo + β1 x 2 + e2
......................………
yn = βo + β1 x n + en
ove e1 è la variabile casuale scarto non osservabile associata alla prima osservazione campionaria, e2 è la variabile casuale scarto non osservabile associata alla
seconda osservazione campionaria, ..., en è la variabile casuale scarto non osservabile associata alla n-esima osservazione campionaria. Ovviamente, le n coppie
di osservazioni potrebbero anche costituire una serie storica doppia osservata
in n tempi diversi sulla stessa unità di rilevazione in tal caso anche ei , i=1,2,...,n,
risulta ordinata nel tempo.
222
Capitolo 6
Esempio 2
Nel caso del consumo in funzione del reddito, il modello di regressione lineare diviene
C = βo + β1 R + e
ed avendo a disposizione le n coppie di osservazioni (ci , ri ) avremo:
ci = βo + β1 r i + ei
i = 1, 2, ..., n
Se le n coppie di osservazioni (ci ,ri ) sono state ottenute intervistando n individui a caso di
una data popolazione allora queste sono scambiabili e le informazioni contenute nella rilevazione doppia sono equivalenti a quella della distribuzione di frequenza doppia ad essa associata. Se le n coppie di osservazioni si riferiscono sempre alla stessa unità di rilevazione (lo stesso
individuo, oppure la stessa regione, oppure lo stesso paese) osservata in n tempi diversi, di solito
equispaziati, allora si ha una serie storica doppia le cui coppie di rilevazioni non sono scambiabili pena la perdita di informazioni sull’evoluzione temporale del fenomeno.
Una volta formulato il modello e ottenute le n coppie di osservazioni è n ecessario stimare i parametri incogniti. Per poter far questo bisogna formulare
le ipotesi classiche del modello di regressione:
(1) il modello è perfettamente specificato, nel senso che non vi sono altre variabili che spiegano Y e la forma lineare del modello è corretta;
(2) la variabile X è deterministica, nel senso che al variare del campione variano i valori assunti da ei ma le x i sono sempre le stesse;
(3) E(ei ) = 0 per i = 1,2,.., n.
In altri termini, le n variabili casuali scarto ei valgono in media tutte zero e
quindi, in media, non esercitano alcuna influenza su Y;
(4) var(ei ) = σ 2 per i = 1, 2,..., n.
In altri termini, le n variabili casuali scarto hanno tutte la stessa variabilità
(ipotesi dell’omoschedasticità);
(5) cov(ei , ej ) = 0 per i ≠ j = 1 , 2 , ..., n .
In altri termini, fra variabili casuali scarto relative ad osservazioni diverse
non esistono legami lineari (ipotesi dell’incorrelazione);
(6) ei ~N(0 , σ 2), i = 1, 2,..., n , e sono indipendenti fra di loro.
In altri termini, le variabili casuali scarto si distribuiscono come normali
indipendenti tutte con la stessa media pari a zero e la stessa varianza σ 2
(ipotesi di normalità, questa ipotesi include le ipotesi (3)-(5)).
Il modello di regressione lineare
223
Da quanto è stato detto fino ad ora rileviamo che in complesso i parametri
da stimare sono tre e precisamente βo , β1 , σ 2.
Se il modello di regressione lineare fosse stato multiplo, per esempio con le
tre variabili esplicative X, Z, V, avremmo dovuto avere n quadruple di informazioni (yi , xi , zi , vi ), i=1,2,...,n, e per ciascuna di esse sarebbe risultato
yi = βo + β1 x i + β2 z i + β3 vi + ei
(4)
In tal caso le ipotesi classiche fatte continuerebbero a valere con l’aggiunta
dell’ulteriore ipotesi che fra le x i , z i , vi non vi siano perfetti legami lineari,
mentre i parametri da stimare crescerebbero, in questo caso sarebbero cinque e
precisamente: βo , β1 , β2 , β3 , σ 2.
Ritornando al caso semplice, tenuto conto dell’ipotesi (3) si ha immediatamente
E(Yi ) = βo + β1 x i , i = 1, 2, ..., n
questo vuol dire che Y, in media, è una funzione lineare della X, inoltre tenuto
conto contemporaneamente dell’ipotesi (2) risulta
var(Yi ) = var(ei ) = σ 2,
i = 1, 2, ..., n
che per l’ipotesi (6) implica
Yi ~ N[ βo + β1 x i , σ 2] ,
i = 1, 2, ..., n
cioè le Yi sono normali indipendenti. Considerazioni analoghe valgono per il
caso multiplo.
6.4 La stima dei parametri del modello
Dato il modello di regressione lineare semplice, utilizzando le n informazioni campionarie, stimiamo in primo luogo i due parametri βo e β1 . Per far
questo utilizziamo il già visto Metodo dei Minimi Quadrati.
Per capire come opera logicamente questo metodo di stima nel caso del
modello di regressione consideriamo la rappresentazione grafica a scatter delle
coppie di valori osservati (x i , yi ), i=1,2,...,n. In altri termini, riportiamo su un
sistema di assi cartesiani le n coppie di punti osservati, si otterrà una rappresen-
Capitolo 6
224
tazione tipo quella riportata nella figura seguente. Il problema che si vuole a ffrontare è di adattare agli n punti la retta “ottimale” il che equivale a scegliere la
coppia di parametri ottimali (βo , β1 ) che descrivono tale retta. Come è ben
noto, in n punti passano infinite rette e quella “ottimale” deve essere scelta secondo una qualche funzione obiettivo.
Il metodo dei minimi quadrati ordinari in sigla OLS (Ordinary Least Squares), sceglie, fra le infinite rette possibili, quella che minimizza la somma dei quadrati
degli scarti.
Questo vuol dire che nel metodo dei minimi quadrati il criterio obiettivo
per la scelta della retta “ottimale” è la minimizzazione della somma dei quadrati
degli scarti. Traduciamo quanto detto qui sopra in espressioni algebriche in
modo da poter ottenere delle formule operative per le stime dei due parametri
della retta in questione. Dalla relazione ipotizzata
si ricavano gli n scarti:
yi = βo + β1 x i + ei ,
i = 1, 2, ...,n
ei = yi - βo - β1 x i ,
i = 1, 2, ...,n
e quindi la somma dei loro quadrati:
n
∑
i =1
e i2 =
n
∑( y
i
− β o − β1 x i ) 2
i =1
e fra le infinite coppie ( βo , β1 ) e quindi fra le infinite corrispondenti rette possibili scegliamo quella che minimizza l’ultima espressione,
Il modello di regressione lineare
225
cioè quella per cui risulta
n
∑e
i =1
2
i
=
n
∑
( y i − β o − β 1 x i ) 2 = minimo(βo , β1 )
i =1
La soluzione del problema di minimo per ottenere le stime di βo e β1 è
prettamente matematico ed in questo caso ha una soluzione piuttosto semplice.
Infatti, per trovare questo minimo basta considerare le derivate prime di
e i2 rispetto alle due incognite βo e β1 , uguagliarle a zero, risolvere il relativo
sistema di equazioni lineari. Più precisamente:
∑
∂
∂β o
n
∑
( y i − βo − β1x i ) 2 = 2
n
∑
( y i − β o − β1 x i )( −1 ) =
i =1
i =1
n
∑
= -2
( y i − β o − β1 x i ) = 0
i =1
∂
∂β1
n
∑
( y i − β o − β1x i ) 2 = 2
i =1
n
∑
( y i − β o − β1 x i )( − x i ) =
i =1
= -2
n
∑
( y i − β o − β1 x i ) x i = 0.
i =1
Da cui, dividendo ambo i membri delle due equazioni per -2, deriviamo il s eguente sistema lineare nelle due incognite βo e β1:
 n
( y i − β o − β1 x i ) = 0

 i =1
 n

( y i − β o − β1 x i ) x i = 0
 i =1
∑
∑
che posto
x=
1
n
n
∑
i =1
xi
y=
1
n
n
∑
i =1
yi
Capitolo 6
226
mxy =
1
n
n
∑
x i yi
i =1
m2x =
1
n
n
∑
x i2
i =1
può essere scritto
n y − n β o − β 1 n x = 0
n m − β n x − β n m = 0
1
1
2x
 xy
Dividendo ambo i membri delle due equazioni per n, ricavando βo dalla prima
equazione e sostituendolo nella seconda si può scrivere
 β o = y − βˆ 1 x

 m xy − ( y − β1 x ) x = β1 m 2 x
Posto
S xy = mxy - x y :
S 2x = m2x - x 2 :
si ottiene
covarianza campionaria di (X, Y)
varianza campionaria di X
 β o = y − β1 x
S = β S 2
1 x
 xy
Risolvendo rispetto ai due parametri incogniti si ha infine che
le stime dei minimi quadrati ordinari dei parametri della retta di regressione sono
β̂1 =
S xy
S
2
x
,
β̂ o = y - βˆ 1 x
L’equazione della retta di regressione che minimizza la somma dei quadrati degli scarti è data da
ˆy = βˆ o + βˆ 1 x
Osserviamo che:
Il modello di regressione lineare
227
(a) la retta di regressione passa sempre per il punto medio ( x , y ), infatti in
ˆy = βˆ o + βˆ 1 x per x = x si ottiene
(
)
βˆ o + βˆ 1 x = y − βˆ 1 x + βˆ 1 x = y
(b) in corrispondenza di ciascuna x i osservata è possibile individuare la relativa
yi stimata, che indichiamo con ˆy i , situata sulla retta di regressione:
ˆyi = βˆ 0 + βˆ 1 x i
i = 1, 2, .., n
(c) dai valori osservati yi e da quelli stimati ˆyi possiamo derivare gli scarti stimati, che indichiamo con ê i , dati da
ê i = yi - ˆyi
i = 1 , 2 , .., n
(d) se ricordiamo che una delle proprietà della media aritmetica è quella di minimizzare la somma dei quadrati degli scarti ci rendiamo subito conto che la
retta di regressione stimata con il metodo dei minimi quadrati è proprio una
stima in media ed è presumibile che le stime così ottenute abbiano le stesse
proprietà della stima della media;
(e) una conseguenza di quanto detto al punto (d) è che la somma degli scarti
stimati è sempre nulla: la somma degli scarti positivi è pari alla somma degli
scarti negativi. La dimostrazione formale di questa affermazione è semplice,
infatti
n
∑
i =1
ê i =
n
∑
i =1
( y i − ˆy i ) =
∑ [ yi
n
i =1
(
)]
− βˆ o + βˆ 1 x i =
Capitolo 6
228
n
∑
i =1
yi -
n
∑
i =1
(
β̂ o -
n
∑
n
∑
βˆ 1 x i =
i =1
∑ ( y − βˆ x )- β̂ ∑ x
n
yi -
n
1
i =1
1
i =1
i
=
i =1
)
= n y - n y − n βˆ 1 x − n βˆ 1 x = n y − n y + n βˆ 1 x − n βˆ 1 x = 0
che dimostra quanto affermato. Graficamente si ha una situazione simile a
quella riportata nella figura seguente
Una immediata implicazione di questa uguaglianza è che
n
∑y
i =1
i
=
n
∑ ˆy
i
i =1
e dividendo ambo i membri per n segue immediatamente che la media
campionaria delle yi è esattamente uguale alla media campionaria delle ˆy i ;
(f) le stime β̂ o e β̂1 sono funzioni delle sole osservazioni campionarie e quindi
al variare del campione variano e descrivono due variabili casuali. Le proprietà di β̂ o e β̂1 sono derivate dal comportamento di tali v.c.
Esempio 3
Su 7 autovetture a gasolio, scelte a caso da un dato parco macchine, è stato verificato il
consumo, per miglia, prima di un determinato intervento (variabile X) e dopo l’intervento (variabile Y) ottenendo le 7 coppie di risultati seguenti
(17.2; 18.3) (21.6; 20.8) (19.5; 20.9) (19.1; 21.2)
(22.9; 22.7) (18.7; 18.6) (20.3; 21.9)
Il modello di regressione lineare
229
si vuole verificare se fra X ed Y esiste il legame lineare :
Y = βo + β1 X + e
In questo caso notiamo che il legame logico è del tipo X “causa” Y, infatti Y è ottenuto
“dopo” X. Inoltre, se costruiamo la rappresentazione a scatter (X, Y) otteniamo la figura che
segue
Da questo grafico deduciamo che il legame lineare ipotizzato è abbastanza plausibile visto che
le sette coppie di osservazioni tendono a disporsi lungo una retta crescente. Per quanto riguarda la stima di βo e β1 con il metodo dei minimi quadrati, i calcoli possono essere organizzati
come nella tabella seguente. A partire dalle 7 coppie di osservazioni (x i , yi ), riportate nelle
prime due colonne della tabella, deriviamo le x 2i e xi yi riportate nella terza e quarta colonna
rispettivamente.
xi
17.20
21.60
19.50
19.10
22.00
18.70
20.30
138.40
yi
18.30
20.80
20.90
21.20
22.70
18.60
21.90
144.40
x 2i
x i yi
ˆy i
95.840
66.560
80.250
64.810
84.000
49.690
12.090
2753.240
14.760
49.280
07.550
04.920
99.400
47.820
44.570
2868.300
18.60094
22.07043
20.41454
20.09913
22.38584
19.78372
21.04536
144.39996
Dalla tabella deriviamo immediatamente:
138. 4
x=
= 19.771429
7
y=
144. 4
= 20.62857
7
ê i = yi- ˆy i
-0.300945
-1.270433
0.485460
1.100868
0.314161
-1.183723
0.854645
0.000033
Capitolo 6
230
m2x =
2753. 24
= 393.32001
7
mxy =
S x2 = m2x - x 2 = 2.4106
2868.3
= 409.75715
7
S xy = mxy - x y = 1.9008
che ci permettono di ottenere le stime cercate
S xy
β̂1 =
S x2
β̂ o = y - β̂1 x = 5.0384
= 0.78852
Una volta ottenute le stime dei due parametri deriviamo le stime della variabile dipendente
ˆy i = β̂ o + β̂1 x i:
ˆy1 = βˆ o + βˆ 1 x 1 = 5.0384 + (0.78852)17.20 = 18.600944
ˆy = βˆ + βˆ x = 5.0384 + (0.78852)21.6 = 22.070432
2
o
1
2
...................................................................................................
ˆy 7 = βˆ o + βˆ 1 x 7 = 5.0384 + (0.78852)20.3 = 21.045356
Ottenuti i valori stimati ˆy i (penultima colonna della tabella sopra riportata) deriviamo le
stime dei residui ê i = yi - ˆy i riportate nell’ultima colonna della citata tabella. Osserviamo,
infine, che teoricamente dovrebbe risultare
∑ ˆy
i
=
∑y
;
i
∑ ê
i
=0
23
22
21
^
Y
Y
20
19
18
1
2
3
4
5
6
7
In pratica, per gli arrotondamenti che necessariamente devono essere fatti, queste uguaglianze
quasi mai sono verificate in modo esatto come si nota anche dalla tabella sopra riportata ove le
Il modello di regressione lineare
231
dette uguaglianze sono solo praticamente confermate, sono cioè vere a meno di approssimazioni
trascurabili.
Nel grafico qui sopra riportato abbiamo messo a confronto i valori osservati della variabile dipendente Y con quelli ottenuti con il modello lineare. Vediamo che il modello ipotizzato
riesce a cogliere in modo accettabile il fenomeno preso in considerazione.
Nella figura seguente abbiamo riportato il diagramma a scatter fra i due fenomeni osservati con la relativa retta di regressione adattata e l’indicazione dell’ampiezza dei residui stimati oltre che del relativo segno.
23
Y
22
21
20
19
18
17
18
19
20
21
22
X
23
Nell’esempio sopra riportato abbiamo mostrato in dettaglio come si può
procedere per costruire le stime dei minimi quadrati dei due parametri βo e β1
nel modello di regressione lineare semplice e come sia possibile con semplici
strumenti grafici verificare, in prima approssimazione, la bontà del modello
ipotizzato. In pratica, i calcoli sopra riportati ed i relativi grafici non vengono
fatti manualmente, ma si utilizzano in modo sistematico gli strumenti che vengono forniti dalla tecnologia. La diffusione e l’utilizzo intensivo dei computers
(hardware) e dei relativi programmi di calcolo (software) permettono di effettuare queste elaborazioni in modo preciso e veloce. Naturalmente l’utilizzatore
deve sapere cosa l’elaboratore sta calcolando e come i risultati vanno interpretati. Tutto questo è ancora più rilevante quando il modello utilizzato è di regressione multipla (le variabili esplicative sono più di una) e le relative elaborazioni
bisogna necessariamente effettuarle con tali strumenti avanzati. Teniamo conto
che nelle pratiche applicazioni molto spesso il modello è di tipo multiplo. In
questo caso la procedura di stima è una semplice generalizzazione di quella vista
ma, ripetiamo, i calcoli diventano molto più lunghi e complessi e quindi non
eseguibili se non con gli strumenti informatici ormai largamente disponibili.
Per rimanere nel concreto, supponiamo che il modello di cui vogliamo sti-
Capitolo 6
232
mare i parametri sia il seguente
yi = βo + β1 x i + β2 z i + β3 vi + ei ,
i = 1 , 2 , .., n
in questo caso è necessario risolvere il seguente problema di minimo
n
∑
i =1
e i2 =
n
∑(y
i
− β o − β1 x i − β 2 z i − β 3 v i ) 2 = minimo(βo , β1 , β2 , β3 )
i =1
che si ottiene risolvendo rispetto a (βo , β1 , β2 , β3 ) il seguente sistema non omogeneo di quattro equazioni lineari che ammetterà, sotto l’ipotesi che fra le tre
variabili esplicative non vi siano perfetti legami lineari, una ed una sola soluzione. Tale soluzione la daremo in forma esplicita nelle pagine successive quando
riscriveremo il modello di regressione in termini di matrici e vettori.
n
 ∂ n 2
e
2
=
−
∑i
∑ ( y i − β0 − β1 x i − β 2 z i − β 3 vi ) = 0

i =1
 ∂β 0 i =1
n
 ∂ n

e i2 = −2 ∑ ( y i − β 0 − β1 x i − β 2 z i − β 3 v i ) x i = 0
∑
 ∂β1 i =1
i =1

n
n
2
 ∂
e
2
=
−
∑ ( y i − β 0 − β1 x i − β 2 z i − β 3 v i ) z i = 0
 ∂β ∑ i
2 i =1
i =1

n
n
 ∂
2
e
2
=
−

∑i
∑ ( y i − β0 − β1 x i − β 2 z i − β 3 vi )v i = 0
i =1
 ∂β 3 i =1
Nell’esempio che segue stimeremo un modello di regressione con tre variabili esplicative e ne commenteremo i relativi risultati.
Esempio 4
Nella tabella seguente riportiamo i tassi relativi ai Nati vivi (NV), Matrimonialità
(MTR), Mortalità (MRT), in Cerca di prima occupazione (CPO) relativi al 1993 per le
venti regioni italiane:
Piemonte
Valle d'Aosta
Lombardia
Trentino-Alto A.
NV
7.5
7.4
8.4
10.5
MTR
4.9
4.8
4.7
5.2
MRT
11.4
10.1
9.0
9.0
CPO
2.507
1.201
1.739
0.879
^
NV
8.024250
8.094782
8.341146
9.181734
ê
- 0.524250
- 0.694782
0.058853
1.318266
Il modello di regressione lineare
Veneto
Friuli-Ven. Giu.
Liguria
Emilia-Romagna
Toscana
Umbria
Marche
Lazio
Abruzzo
Molise
Campania
Puglia
Basilicata
Calabria
Sicilia
Sardegna
Italia
8.2
7.2
6.5
7.1
7.0
7.9
8.2
9.7
9.4
9.2
13.4
11.7
9.4
10.9
12.4
9.3
9.4
5.0
4.4
4.7
4.4
4.6
5.0
4.7
4.9
4.8
4.9
6.3
6.1
5.5
5.4
5.7
5.0
5.1
9.1
12.5
13.8
11.4
11.5
11.2
10.2
8.9
9.8
10.3
7.8
7.5
8.3
8.0
9.1
8.1
9.5
1.495
1.581
3.055
1.503
2.468
2.927
2.199
4.835
3.955
5.622
11.030
7.281
7.199
9.527
8.389
7.006
4.602
233
8.847956
6.582482
6.915501
6.938589
7.413622
8.336814
8.001959
9.162971
8.556788
8.800165
13.01526
12.23962
10.81801
11.03327
11.08948
9.905586
9.400000
- 0.647956
0.617518
- 0.415501
0.161411
- 0.413622
- 0.436813
0.198041
0.537028
0.843211
0.399834
0.384737
- 0.539623
- 1.418008
- 0.133274
1.310516
- 0.605586
0.000000
Le variabili sopra riportate sono state ottenute tramite le seguenti:
NV =
numero nati vivi nel 1993
× 1000
popolazion e media nel 1993
MTR =
numero matrimoni nel 1993
× 1000
popolazion e media nel 1993
MRT =
numero morti nel 1993
× 1000
popolazion e media nel 1993
CPO =
in cerca 1 a occupazion e nel 1993
× 100
popolazion e media nel 1993
Osserviamo che utilizziamo dati relativi e non assoluti visto che vogliamo capire se esiste un
legame fra NV (l’effetto) e MTR, MRT, CPO (le cause) e questo ha senso solo se eliminiamo la diversa numerosità di popolazione esistente fra le diverse regioni italiane. Per i fenomeni
in studio ipotizziamo che il seguente modello lineare
NV = βo + β1 MTR + β2 MRT + β3 CPO + e
Capitolo 6
234
sia idoneo a spiegare il fenomeno Nati vivi per le diverse regioni italiane. Da un punto di vista
logico ci attendiamo che:
(a) fra Matrimoni e Nati vivi vi sia un legame lineare positivo (questo ci fa attendere un
β1>0) visto che è logico supporre un aumento del tasso di natalità in corrispondenza
dell’aumento del tasso di matrimonialità;
(b) il legame sia negativo fra Morti e Nati vivi (valore atteso di β2 < 0) dato che in una
popolazione sviluppata, come quella italiana, la mortalità è alta perché la popolazione è più
vecchia e quindi la natalità è più bassa;
(c) siamo molto scettici a ipotizzare un legame diretto ed immediato fra in Cerca di prima
occupazione e Nati vivi anche se non può essere escluso del tutto dato che chi è giovane e non
ha un lavoro difficilmente si sposa e mette al mondo figli. In margine, notiamo la forte dicotomia che esiste fra le regioni del centro-nord e quelle del sud.
I legami a coppie (NV, MTR), (NV, CPO), (NV, MRT) sono riportati negli scatter
seguenti
15
13
10
8
5
4.0
4.5
5.0
5.5
6.0
15
15
13
13
10
10
8
8
5
6.5
5
0
25
50
75
100
125
5
8
10
13
15
che confermano le ipotesi fatte, in particolare emerge un legame lineare non marginale fra NV
e CPO.
Le stime dei quattro parametri con il metodo dei minimi quadrati sono rispettivamente:
Il modello di regressione lineare
β̂ o = 2.1456;
β̂1 = 1.9073;
235
β̂ 2 = - 0.3331;
β̂ 3 = 0.0131
ed il segno dei valori stimati è quello atteso. Queste stime ci hanno permesso di ottenere i valori stimati di NV tramite la seguente
NV̂ = 2.1456 + 1.9073 MTR - 0.3331MRT + 0.0131CPO
ed i relativi residui stimati ê . I valori di NV̂ e di ê sono riportati nelle ultime due colonne della tabella. Nella figura che segue abbiamo riportato i grafici dei valori osservati e
stimati della variabile dipendente NV, per le 20 regioni ed il relativo scatter. I risultati sembrano complessivamente accettabili.
14
13
12
11
NV
10
9
^
NV
8
7
6
5
10
15
20
15
13
10
8
^
NV
5
5
8
10
13
15
Una volta stimati i parametri βi del modello di regressione è necessario
stimare anche σ 2, la varianza comune delle variabili casuali ei . Ricordiamo, i n-
Capitolo 6
236
fatti, che per ipotesi si ha
σ 2 = var(ei ) = var(Yi ) ,
i = 1, 2, ..., n
con
ei = Yi - E(Yi ) ,
i = 1, 2, ..., n
e sembra ovvio che la stima di questo parametro debba essere fatta a partire
dagli scarti stimati
ê i = yi - ˆy i ,
i = 1, 2, ..., n
che conferma come ˆy i , e quindi β̂ i , siano delle stime in media. Come a bbiamo già mostrato per la stima della varianza in generale uno stimatore non
distorto e consistente è dato dalla somma dei quadrati degli scarti dalla media
stimata diviso per i gradi di libertà (che in quel contesto erano n-1). Nel caso del
modello di regressione lineare semplice, yi = βo + β1 x i + e i , la somma degli
scarti dalla media stimata è data da
n
∑
( y i − ˆy i ) 2 =
i =1
n
∑ ê
2
i
i =1
mentre i relativi gradi di libertà sono n-2 dato che per ottenere gli ê i è necessario prima stimare i due parametri incogniti βo e β1. In definitiva una
stima accettabile di σ 2 nel caso del modello di regressione lineare semplice è
data da
s2=
1
n −2
n
∑ ê
2
i
.
i =1
Con ragionamenti del tutto simili si ottiene la stima di σ 2 nel caso di modello
di regressione lineare multiplo. Così per il modello di regressione lineare definito nella (4) la stima di σ 2 è data da
s2=
1
n −4
n
∑ ê
i =1
2
i
Il modello di regressione lineare
237
Esempio 5
La stima di σ 2 nel caso visto nell’esempio 3 è data da
5.382467
= 1.076493
5
La stima di σ2 nel caso visto nell’esempio 4 è data da
s2=
s2=
9. 61101
= 0.600688.
16
6.5 Proprietà delle stime dei minimi quadrati
Nel paragrafo precedente abbiamo visto come è possibile stimare i parametri del modello di regressione lineare utilizzando il metodo dei minimi quadrati. Le stime ottenute sono delle stime in media e quindi dovrebbero possedere le stesse proprietà che gode la classica stima della media: non distorsione e
consistenza. Qui di seguito dimostriamo in modo formale queste proprietà delle
stime dei minimi quadrati per il caso del modello di regressione lineare sempl ice. Ricordiamo che è
Yi = βo + β1 x i + ei
inoltre
nS xy =
n
∑
( x i − x )( Yi − Y ) =
i =1
n
∑
( x i − x ) Yi - Y
i =1
n S 2x =
n
∑
i =1
n
∑
i =1
( xi − x )2 =
n
∑
i =1
( xi − x ) =
n
∑
( x i − x ) Yi ,
i =1
( x i − x )( x i − x ) =
n
∑
( x i − x ) xi
i =1
ove si è tenuto conto che la somma degli scarti dalla propria media è sempre
identicamente nulla. In tal modo avremo
Capitolo 6
238
n
β̂1 =
S xy
S x2
=
∑
n
( x i − x )( Yi − Y )
i =1
n
∑
=
( xi − x )
∑ (x
i
− x )Yi
i =1
=
nS x2
2
i =1
n
=
n
∑
= βo
∑
i =1
( x i − x )( β o + β1 x i + e i )
=
nS x2
n
( xi − x )
+ β1
i =1
nS x2
= β1 +
n
∑
i =1
∑
n
∑ (x
( x i − x )x i
i =1
+
nS x2
i
− x )e i
i =1
nS x2
=
n
( xi −x )
ei = β1 +
w1i ei
nS x2
i=1
∑
Allo stesso modo risulta
β̂ o = Y - β̂1 x = βo + β1 x +
= βo +
1
n
n
∑
i =1
ei - x
n
∑
i =1
1
n
n
∑
i =1

ei - β1 +

( xi −x )
ei = βo +
nS x2
= βo +
n
∑
n
∑
i =1
n
∑
i =1
( xi − x ) 
ei  x =
nS x2

 1 ( x i − x )x 
 −
 ei =
nS x2
n

woi ei
i =1
ove si è posto
w1i =
( xi − x )
,
nS x2
1 ( x − x ) x  ( m 2 x − x i x )
woi =  − i 2  =
.
nS x 
nS x2
n
Da queste espressioni deduciamo che le due stime sono pari ai rispettivi parametri incogniti più una combinazione lineare delle variabili casuali ei . Inoltre,
da queste relazioni, tenendo conto che le x i sono deterministiche mentre le ei
sono variabili casuali incorrelate e con media zero, risulta immediatamente:
Il modello di regressione lineare
 ( x i − x )x 
1 −
 E(ei ) = βo
S x2


1 n
∑
n i =1
E( β̂ o ) = βo +
E( β̂1 ) = β1 +
239
n
∑
i =1
( xi −x )
- E(ei ) = β1
nS x2
e quindi queste stime sono non distorte.
Ricordando quanto detto per le combinazioni di variabili casuali incorrelate con
varianza costante si ha
n
1
var( β̂ o ) = 2
n
=
1
n2
n
∑
i =1
∑
i =1
2
 ( x i − x )x 
1 −
 var(ei ) =
S x2


 ( xi − x )2x 2
( xi −x ) x  2
−
2
1 +
σ =
S x4
S x2


=σ2

2
 x
1 
n+
n2 


=σ2
1
n2
n
∑
x
−2
i =1
 x 2 nS x2
n +
S x4

n
( x i − x )2
S x4
∑ (x
i
i =1
S x2

−x )
=




x2 
m
2 1
=
σ
1
+
= σ 2 2 x2


2 
n  Sx 
nS x

ove si è tenuto conto che S 2x = m2x - x 2; allo stesso modo
var( β̂1 ) =
n
∑
i =1
2
( x i − x ) 
2

 var(ei ) = σ
2
 nS x 
n
∑
i =1
( xi −x )2
=
n 2 S x4
nS x2
1
=σ2
2 4
n Sx
nS x2
e quindi queste stime sono consistenti.
=σ2
Si può ancora dimostrare (Teorema di Gauss-Markov) che le stime dei minimi
Capitolo 6
240
quadrati, oltre ad essere non distorte, consistenti e lineari nelle ei , sono quelle
che hanno la varianza minima fra tutte le stime non distorte e lineari nelle ei . In
sigla si dice che tali stime sono BLUE (Best Linear Unbiased Estimates). Con
una procedura simile, anche se un pò più elaborata, si può dimostrare che anche s 2 è non distorta e consistente per σ 2.
Dalle espressioni di var( β̂ o ) e var( β̂1 ) vediamo che queste sono funzione
del parametro incognito σ 2 che può essere stimato con s 2. Ciò vuol dire che le
stime delle varianze dei parametri stimati, che indichiamo rispettivamente con
s 2βo e s 2β1 , sono date rispettivamente da
s 2βo = s 2
m2 x
,
nS x2
s 2β1 = s 2
1
nS x2
che essendo funzione solo dei dati osservati possono essere calcolate numericamente.
Nel caso del modello di regressione multipla le stime che si ottengono sono
ancora BLUE, ma gli sviluppi formali sono più complessi. In tal caso il calcolo
numerico viene fatto solo tramite computer utilizzando l’appropriato software.
Esempio 6
Nel caso dell’esempio 3 le stime di s 2βo e s 2β1 sono rispettivamente
s 2βo = 25.0918,
s 2β1 = 0.0638
Nel caso dell’esempio 4 le stime s 2βi sono rispettivamente
s 2β o = 16.0851, s 2β1 = 0.4232,
s β22 = 0.0227,
s 2β 3 = 0.00009304.
6.6 La verifica del modello di regressione
Una volta che il modello è stato identificato e stimato è necessario procedere alla sua verifica. In altri termini è necessario stabilire se si adatta in modo
soddisfacente ai dati osservati. Da un punto di vista analitico questo implica verificare se, con i dati che si hanno a disposizione, effettivamente tutte le variabili
esplicative, o solo alcune di queste, si possono statisticamente considerare cause
della variabile dipendente. Questa verifica può essere eseguita utilizzando strumenti diversi. Qui di seguito ne analizzeremo solo tre: test sui parametri stimati,
Il modello di regressione lineare
241
un indice di accostamento globale del modello ai dati osservati, alcune analisi
sui residui.
Perché un modello sia considerato accettabile e quindi idoneo ad essere utilizzato è necessario che superi tutte le verifiche di cui tratteremo nel seguito. Se
qualcuna di tali verifiche non è superata è necessario riformulare il modello, integrando eventualmente le osservazioni di cui si dispone.
TEST SUI PARAMETRI DEL MODELLO
Consideriamo per il momento il caso del modello di regressione lineare
semplice
yi = βo + β1 x i + ei
e la relativa stima
ˆy i = β̂ o + β̂1 x i
si vuole sottoporre a test
Oppure
Ho : βo = 0
verso
H1 : βo ≠ 0
Ho : β1 = 0
verso
H1 : β1 ≠ 0
È immediato capire che se si dovesse accettare, per esempio, l’ipotesi Ho : β1 =
0 vorrebbe dire che la variabile X non esercita alcuna influenza su Y e quindi il
modello va riformulato scegliendo altre variabili esplicative più idonee a spiegare il fenomeno Y. Da un punto di vista intuitivo siamo portati a rifiutare Ho se
il valore stimato | β̂1 | è grande e lontano da zero, viceversa siamo portati ad
accettare Ho se | β̂1 | è piccolo e vicino a zero. Per stabilire fino a che punto
detto valore è grande o piccolo è necessario conoscere, al variare del campione, la distribuzione probabilistica di β̂1 o di una sua trasformazione monotona
di modo che sia pivotale (cioè indipendente dai parametri incogniti). È a questo
fine che si introduce l’ipotesi di normalità: le variabili casuali scarto ei si suppongono indipendenti fra di loro e distribuite come una normale con media
zero e varianza costante. Tenendo conto di questa ipotesi e del fatto che sia β̂1
che β̂ o sono delle combinazioni lineari delle ei , per una delle proprietà della
normale si ha immediatamente
 σ2 1 

β̂1 ~ N  β1 ;
n S x2 

Capitolo 6
242



β̂ o ~ N βo ;
σ 2 m2 x
n S x2




Come si può notare da queste due espressioni la distribuzione delle stime β̂1 e
β̂ o , al variare del campione, è simile (a meno di una costante moltiplicativa
della varianza) a quella della media campionaria x sotto l’ipotesi di normalità:
 σ2
,
X ~ N µ ;

n


questo ci porta a costruire una statistica test simile a quella utilizzata per la media. In definitiva, la statistica test per
Ho : βo = 0
verso
H1 : βo ≠ 0
è data da
toc =
| βˆ o | |βˆ o | n
=
s
s βo
Sx
.
m2 x
Si rifiuta Ho al livello α se risulta
toc > t(n-2; 1- α/2) .
Allo stesso modo la statistica test per
Ho : β1 = 0
verso
H1 : β1 ≠ 0
è data da
t1c =
| βˆ 1 | | βˆ 1 | n
Sx .
=
s β1
s
Si rifiuta Ho al livello α se
t1c > t(n-2 ; 1- α/2) .
Il modello di regressione lineare
243
Ovviamente, per i test unilaterali del tipo Ho : β1=0 verso H1 : β1>0 si procede con una tecnica simile a quella già vista nel capitolo relativo alla teoria del
test.
Nel caso di modello di regressione lineare multiplo la logica del test sui parametri è esattamente la stessa, ma non sono più valide le formule che abbiamo
appena visto. In tal caso, la verifica di
Ho : βi = 0
verso
H1 : βi ≠ 0, i = 0, 1, ..., k
implica una statistica test del tipo
tic =
| βˆ i | | βˆ i | n
δix ,
=
s βi
s
i = 0, 1, ..., k
ove δix è una complicata quantità positiva funzione dei valori osservati sulle variabili esplicative calcolabile numericamente (tramite elaboratori) ma non facilmente esplicitabile in modo formale.
In questo caso, se le variabili esplicative del modello sono k, si rifiuterà Ho al
livello α se risulta
tic > t(n-k-1; 1- α/2)
i = 0, 1, ..., k .
Esempio 7
Riprendiamo il caso riportato nell’esempio 3 e costruiamo i test per
Ho : βi = 0
H1 : βi ≠ 0, i = 0, 1
verso
Abbiamo già visto che è
β̂ o = 5.0384 ,
e quindi risulta
to c =
β̂1 = 0.7885 , s 2βo = 25.0918 , s 2β1 = 0.0638
5.0384
= 1.006
25.0918
e
t1 c =
0.7885
= 3.12
0.0638
ed essendo t(5; 2.5%) = 2.571, al livello α=5%, non si può rifiutare l’ipotesi Ho per i = 0,
viceversa possiamo rifiutarla per i=1. Questo vuol dire che il modello di regressione va riformulato nel seguente
Capitolo 6
244
Y = β1 X + e
In tal caso si otterrà β̂1 = 1.0417907 e s 2β1 = 0.00039175 che implicano
t1c =
1.0417907
0.00039175
= 52.63
e rifiutiamo ancora l’ipotesi Ho che β1 sia pari a zero. In definitiva, il modello di regressione
privo di intercetta potrebbe essere quello idoneo per descrivere il fenomeno Y in funzione di X.
Osserviamo che un modello di regressione accettabile deve avere almeno 15 gradi di libertà con
g = n-k-1. In questo caso i gradi di libertà sono solo cinque e di conseguenza i risultati sono
molto instabili.
Riprendiamo ora l’esempio 4, abbiamo visto che le variabili esplicative sono tre e risulta:
β̂ o = 2.1456;
β̂1 = 1.9073;
β̂ 2 = - 0.3331;
s 2βo = 16.0851; s 2β1 = 0.4232; s 2β 2 = 0.0227;
da queste ricaviamo
to c =
t2 c =
2.1456
= 0.53,
16.0851
0.3331
= 2.21,
0.0227
t1 c =
t3 c =
β̂ 3 = 0.0131
s 2β 3 = 0.00009304
1.9073
= 2.93,
0.4232
0.0131
= 1.36
0.00009304
ricordando che è n = 20, al livello α = 5%, avremo t(16; 1-0.025)=2.12 pertanto non possiamo rifiutare Ho : βi = 0 per i = 0, 3. In altri termini, sia l’intercetta βo che β3 , il coefficiente di COP, non sono statisticamente diversi da zero al livello del 5%. Tenuto conto di questi risultati riformuliamo il modello
NV = β1 MTR + β2 MRT + e
e stimiamone i relativi parametri ottenendo:
β̂1 = 2.4871;
β̂ 2 = - 0.3548
s 2β1 = 0.019418; s 2β 2 = 0.005014
risulta
Il modello di regressione lineare
t1 c =
2.4871
= 17.85;
0.019418
t2 c =
245
0.3548
= 5.01
0.005014
mentre è t(18; 1-0.025)=2.101 ed in entrambi i casi si può rifiutare l’ipotesi Ho e affermare che
entrambi i parametri sono da considerarsi statisticamente diversi da zero. Da questo secondo
caso possiamo trarre alcune utili considerazioni:
(a) dato che è
corr(NV; CPO) = 0.804
si poteva a priori pensare che effettivamente la variabile CPO avesse una qualche influenza
su NV, da quanto è emerso in questa analisi tale legame è di tipo spurio essendo evidentemente già conglobato in MTR;
(b) l’esclusione di una variabile nel modello di regressione può portare a risultati molto diversi
nella stima dei parametri, infatti la stima di β1 dal caso di tre variabili esplicative al caso
di due variabili esplicative passa, rispettivamente, da 1.9073 a 2.4871
(c) in termini di accostamento globale l’esclusione o l’inclusione della variabile non significativa
CPO non crea grandi differenze, come si può verificare controllando il grafico seguente costruito con βo = β1 = 0 e quello visto nell’esempio 4 in cui erano presenti tutti e quattro
i parametri.
14
13
12
11
NV
10
9
^
NV
8
7
6
5
10
15
20
MISURA DELLA BONTÀ DI ADATTAMENTO
Definiamo ora uno strumento che ci permetta di misurare l’accostamento
tra i dati osservati e quelli stimati e quindi di stabilire se globalmente il modello di
regressione stimato descrive in modo accettabile le osservazioni che si hanno a
disposizione. In altre parole, vogliamo calcolare un indice che ci indica fino a
che punto il modello di regressione lineare stimato, nella sua globalità, approssima i dati osservati.
Capitolo 6
246
Consideriamo, per il momento, il caso della regressione lineare semplice. In
questo contesto la situazione ottimale si ha quando tutte le n coppie (x i , yi ) osservate sono allineate lungo una retta che, ovviamente, coincide con quella di
regressione per cui i relativi residui osservati ê i sono tutti identicamente nulli.
Viceversa il caso peggiore si ha quando tutte le n coppie osservate (x i , yi ) sono
disperse nel piano (X, Y) e risulta del tutto irrealistica l’approssimazione con
una retta. Le due situazioni qui richiamate sono schematizzate nelle figure seguenti
1) Caso ottimale
2) Caso peggiore
Nelle pratiche applicazioni ben difficilmente si hanno situazioni estreme
come quelle sopra illustrate e sorge la necessità di misurare fino a che punto si è
vicini al caso ottimale o a quello peggiore. A tale scopo si costruisce un indice
di correlazione multipla, che si indica con R2, e misura l’intensità del legame l ineare esistente fra la variabile dipendente Y e quelle esplicative X1 , X2 , ..., Xk .
Prima di definire questo nuovo indice dimostriamo che è sempre
n
∑ ê (ˆy
i
i
− y) = 0
i =1
Infatti,
n
∑ ê ( ˆy
i
i
− y) =
i =1
n
∑( y
i
− ˆy i )( ˆy i − y ) =
i =1
n
∑ ( y i − βˆ o − βˆ1 x i )( βˆ o + βˆ 1 x i − βˆ o − βˆ 1 x ) =
i =1
= β̂1
n
∑ ( y i − βˆ o − βˆ1 x i )( x i − x ) =
i =1
Il modello di regressione lineare
β̂1
247
∑ ( y i x i − βˆ o x i − βˆ1 x i2 − y i x + βˆ o x + βˆ 1 x i x ) =
n
i =1
 n
β̂1  x i y i − β̂ o
 i =1
∑
n
∑
x i - β̂1
i =1
n
∑
x i2 - x
i =1
n
∑
y i + n β̂ o x + β̂1 x
i =1
n
∑x
i =1
(
i

=


)
= βˆ 1 n m xy − nβˆ o x − n βˆ 1 m 2 x − n x y + n βˆ o x + n βˆ 1 x 2 =
= β̂1 n [mxy - x y - β̂1 (m2x - x 2)] = β̂1 n (S xy - β̂1 S 2x ) =

S xy

= β̂1 n  S xy − 2 S x2  = 0


Sx


Tenendo conto di questo risultato si ha immediatamente
n
∑
( y i − y )2 =
i =1
n
∑
( y i − ˆy i + ˆy i − y ) 2 =
i =1
∑ [ê
n
2
i
n
∑ [ê
i
+ ( ˆy i − y )]2 =
i =1
] ∑ ê
+ ( ˆy i − y ) 2 + 2ê i ( ˆy i − y ) =
i =1
n
2
i
i =1
+
n
∑ ( ˆy
i
− y )2
i =1
Se dividiamo il primo e l’ultimo membro di quest’ultima uguaglianza per n si
ottiene
1 n
1 n 2
1 n
( yi − y ) 2 =
ê i +
( ˆy i − y ) 2
n i =1
n i =1
n i =1
∑
∑
∑
o equivalentemente
S 2y = S ê2 + S 2ˆy
In altri termini,
se il modello di regressione è lineare ed è stimato con il metodo dei minimi
quadrati, allora la varianza stimata (stima distorta) delle y osservate è sempre
uguale alla varianza dei residui stimati più la varianza delle ˆy interpolate.
Capitolo 6
248
Se dividiamo ambo i membri dell’ultima uguaglianza per S 2y si ottiene
S 2ˆy
Sˆe2
1= 2 + 2
Sy
Sy
Siamo ora in condizione di dare la seguente definizione
l’indice R2 è dato da
R2 =
S 2ˆy
S 2y
=1-
Sˆe2
S 2y
e misura la percentuale della variabilità di Y spiegata dal modello di regressione
adattato ad Y.
Da quanto abbiamo appena detto è facile verificare che è sempre
0 ≤ R2 ≤ 1
Per meglio illustrare il significato di questo indice, analizziamo i due casi estremi: R2 = 0 ed R2 = 1.
Caso di R2 = 0.
R2 = 0 è equivalente a S 2ˆy = 0, cioè
1
n
n
∑
( ˆy i − y ) 2 = 0
i =1
che equivale a
( ˆy1 − y ) = ( ˆy 2 − y ) = ... = ( ˆy n − y )= 0
da cui infine
ˆy1 = ˆy 2 = ... = ˆy n = y .
In altri termini, nel caso di R2 = 0 tutti i valori interpolati sono uguali fra di loro
e coincidono con la propria media. Nel caso della regressione lineare semplice
si ha una situazione come quella schematizzata nella figura seguente
Il modello di regressione lineare
249
y
Quanto detto si verifica se e solo se risulta β̂1 = 0 e quindi β̂ o = y , ma questo vuol dire che al variare di X la Y, in media, non varia. In altri termini, in un
caso del genere la variabile esplicativa X non esercita, in media, alcuna influenza
su Y per cui il modello considerato non è accettabile e va riformulato. Queste
considerazioni possono essere estese al caso multiplo con k ≥ 2 variabili esplicative. Infatti, si può dimostrare che R2 = 0 è equivalente a β̂1 = β̂ 2 = .... = β̂ k
= 0 e quindi β̂ o = y . Questo vuol dire che, in media, nessuna delle k variabili
esplicative X1 , X2 , ..., Xk esercita una influenza su Y, di conseguenza il modello
utilizzato è inaccettabile e va riformulato.
È anche possibile elaborare un test delle ipotesi che permetta di stabilire se
2
R è significativamente diverso da zero. Più precisamente, supponendo che le
v.c. scarto ei siano tutte indipendenti e distribuite normalmente, le ipotesi che
vengono sottoposte a test sono
Ho : β1= β2 = ... = βk = 0
H1: almeno uno dei βi ≠ 0,
in tal caso si può dimostrare che la statistica test ottimale è data da
2
R2 /k
( n − k −1 ) S ˆy
Fc =
=
( 1 − R 2 ) /( n − k − 1 )
k
S ê2
che, sotto Ho , si distribuisce come una v.c. F(k; n-k-1). Questo vuol dire che si rigetta, al livello α, l’ipotesi Ho se risulta
Capitolo 6
250
Fc > F( k; n-k-1; α )
Ove F( k; n-k-1; α ) è tale che
P( F(k; n-k-1) > F( k; n-k-1; α ) ) = α
e si ricava, come già sappiamo, dalle tavole della v.c. F di Fisher riportate in
appendice.
Caso di R2 = 1
R2 = 1 è equivalente a S ê2 = 0 che a sua volta è equivalente a
n
∑ ê
2
i
= 0.
i =1
Questo si verifica se e solo se risulta ê1 = ê 2 = ... = ê n = 0. In definitiva, si ha
R2 = 1 se e solo se tutti i residui osservati sono identicamente nulli ma questo è
equivalente a dire che tutte le y osservate sono coincidenti con quelle teoriche e
quindi risulta yi = ˆy i per i=1,2,...,n. In altri termini, le yi osservate sono tutte allineate lungo una retta che coincide necessariamente con quella di regressione.
Graficamente si ha una situazione come quella descritta nella figura seguente
ˆy = βˆ o + βˆ 1 x
Questo risultato vale, con identica interpretazione, anche quando si hanno k ≥ 2
variabili esplicative.
Nelle pratiche applicazioni molto difficilmente si otterrà uno dei casi limite
Il modello di regressione lineare
251
sopra illustrati, ma si avranno valori di R2 interni all'intervallo [0; 1]. Tali valori
limite sono utili per meglio interpretare questo indice: più R2 è vicino ad uno
più il modello è globalmente accettabile, più R2 è vicino a zero più il modello
globalmente è da rifiutare. Per esempio, se in una data applicazione risulta R2 =
0.86 vuol dire che l’86% della varianza di Y è spiegato dal modello di regressione lineare, mentre il restante 14% è spiegato dai residui.
Esempio 8
Riprendiamo l’esempio 3, abbiamo visto che il modello da prendere in considerazione è
Y = β1 X + e
in tal caso si ottiene R2 = 0.592. Questo vuol dire che il 59.2% della variabilità di Y è spiegato dal modello di regressione utilizzato, mentre il restante 40.8% è dovuto ai residui.
Riprendiamo l’esempio 7, siamo arrivati alla conclusione che abbia senso il modello
NV = β1 MTR + β2 MRT + e
in tal caso si ottiene R2 = 0.846. In altri termini, la variabilità di NV è spiegata per
l’84.6% dal modello suddetto, mentre il restante 15.4% è spiegato dai residui e quindi da
fattori accidentali.
Facciamo ora vedere che R2 è una generalizzazione del coefficiente di correlazione già analizzato. Più precisamente mostriamo che nel caso della regressione lineare semplice R2 coincide con la correlazione stimata al quadrato:
R2 = r 2 =
S xy2
S x2 S 2y
Partendo dalla definizione di R2 si ha
R2 =
S 2ˆy
S 2y
,
ma nel caso della regressione semplice, tenendo conto delle espressioni di ˆy i ,
y e β̂1 si ha sempre
Capitolo 6
252
S 2ˆy =
1
n
n
∑
( ˆy i − y ) 2 =
i =1
1
βˆ 12
n
n
∑
i =1
1 n ˆ
∑ ( β o + βˆ 1 x i − βˆ o − βˆ 1 x ) 2 =
n i =1
( x i − x ) 2 = β̂12 S 2x =
S xy2
S x4
S 2x =
S xy2
S x2
Sostituendo quest’ultima nella formula di R2 si ottiene il risultato cercato.
ANALISI DEI RESIDUI
Un terzo modo per stabilire se il modello adattato ai dati può essere accettato e quindi utilizzato, oppure va rifiutato e quindi riformulato è quello di analizzare i residui stimati. Se nei residui stimati vi è ancora una qualche struttura è
evidente che il modello selezionato non riesce a catturare completamente
l’evoluzione del fenomeno e quindi va riformulato, ristimato e ritestato. Se le n
osservazioni di cui si dispone sono relative a serie storiche, oppure posseggono
un qualche altro ordinamento naturale, un modo di verificare se nei residui vi è
una qualche struttura è quello di costruire i due grafici come qui di seguito indicato.
Primo grafico
In un sistema di assi cartesiani si riportano le coppie di punti ( i , ê i ) se nei
residui stimati vi è una qualche ulteriore struttura questa dovrebbe emergere dal
relativo grafico. Nella figura che segue è riportato il tipico caso in cui fra i residui esiste una ulteriore struttura che il modello non è riuscito a catturare. Infatti,
in questo grafico a residui positivi tendono a susseguirsi residui positivi ed a
quelli negativi ancora residui negativi.
Il modello di regressione lineare
253
Secondo grafico
In un sistema di assi cartesiani si rappresentano le coppie ( ê i , ê i −1 ), se nei r esidui vi è una qualche struttura dovrebbe emergere dal grafico ed il relativo
modello dovrebbe essere riformulato. Nella figura che segue viene riportato il
tipico caso in cui fra i residui esiste una ulteriore struttura di cui è necessario tener conto.
In questo caso si può notare come la maggior parte dei punti siano concentrati
nel primo e nel terzo quadrante.
Se le osservazioni di cui si dispone non posseggono un ordinamento naturale, un modo per verificare se nei residui vi è una qualche ulteriore struttura è
quella di costruire uno scatter rappresentando le n coppie di osservazioni ( ê i ,
yi ). Se il modello utilizzato non è idoneo a rappresentare la variabile dipendente
Y, nello scatter sopra citato deve essere visibile una qualche struttura.
14
23
22
12
21
10
20
8
19
18
6
-2
-1
0
1 RESID
2
-2
-1
0
1 RESID
2
Le due figure qui sopra riportate si riferiscono agli scatter ( eˆi , NVi ) e ( eˆi ,
yi ) connessi alle stime dei modelli di regressione degli esempi 7 ed 8. Come si
Capitolo 6
254
può notare, in questi non si intravedono strutture apparenti e quindi i modelli
utilizzati possono essere considerati idonei per rappresentare i fenomeni in studio.
6.7 Modello di regressione non lineare
Le analisi che abbiamo fatto nei paragrafi precedenti sono relative al caso in
cui la relazione esistente fra la variabile dipendente Y e quelle esplicative (X1,
X2 , ..., Xk ) sia di tipo lineare. Molto spesso, considerazioni teoriche, evidenze
empiriche o entrambe portano a formulare modelli non lineari. In questi casi è
necessario distinguere fra tre situazioni alternative, qui di seguito sommariamente illustrate, che implicano soluzioni diverse.
MODELLI NON LINEARI NELLE ESPLICATIVE
Questo è il caso più semplice da affrontare dato che la stima dei suoi parametri e la relativa verifica non si discosta sostanzialmente da quello lineare già
conosciuto. Per essere più chiari supponiamo che sia
Y = βo + β1 e X + β2 V 2 + a
ove a è la variabile casuale scarto o residuo. Come si può notare, questo modello è lineare nei parametri incogniti, ma è non lineare nelle due variabili esplicative X e V. D’altra parte, se poniamo
e X = X*,
V 2 = V*
cioè lavoriamo sull’esponenziale della variabile X e sui quadrati della variabile
V, otteniamo il nuovo modello
Y = βo + β1 X* + β2 V* + a
che risulta lineare nei parametri e nelle nuove variabili esplicative X*, V* e tutto
quanto illustrato per il modello lineare continua a valere per questo particolare
modello non lineare.
MODELLI NON LINEARI MA LINEARIZZABILI
In molti casi un modello non lineare nei parametri può essere ricondotto a
quello lineare con una semplice trasformazione monotona. In tal modo i risultati illustrati nelle pagine precedenti valgono per il modello trasformato e dato
che la trasformazione è di tipo monotona, è sempre possibile risalire al m o-
Il modello di regressione lineare
255
dello originario. Qui di seguito presentiamo tre modelli non lineari nei parametri incogniti e la relativa trasformazione monotona che li riconduce al caso
lineare:
Y = βo e
(β1 X1 + β2 V ) a
Y = βo X
Y=
β1
V β2 a
1
β o + β1 X + a
ove con a abbiamo indicato la variabile casuale residuo ed Y è strettamente positiva. Questi modelli possono essere ricondotti facilmente alla forma lineare,
rispettivamente, con le trasformazioni seguenti:
log(Y) = log( βo ) + β1 X + β2 V + log(a)
log(Y) = log( βo ) + β1 log(X) + β2 log(V)+ log(a)
1
= βo +β1 X+e.
Y
MODELLI NON LINEARIZZABILI
Esistono molti modelli di regressione non lineari e non linearizzabili con
semplici trasformazioni monotone. Così, se è
Y = β o + X β1 + V β2 + a
il modello è non lineare nei parametri e non è facilmente linearizzabile. In tal
caso per procedere è necessario utilizzare una stima non lineare dei minimi
quadrati dato che bisogna minimizzare l’espressione seguente
∑ [y i - βo - X
n
i =1
β1
-V
β2
2
]
= min(βo , β1 , β2 ).
Esistono algoritmi numerici abbastanza affidabili all’interno di pacchetti applicativi per computer che permettono di ottenere le relative stime. In tal caso,
però, alcuni degli strumenti di verifica del modello che abbiamo qui illustrato
non sono più validi.
Capitolo 6
256
Esempio 9
Nella tabella seguente sono riportate le variabili Capitale (CAP), Lavoro (LAV) e
Fatturato (FT) riguardanti la produzione di beni di abbigliamento osservati annualmente dal
1980 al 2000 in Italia. I dati sono espressi a prezzi costanti.
CAP
LAV
FT
3915220
4048943
4166672
4275791
4388399
4496368
4605069
4719635
4847538
4981877
5122586
5260057
5386359
5470796
5551208
5644872
5744835
5846054
5955667
6075031
6209550
22061.4
22059.0
22181.8
22319.9
22400.6
22595.6
22783.9
22895.6
22131.2
22202.0
23425.6
23608.4
23457.2
22749.8
22529.2
22528.3
22600.2
22691.5
22925.7
23111.5
23454.3
1341394
1351868
1360399
1377220
1415209
1457306
1494116
1538714
1599473
1645403
1677885
1701210
1714149
1699000
1736505
1787278
1806815
1843426
1876807
1907064
1962649
Nella figura seguente sono riportate le tre variabili citate dopo averle trasformate in numeri
indici a base fissa per renderli confrontabili
160
150
140
cap
130
ft
120
110
lav
100
90
80
82
84
86
88
90
92
94
96
98
00
Possiamo osservare che il capitale ed il fatturato crescono entrambi ad un tasso elevato, mentre
Il modello di regressione lineare
257
il lavoro oscilla e rimane sostanzialmente immutato nel periodo considerato. Ai dati osservati
si vuole adattare una funzione di produzione non lineare del tipo
FTt = β o CAPtβ1 LAVt( 1 −β1 ) + e t
questo è un modello non lineare né linearizzabile nei due parametri β o e β1 e per poterlo
stimare utilizziamo il metodo non lineare dei minimi quadrati. I risultati della stima sono riportati nella tabella che segue
Stima coeff
βo
β1
R2
S.E.
SSR
Errore ST
tc
Prob.
0.731225 0.100128
7.302883
0.0000
0.848242 0.025076
33.82630
0.0000
0.987024
Media di FT
1633042.0
23101.32
1.01E+10
S.D. di FT
197661.0
Come si può notare, la stima di entrambi i parametri è da considerare buona ed il valore di
R2 è molto elevato il che porterebbe a considerare il modello stimato accettabile. Se si considera
come il modello adatta i dati e l’andamento dei residui stimati si ottiene la figura seguente
2000000
Osservati
Stimati
1800000
1600000
60000
1400000
40000
1200000
20000
0
residui
-20000
-40000
-60000
80
82
84
86
88
90
92
94
96
98
00
Come si può notare, nei residui è presente una componente ciclica che rende il modello poco a ccettabile. Per catturare questo aspetto del fenomeno si è considerato il modello seguente
β CAPtβ1 LAVt( 1− β1 ) + e t
FTt =  o
 e t = φ1 e t −1 + φ2 e t − 2 + a t
Capitolo 6
258
ove a t è la nuova variabile casuale errore. In questo caso la stima non lineare dei minimi
quadrati fornisce i risultati riportati nella tabella che segue
βo
β1
φ1
φ2
Coefficienti
Std. Error
t-Statistica
Prob.
0.654055
0.127621
5.124958
0.0001
0.868796
0.035754
24.29893
0.0000
1.090955
0.202491
5.387668
0.0001
-0.576220
0.186839
-3.084048
0.0076
R2
0.995371
Media FT
166319.0
S.E.
SSR
13607.83
2.78E+09
S.D. di FT
182575.7
Tutti i parametri stimati sono statisticamente diversi da zero e l’indice R 2 è molto elevato e
questo ci porta a concludere che questo modello potrebbe essere preferibile a quello precedentemente utilizzato. Se consideriamo il grafico che mostra come il modello stimato adatta i dati
ed i relativi residui otteniamo la figura seguente che ci porta a concludere che questo secondo
modello è effettivamente migliore di quello stimato precedentemente.
2000000
Osservati
Interpolati
1800000
40000
1600000
20000
1400000
1200000
0
residui
-20000
-40000
82
84
86
88
90
92
94
96
98
00
6.8 Modello di regressione in forma matriciale
Il modello di regressione lineare può essere più facilmente ed utilmente r iscritto utilizzando la notazione matriciale. Per vedere come questo si può ottenere consideriamo il caso in cui vi sono due sole variabili esplicative: la X e la
V. In tal modo le n osservazioni soddisfano le n relazioni:
Il modello di regressione lineare
259
y1 = βo + β1 x 1 + β2 v1 + e1
y2 = βo + β1 x 2 + β2 v2 + e2
.......................................................
yn = βo + β1 x n + β2 vn + en
che in forma matriciale possono essere anche scritte nel modo seguente
 y1 
y 
 2
 ...  =
 
 ... 
 yn 
⇔
y
=
1 x 1
1 x
2

... ...

... ...
1 x n
X
v1 
v 2 
... 

... 
v n 
e1 
 
 β o  e 2 
 β  +  ... 
 1  
β 2   ... 
e n 
β
+
⇔
e
dove y , X , β , e , sono, rispettivamente, il vettore delle y , la matrice delle variabili esplicative X, il vettore dei parametri β ed il vettore dei residui e . In altri
termini,
il modello di regressione lineare si può sempre scrivere nel modo seguente
y=Xβ +e
con l’avvertenza che y ed e sono due vettori di n elementi, la matrice X ha n
righe e (k+1) colonne, mentre il vettore β ha (k+1) coefficienti incogniti da
stimare.
Per le ipotesi fatte sul modello di regressione ( X è deterministica mentre
E(e) = 0) risulta immediatamente
E(y) = X β .
Indichiamo con A l’inversa di una matrice quadrata, cioè quella per cui si ha
AA −1 = I , ove I indica la matrice identica composta da tutti uno sulla diagonale principale e zero altrove, e con A' la trasposta di una matrice qualsiasi.
Premoltiplicando ambo i membri dell’ultima espressione per X' si ottiene
-1
Capitolo 6
260
X' E( y ) = ( X' X ) β
da cui, essendo (X' X) quadrata ed invertibile per le ipotesi fatte sul modello di
regressione lineare, si ricava la soluzione
β = (X' X ) -1X' E( y)
Se al posto di E(y), che è incognito, sostituiamo una stima, in particolare i valori osservati y, si ottiene la stima del vettore dei parametri incogniti:
β̂ = (X ′ X) −1 X ′ y
questa, per costruzione, è una stima in media e quindi minimizza la somma dei
quadrati degli scarti ed ha tutte le proprietà della stima della media. In particol are è facile verificare che β̂β è non distorta per β . Infatti, ricordando che y = X
β + e si ha
β̂β = (X ' X) -1X ' y = (X ' X) -1X ' [X β + e] =
= (X ' X ) -1(X ' X) β + (X' X) -1X ' e = β + (X' X ) -1X ' e
e tenuto conto che E(e) = 0 ed X è deterministica si ricava
E( β̂β ) = β + (X' X) -1X ' E( e) = β
che generalizza quanto abbiamo visto nel caso di regressione lineare semplice
(teorema di Gauss-Markov). Allo stesso modo si ha che:
- il vettore delle y stimate è dato da:
ŷ = X β̂β
- il vettore degli scarti stimati è dato da:
ê = y - ŷ
- la stima non distorta di σ 2 è data da:
s2=
- il coefficiente di correlazione multipla è:
eˆ' eˆ
n − k −1
Il modello di regressione lineare
R2 =
261
eˆ ' eˆ
( yˆ − y )' ( yˆ − y )
=1( y − y )' ( y − y )
( y − y )' ( y − y )
ove con y- si è indicato il vettore che ha tutti gli elementi uguali e pari alla media campionaria -y .
Con una procedura simile è facile verificare che la matrice delle varianze e
covarianze di β̂β è data da
var( β̂β ) = σ 2( X ' X) -1.
La generalizzazione degli altri risultati illustrati nei paragrafi precedenti si ottiene
con procedimenti simili ricorrendo a noti risultati di algebra lineare.
BIBLIOGRAFIA
AITKEN C.G.C Statstics and the Evolution of Evidence for Forensic Scientists, Wiley &
Sons, New York (1995)
ANDERSON TW., FINN J.D. The New Statistical Analysis of Data, Springer, New
York (1996)
AZZALINI A. Statistical Inference Based on the Likelihood, Chapmann & Hall,
London (1996)
BARNES J.W. Statistical Analysis for Engeneers and Scientists, McGraw Hill, New
York (1994)
BETTUZZI G. Strumenti per l’Indagine Statistica, vol. I, CLUEB, Bologna (1993)
BICKEL P. J., DOCKSUM K.A. Mathematical Statistics: Basic Ideas and Selected
Topics, Holden-Day, San Francisco (1977)
BLALOCK H. M. Social Statistics, McGraw-Hill, 2° ediz., New York (1972)
BOLDRINI M. Statistica, Giuffrè, Milano (1968)
C ALVELLI A., QUINTANO C. La Statistica. Elementi di Metodologia ed Applicazioni
in Campo Sociale ed Economico, Liguori Editore, Napoli (1982)
C APPUCCIO N., ORSI R. Econometria, Il Mulino, Bologna (1991)
C ASELLA G., BERGER R.L. Statistical Inference, Duxbury Press, Belmont CA
(1990)
C ASTELLANO V. Istituzioni di Statistica, Ed. Ilardi, Roma (1968)
C ECCHI C. I Numeri indici, Cacucci, Bari (1995)
C HIEPPA M., RIBECCO N., VITALE C. Teoria e Metodi Statistici, ESI, Napoli
(1994)
C IFARELLI M. Elementi di Calcolo delle Probabilità, Giappichelli, Torino (1995)
C ORBETTA P. Metodi di Analisi Multivariata per le Scienze Sociali, Il Mulino,
Bologna (1992)
C OSTANTINI D. GIORGI G.M., HERZEL A., M ONARI P., S CARDOVI I.,
Metodi Statistici per le Scienze Economiche e Sociali, Monduzzi, Bologna (1994)
C OX D.R., HINKLEY D.V. Theoretical Statistics, Chapmann Hall, London
(1974)
C RESCIMANNI A. Grafici in Statistica, La Nuova Italia Scientifica, Roma (1996)
DABONI L. Calcolo delle Probabilità ed Elementi di Statistica, UTET, Torino (1996)
DALL’AGLIO G. Calcolo delle Probabilità, Zanichelli, Bologna (1987)
DAVISON A.C., HINCKEY D.V. Bootstrap Methods and their Application,
Cambridge University Press, Cambridge (1997)
De FINETTI B. Teoria delle Probabilità, vol. I e II, Einaudi, Torino (1970)
294
Bibliografia
DEL VECCHIO F. Elementi di Statistica per la Ricerca Sociale, Cacucci, Bari (1996)
DIANA G., SALVAN A. Campionamento da Popolazioni Finite, CLEUP, Padova
(1987)
DI C IACCIO A., BORRA S. Introduzione alla Statistica Descrittiva, McGraw Hill,
Milano (1996)
EFRON B. D., TIBSHIRANI R.J. An Introduction to the Bootstrap, Chapmann &
Hall, New York (1993)
FRASER A.A.S. Inference and Linear Models, McGraw-Hill, New York (1979)
FROSINI B., MONTANARI M., NICOLINI G. Il Campionamento da Popolazioni
Finite, UTET, Torino (1994)
GIRONE G., SALVEMINI T. Lezioni di Statistica, vol. I, Cacucci, Bari (1984)
GIUSTI F. Introduzione alla Statistica, Loescher Editore, Torino (1983)
GIUSTI F., GUERRIRERI G. Elementi di Statistica, Cacucci, Bari (1980)
GNEDENKO B.V. La Teoria della Probabiltà, Editori Riuniti, Roma (1979)
GORIEROUX G., M ONFORT A. Statistical and Econometric Models, vol. I,
Cambridge University Press, Cambridge (1995)
HJORTH J.S.U. Computer Intensive Statistical Methods, Chapmann & Hall, London
(1993)
HODGES J.L., LEHMANN E. L. I Concetti Fondamentali della Probabilità e della
Statistica, vol. I, Probabilità, Il Mulino, Bologna (1971)
HODGES J.L., LEHMANN E. L. I Concetti Fondamentali della Probabilità e della
Statistica, vol. II, Statistica, Il Mulino, Bologna (1972)
HOEL P. G., PORT S., STONE C. Introduction to Statistical Theory, Houghton
Miffin, Boston (1971)
HOGG R.V., C RAIG A.T. Introduction to Mathematical Statistics, MacMillan
Company, New York (1970)
JALLA E. Per un’Analisi Statistica degli Aggregati Economici, Giappichelli, Torino
(1980)
JOHNSON N. L., KOTZ S. Distributions in Statistics: Discrete Distributions,
Houghton Mifflin, New York (1969)
JOHNSON N. L., KOTZ S. Distributions in Statistics: Continuous Univariate
Distributions , vol. I, Houghton Mifflin, New York (1970)
JOHNSON N. L., KOTZ S. Distributions in Statistics: Continuous Univariate
Distributions , vol. II, Houghton Mifflin, New York (1970)
KENDALL M.G., STUART A. The Advanced Theory of Statistics, vol I: Distribution
Theory , Griffin, London (1976)
KENDALL M.G., STUART A. The Advanced Theory of Statistics, vol II: Inference and
Relationship, Griffin, London (1979)
LANDENNA G. Fondamenti di Statistica Descrittiva, Il Mulino, Bologna (1984)
LANDENNA G., MARASINI D. La Teoria della Stima Puntuale, Cacucci, Bari
Bibliografia
295
(1992)
LANDENNA G., MARASINI D., FERRARI P. Probabilità e Variabili Casuali, Il
Mulino, Bologna (1997)
LANDENNA G., MARASINI D., FERRARI P. Teoria della Stima, Il Mulino,
Bologna (1997)
LANDENNA G., MARASINI D., FERRARI P. La Verifica di Ipotesi Statistiche, Il
Mulino, Bologna (1998)
LEHMANN E.L. Theory of Point Estimation, Wiley, New York (1983)
LEHMANN E.L. Testing Statistical Hypotheses, Wiley, New York (1986)
LEHMANN E.L. Nonparametrics: Statistical Methods Based on Ranks, Holden-Day,
San Francisco (1975)
LESSI O. Corso di Calcolo delle Probabilità, Metria Edizioni, Padova (1990)
LETI G. Statistica Descrittiva, Il Mulino, Bologna (1983)
LINDGREN B.W. Statistical Theory, MacMillan, New York (1976)
LINDSEY J.K. Parametric Statistical Inference, Claredon Press, Oxford (1996)
LOMBARDO E. Analisi Esplorativa di Dati Statistici, Edizioni Kappa, Roma
(1994)
M AGAGNOLI U. Elementi di Statistica Descrittiva, CLUEB, Bologna (1993)
M ANTOVAN P. Introduzione alla Probabilità e all’Inferenza Statistica, CEDAM,
Padova (1993)
M ONFORT A. Cours de Statistique Mathématique, Economica, Paris (1982)
M OOD A.M., GRAYBILL F.A., BOES D.C. Introduzione alla Statistica, McGraw
Hill, Milano (1993)
NADDEO A. Statistica di Base, Edizioni Kappa, Roma (1981)
NADDEO A. Inferenza Statistica, La Nuova Italia Scientifica, Roma (1987)
NADDEO A., LANDENNA G. Metodi Statistici nella Ricerca Scientifica e Industriale,
Franco Angeli, Milano (1986)
NEWBOLD P. Statistics for Business and Economics, 2° edit., Prentice-Hall, N.J.
(1995)
O’HAGEN A. Bayesian Inference, E. Arnold, Cambridge (1994)
OLIVIERI D. Fondamenti di Statistica, CEDAM, Padova (1995)
ORSI R. Probabilità e Inferenza Statistica, Il Mulino, Bologna (1985)
PACE L., SALVAN A. Teoria della Statistica, CEDAM, Padova (1996)
PERACCHI F. Econometria, McGraw Hill, Milano (1995)
PERSICO P., VINCI S. Principi di Econometria, Liguori Editore, Napoli (1981)
PESARIN F. Introduzione al Calcolo delle Probabilità, La Nuova Italia Scientifica,
Roma (1989)
PICCINATO L. Metodi per le Decisioni Statistiche, Springer, Milano (1996)
PICCOLO D., VITALE C. Metodi Statistici per l’Analisi Economica, Il Mulino,
Bologna (1984)
296
Bibliografia
PICCOLO D. Statistica, Il Mulino, Milano (1998)
PIERACCINI L. Fondamenti di Inferenza Statistica, Giappichelli, Torino (1991)
PINDYCK R.S., RUBINFELD D.L. Econometric Methods and Econometric Forecasts,
3° edit., McGraw Hill, New York (1991)
POMPILJ G. Teoria dei Campioni, Veschi, Roma (1967)
PREDETTI A. I Numeri Indici. Teoria e Pratica, 6° ediz., Giuffré, Milano (1991)
RAO C.R. Linear Statistical Inference and Its Applications, Wiley & Sons, New York
(1973)
RICCI F. Elaborazione Statistica delle Informazioni, Zanichelli, Bologna (1975)
RIZZI A. Inferenza Statistica, UTET, Torino (1992)
ROHATGI V.K. An Introduction to Probability Theory and Mathematical Statistics,
Wiley, New York (1976)
ROHATGI V.K. Statistical Inference, Wiley, New York (1984)
RUELL D. Caso e Caos, Bollati Boringhieri, Torino (1992)
SALVEMINI T. Lezioni di Statistica, vol. I, Cacucci, Bari (1970)
SCALA C. Funzioni di Densità di Probabilità: Atlante Descrittivo, Monotypia Franchi,
Città di Castello (PG) (1988)
SCARDOVI I. Appunti di Statistica, vol. I, Edizioni Patron, Bologna (1980)
SCHEFFÈ H. The Analysis of Variance, Wiley & Sons, New York (1959)
SHAO J., TU D. The Jackknife and the Bootstrap, Springer, New York (1995)
SHAPIRO S.S. Come Provare la Normalità ed altre Ipotesi per le Distribuzioni di
Frequenza, n. 3, Editoriale Italica, Milano (1995)
SILVEY S.D. Statistical Inference, Penguin Education Books, London (1970)
SPRENT P. Applied Nonparametric Statistical Methods, 2° edit., Chapmann & Hall,
London (1993)
STUART A. Sondaggi di Opinione, Idee per il Campionamento, Tascabili Newton,
Roma (1996)
THOMPSON M.E. Theory of Sample Survey, Wiley & Sons, New York (1997)
TUKEY J.W. Esploratory Data Analysis, Addison-Wesley, Reading (1971)
VAJANI L. Statistica Descrittiva, ETAS Libri, Milano (1974)
VITALI O. Statistica per le Scienze Applicate, vol. I, Cacucci, Bari (1991)
WELSH A.M. Aspects of Statistical Inference, Wiley & Sons, New York (1996)
WILKS S. Mathematical Statistics, Wiley, New York (1963)
ZANI S. Analisi dei Dati Statistici, vol. I, Giuffrè, Milano (1994)
ZENGA M. Introduzione alla Statistica Descrittiva, Vita e Pensiero, Milano (1988).
Indice Analitico
Algebra
- di Boole 5, 12
- lineare 261
Ampiezza
- del campione 161, 178, 182, 193,
197, 201
- della popolazione 177
Approssimazione 80, 85
- asintotica 87, 95, 100, 137
- distribuzione 87, 95, 100
Arvesen 151
Asimmetria 37, 50, 59, 67, 72, 74, 92,
97-99
Assiomatizzazione 3
Banerji 173
Baricentro 123
Bayes 26, 27, 28, 29
Behrens 173
Beran 151
Bernoulli 63, 73, 115, 125, 152, 178,
190, 193
Bickel 15
Binomiale 63, 109, 178, 209
Binomio 66
Boole 5, 6, 7, 8, 9, 10, 12, 31
Bootstrap 131, 148, 149, 150, 152, 153
Campione 113, 114, 115, 123, 125,
138, 141, 150, 152, 242
- casuale 113, 121, 132, 136, 155,
156, 158, 160, 161, 169, 170,
172, 181, 182, 187, 197, 199,
201, 208, 211, 212, 221
- bernoulliano 115, 135, 152, 178,
180, 181, 193
- con reimmissione 115, 178
- frazione 180
- indipendente 172, 180
- numerosità 214
- senza reimmissione (ripetizione)
200
Cantelli 144
Carattere
- confontabile 182
- dicotomico177
297
Caso 2, 218
Cauchy 94
Chebychev 110, 111, 112
Coefficiente
- angolare 221
- binomiale 67
- di correlazione 191, 251,
- di correlazione multipla 258
- di variazione 59
Combinazioni 65, 89, 100
Consistenza 128, 133, 137, 145, 239
- media quadratica 128
Controllo 182, 208
Convergenza 104
- debolmente 104
- distribuzione (legge) 106
- media quadratica 105
- probabilità 104
- uniforme 106
Correlazione 40, 55, 140, 147, 191, 251
- campionaria 130, 140, 147
- multipla 246, 260
Covarianza 40, 54, 100
- campionaria 226
Curnout 3
Curtosi 37, 50, 60, 74
de Morgan 9, 18
Deterministico 1
Diagonale principale 259
Diagramma 16
- a scatter 223, 234
- di Venn 11
Distorsione 122, 132, 150, 239
Distribuzione
- asintotica 106
- Bernoulli 64, 65, 70, 73, 109
- binomiale 64, 109, 110
- condizionata 120
- di frequenza 35, 36, 193, 221
- di probabilità 34, 149
- empirica 196
- leptocurtica 75, 93, 94, 98, 99
- lognormale 98, 99
- normale (Gauss) 75, 90, 95, 98,
100, 107, 108, 109
298
Indice Analitico
- Poisson 70, 110
- teorica 196
Disuguaglianza di Chebychev 110
Efficienza 124
- asintotica 127
- relativa 127, 128
Efron 152, 153
Errore 218
- primo tipo, 157
- quadratico medio (MSE) 124
- secondo tipo 157, 195
- tollerabile 213
Estrazione 23, 213, 214
- Bernoulliana (con rimessa) 25, 115,
152, 193, 214
- senza reimmissione (in blocco) 25,
180, 214
Evento 4, 24, 32, 36, 44, 155
- certo 7, 10
- condizionato 16
- condizionante 16, 17
- equiprobabile 20, 21, 23, 42
- incompatibile 10, 19, 21, 23, 24
- impossibile 7, 11
- indipendente 17
- necessario 20, 21, 23, 42
- negato 6, 8, 12
Fattoriale 16
Fisher 89, 95, 135, 173, 189, 191, 250
Frequenza
- assoluta 35, 193
- marginale 197
- relativa 24, 35, 178, 193
Funzione 217
- condizionata 54
- decisione 116
- densità (f.d.) 43, 47, 51, 53, 114,
135, 144
- doppia 52
- gamma 91
- insieme 34, 41, 66
- lineare 221
- marginale 53
-
obiettivo 222
perdita 116, 117
ripartizione 48, 51, 200, 208
rischio 116
verosimiglianza 136, 159, 173, 194,
198
Gauss 133, 135, 239
Glivenko 144
Gradi di libertà 90, 170, 189, 236, 244
Hall 153
Indice
- asimmetria 37, 50, 74
- curtosi 37, 50, 60, 74
Incorrelazione 102, 222
Indipendenza
- fra eventi 17
- fra variabili casuali (v.c.) 54, 65, 68,
73, 89, 90, 92, 93, 95, 101, 104,
108, 109, 115, 172, 178, 188,
196, 200, 249
- fra campioni 172, 201
Insieme
- campionario 5, 9
- degli stati di natura (parametrico)
116, 156
- decisioni ammissibili 117
- delle azioni 116
- parametrico 116
Intercetta 221, 244
Intersezione 6
Intervallo
- casuale 211
- di confidenza 211
- per media 211
- per percentuale 213
Ipotesi
- alternativa 156
- bilaterale 210, 211
- classica 222
- complessa 164
- nulla 156
- semplice 156
Indice Analitico
Jackknife 131, 148
Legge de Morgan 9, 18
Livello di significatività 157
Markov 239
Matrice 259
- identica 259
- quadrata 259
- varanza e covarianza 261
Media 37, 50
- campionaria 122, 123, 127, 140
2402 261
- condizionata 55, 102
- marginale 55
- perdita 116
- quadratica 128
Mediana 50, 58, 140, 145
- campionaria 140
Mean square error (MSE) 124, 127
Metodo di stima 131
- area minima 118
- mini-max 118
- minimi quadrati (LS) 131, 133, 223
- minimi quadrati non lineare 257
- momenti 131
- massima verosimiglianza (ML)
131, 135
- Monte Carlo 148, 149
- proprietà ottimali 119
- ricampionamento 148
Miller 151
Misura
- bontà adattamento 245
- della probabilità 20
- legame lineare 246
- percentuale variabilità 248
Modello
- in forma matriciale 258
- linearizzabile 254
- multiplo 223, 258
- non lineare 254
- regressione 134, 217, 218
- regressione lineare 216, 221
- specificazione 222
299
- stima 223
- verifica 240
- verifica adattamento 245
- verifica residui 252
- verifica test 241
Momento
- campionario 130, 132
- condizionato 40, 55
- di ordine r 37, 49, 61, 63, 64, 82,
92, 94, 97, 99, 131
- misto 49, 54
- quarto 59, 62, 69, 74, 92
- secondo 58, 62, 69, 73, 92
- terzo 59, 62, 69, 73, 92
Negazione 6
Neyman 158, 159
Non distorsione 122, 123, 150, 168,
236, 237, 260
- asintotica 123, 168
- misura 124
Omoschedasticità 174, 222
Ordinamento statistico 121
Osservazione campionaria 121, 134
Parametro 114, 259
Pearson 158, 159
Percentile 145, 179, 192
- campionario 144, 151
Perdita quadratica 117
Pivotale 147, 160, 169, 177, 190, 213
Poisson 70, 114, 121
Popolazione 114, 125, 131, 149, 165,
177, 180, 188, 200, 212, 213
Postulato 5, 10, 16, 20, 26
- empirico del caso 23
Potenza
- del test 157, 163
- massima 157
Probabilità 4, 10, 21, 31, 35, 39, 53
- a posteriori 28
- a priori 28
- condizionate 16, 39
- errore del I tipo 157
- errore del II tipo 157
300
- probativa 28
Prodotto logico 17
Proprietà riproduttiva 92
Prova 4, 20, 23
Quenouille 150
Rango 201, 202, 203, 206
Regione
- accettazione 157, 175, 211, 212,
213
- critica (di rifiuto) 157, 161, 173,
176, 179, 187, 211, 213
- critica approssimata 163, 171, 196
- di rifiuto 175
- ottimale 170
Regressione 114, 134, 217
- lineare 219, 251, 259
- multipla 219, 229, 236, 237, 240,
243, 247, 259
- non lineare 254
- semplice 219, 220, 236, 235, 241,
251, 260
- stimata 245
Residui (scarti) 228, 236, 241, 246, 250,
252, 260
Retta 102, 221, 246, 250
- di regressione 226, 227, 231, 246,
250
Ricampionamento 139, 150
R-quadro (R 2) 246, 248, 261
Scarto 124, 134, 218, 224, 227, 236,
260
Scarto quadratico medio 149
Sen 151
Serie storica 221, 252
Significatività del test 170, 171, 188
Simmetria 58, 59, 67, 76, 82, 94, 100,
206
Spazio
- campionario 156, 158
- parametrico 156, 158
Statistica 202
- test 162, 166, 169, 184, 185, 242,
243
- pivotale 147, 160, 169, 177, 241
Indice Analitico
Stima 114, 219
- accettabile 115, 119, 123
- BLUE 240
- correlazione 130, 140
- massima verosimiglianza (ML)
135, 138, 160, 174
- in media 227, 236
- media 132, 140
- mediana 140
- minimi quadrati (LS) 134, 224, 226
- momenti 132, 139
- non lineare 255
- parametrica 114
- percentili 144
- residui (scarti) 227
- varianza 129, 130, 140, 236, 240,
247, 260
Stimatore 115, 116, 118
- asintoticamente non distorto 124,
129, 130, 145
- BLUE 240
- consistente 128, 133, 137, 239
- distribuzione 140, 144, 145, 147,
241
- massima verosimiglianza (ML)
136
- minimi quadrati (LS) 134
- momenti 132, 133
- non distorto 122, 129, 130,
239, 240
- ottimo 119, 123, 177, 178, 183,
187, 190, 193
- sufficiente 120, 122
- sufficiente minimale 121
- UMVU 125, 128, 137
Student 89, 93, 94, 95, 96, 147, 168,
170, 171, 173, 207, 211
Sufficienza 120, 121, 122, 123, 125,
127
- minimale 121
Teorema 11, 12, 13, 14, 17, 18, 19
- del limite centrale (CLT) 108, 141,
144, 145, 179
- di Bayes 26
Indice Analitico
- fattorizzazione 120, 122
- di Gauss-Markov 239, 260
- di Glivenko-Cantellli 144
- di Neyman-Pearson 159
- di Wilks 162, 164, 171
Teoria delle decisioni 116
Test 155, 156, 241, 249
- adattamento 193
- confronto fra varianze 188
- confronto fra medie 172
- confronto fra proporzioni 180
- dati appaiati 182
- LRT (MLR) 160, 164, 165
- non parametrico 192
- parametrico 155, 241
- più potente 159
- potenza 157
- segni 207
- su coefficiente di correlazione 191
- sull’indipendenza 196
- su proporzione 177
- sulla media 165
- sulla varianza 185
- uniformemente più potente 159
- Wilcoxson 200
Trattamento 182, 208
Tukey 150, 151
Unione 6
Unità di rilevazione 63, 177
Valore
- critico 208
- osservato 227
- soglia 202
- stimato 227
Variabile
- dipendente 217
- endogena 217
- esplicativa 217
- indipendente 217
Variabile casuale (v.c.) 32, 42
- Bernoulli 63, 109, 178, 194
- Binomiale 64, 70, 71, 74, 109, 114,
209
301
- Binomiale frequenza 70, 178
- campionaria 115, 116, 12, 125,
132, 134, 135, 147, 149, 156,
157, 158
- Cauchy 94
- Chi-quadrato 90, 109, 146
- condizionata 39, 54
- continua 41
- degenere 106
- discreta 32
- doppia 38, 107, 130, 140, 147
- errore 218
- errori accidentali 76
- F di Fisher 89, 95, 250
- incorrelate 238
- Lognormale 89, 98
- media 104, 127
- marginale 39, 53
- multinormale 100, 102
- multivariata (multipla) 34, 38
- normale (Gauss) 76, 89, 114, 141,
145, 165
- normale condizionata 102
- normale doppia 100, 147, 191
- normale standardizzata 79, 82, 95,
107, 108, 151
- Poisson 71, 75, 110, 114, 121
- residuo 259
- standardizzata 38, 50, 181
- scarto 218, 221, 222
- T di Student 90, 93, 107, 147, 168,
170, 211
- uniforme 57
- uniforme continua 61
- uniforme discreta 57
- uniforme standardizzarta 60
Varianza 37, 50, 58, 70, 74, 76, 89, 92,
100, 110, 185, 188
- campionaria 129, 145, 169, 226
- condizionata 41, 55
- dei parametri 239, 240
- di uno stimatore 124
- marginale 41, 55
- stimata 129
302
Venn 7
Vettore 259
- di parametri 164, 217, 259
- residui 259
Wilcoxon 200, 203, 207
Wilks 162, 164, 171
Indice Analitico
APPENDICE
Appendice
264
N
Tav. 1 Numero di combinazioni di N ad n ad n:  n 
2
3
4
5
2
3
4
5
1
3
6
10
1
4
10
1
5
1
6
7
8
9
10
15
21
28
36
45
20
35
56
84
120
15
35
70
126
210
6
21
56
126
252
1
7
28
84
210
1
8
36
120
11
12
13
14
15
55
66
78
91
105
165
220
286
364
455
330
495
715
1.001
1.365
462
792
1.287
2.002
3.003
462
924
1.716
3.003
5.005
330
792
1.716
3.432
6.435
N|n
6
7
8
9
10
1
9
45
1
10
1
165
495
1.287
3.003
6.435
55
220
715
2.002
5.005
11
66
286
1.001
3.003
11
12
1
12
78
364
1.365
1
13
91
455
Appendice
265
Continua
16
17
18
19
20
2
3
4
5
6
7
8
9
120
136
153
171
190
560
680
816
969
1.140
1.820
2.380
3.060
3.876
4.845
4.368
6.188
8.568
11.628
15.504
8.008
12.376
18.564
27.132
38.760
11.440
19.448
31.824
50.388
77.520
12.870
24310
43 758
75.582
125.970
11.440
24.310
48.620
92.378
167.960
8.008
19448
43 758
92.378
184.756
4.368
12376
31 824
75.582
167.960
1.820
6188
18 564
50.388
125.970
21
22
23
24
25
210
231
253
276
300
1.330
1.540
1 771
2.024
2.300
5.985
7.315
8.855
10.626
12.650
20.349
26.334
33.649
42.504
53.130
54.264
74.613
100.947
134.596
177.100
116.280
170.544
245.157
346.104
480.700
203.490
319.770
490.314
735.471
1.081.575
293.930
497.420
817.190
1.307.504
2.042.975
352.716
646.646
1.144.066
1.961.256
3.268.760
352.716
705.432
1.352.078
2.496.144
4.457.400
293.930
646.646
1.352.078
2.704.156
5.200.300
N|n
10
11
12
Appendice
266
{
Tav. 2 Probabilità P − ∞ < Z ≤ z
1 −α
}= Φ (z ) = 1 − α
1−α
della v.c. normale standardizzata Z per diversi valori di z 1−α
z 1-α 0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0
0.1
0.2
0.3
0.4
.5000
.5398
.5793
.6179
.6554
.5040
.5438
.5832
.6217
.6591
.5080
.5478
.5871
.6255
.6628
.5120
.5517
.5910
.6293
.6664
.5160
.5557
.5948
.6331
.6700
.5199
.5596
.5987
.6368
.6736
.5239
.5636
.6026
.6406
.6772
.5279
.5675
.6064
.6443
.6808
.5319
.5714
.6103
.6480
.6844
.5359
.5753
.6141
.6517
.6879
0.5
0.6
0.7
0.8
0.9
.6915
.7257
.7580
.7881
.8159
.6950
.7291
.7611
.7910
.8186
.6985
.7324
.7642
.7939
.8212
.7019
.7357
.7673
.7967
.8238
.7054
.7389
.7704
.7995
.8264
.7088
.7422
.7734
.8023
.8289
.7123
.7454
.7764
.8051
.8315
.7157
.7486
.7794
.8078
.8340
.7190
.7517
.7823
.8106
.8365
.7224
.7549
.7852
.8133
.8389
1.0
1.1
1.2
1.3
1.4
.8413
.8643
.8849
.9032
.9192
.8438
.8665
.8869
.9049
.9207
.8461
.8686
.8888
.9066
.9222
.8485
.8708
.8907
.9082
.9236
.8508
.8729
.8925
.9099
.9251
.8531
.8749
.8944
.9115
.9265
.8554
.8770
.8962
.9131
.9279
.8577
.8790
.8980
.9147
.9292
.8599
.8810
.8997
.9162
.9306
.8621
.8830
.9015
.9177
.9319
1.5
1.6
1.7
1.8
1.9
.9332
.9452
.9554
.9641
.9713
.9345
.9463
.9564
.9649
.9719
.9357
.9474
.9573
.9656
.9726
.9370
.9484
.9582
.9664
.9732
.9382
.9495
.9591
.9671
.9738
.9394
.9505
.9599
.9678
.9744
.9406
.9515
.9608
.9686
.9750
.9418
.9525
.9616
.9693
.9756
.9429
.9535
.9625
.9699
.9761
.9441
.9545
.9633
.9706
.9767
2.0 .9772 .9778
.9783
.9788
.9793
.9798
.9803
.9808
.9812 .9817
Appendice
267
Continua
z 1-α 0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
2.1
2.2
2.3
2.4
.9821
.9861
.9893
.9918
.9826
.9864
.9896
.9920
.9830
.9868
.9898
.9922
.9834
.9871
.9901
.9925
.9838
.9875
.9904
.9927
.9842
.9878
.9906
.9929
.9846
.9881
.9909
.9931
.9850
.9884
.9911
.9932
.9854
.9887
.9913
.9934
.9857
.9890
.9916
.9936
2.5
2.6
2.7
2.8
2.9
.9938
.9953
.9965
.9974
.9981
.9940
.9955
.9966
.9975
.9982
.9941
.9956
.9967
.9976
.9982
.9943
.9957
.9968
.9977
.9983
.9945
.9959
.9969
.9977
.9984
.9946
.9960
.9970
.9978
.9984
.9948
.9961
.9971
.9979
.9985
.9949
.9962
.9972
.9979
.9985
.9951
.9963
.9973
.9980
.9986
.9952
.9964
.9974
.9981
.9986
3.0
31
3.2
3.3
3.4
.9987
.9990
.9993
.9995
.9997
.9987
.9991
.9993
.9995
.9997
.9987
.9991
.9994
.9995
.9997
.9988
.9991
.9994
.9996
.9997
.9988
.9992
.9994
.9996
.9997
.9989
.9992
.9994
.9996
.9997
.9989
.9992
.9994
.9996
.9997
.9989
.9992
.9995
.9996
.9997
.9990
.9993
.9995
.9996
.9997
.9990
.9993
.9995
.9997
.9998
Appendice
268
{
Tav. 3 Alcuni valori di z 1-α in termini di 1-α = Φ(z 1-α ) = P Z ≤ z 1−α
Φ( z 1-α )
.50
.55
.60
.65
.70
.75
.80
.85
.90
z 1-α
Φ( z 1-α )
0.000
0.126
0.253
0.385
0.524
0.674
0.842
1.036
1.282
.91
.92
.93
.94
.95
.96
.97
.98
.99
z 1-α
1.341
1.405
1.476
1.555
1.645
1.751
1.881
2.054
2.326
Φ( z 1-α )
.9950000
.9990000
.9995000
.9999000
.9999500
.9999900
.9999950
.9999990
.9999999
z 1-α
2.576
3.090
3.291
3.719
3.891
4.265
4.417
4.753
5.199
}
Appendice
269
{
}
Tav. 4 Probabilità P 0 ≤ Z ≤ z 0. 5 −α = 0.5 − α
nella v.c. normale standardizzata Z per differenti valori di z 0.5 −α
z 0.5−α 0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0
0.1
0.2
0.3
0.4
.0000
.0398
.0793
.1179
.1554
.0040
.0438
.0832
.1217
.1591
.0080
.0478
.0871
.1255
.1628
.0120
.0517
.0910
.1293
.1664
.0160
.0557
.0948
.1331
.1700
.0199
.0596
.0987
.1368
.1736
.0239
.0636
.1026
.1406
.1772
.0279
.0675
.1064
.1443
.1808
.0319
.0714
.1103
.1480
.1844
.0359
.0753
.1141
.1517
.1879
0.5
0.6
0.7
0.8
0.9
.1915
.2257
.2580
.2881
.3159
.1950
.2291
.2611
.2910
.3186
.1985
.2324
.2642
.2939
.3212
.2019
.2357
.2673
.2967
.3238
.2054
.2389
.2703
.2995
.3264
.2088
.2422
.2734
.3023
.3289
.2123
.2454
.2764
.3051
.3315
.2157
.2486
.2794
.3078
.3340
.2190
.2517
.2823
.3106
.3365
.2224
.2549
.2852
.3133
.3389
1.0
1.1
1.2
1.3
1.4
.3413
.3643
.3849
.4032
.4192
.3438
.3665
.3869
.4049
.4207
.3461
.3686
.3888
.4066
.4222
.3485
.3708
.3907
.4082
.4236
.3508
.3729
.3925
.4099
.4251
.3531
.3749
.3944
.4115
.4265
.3554
.3770
.3962
.4131
.4279
.3577
.3790
.3980
.4147
.4292
.3599
.3810
.3997
.4162
.4306
.3621
.3830
.4015
.4177
.4319
1.5
1.6
1.7
1.8
1.9
.4332
.4452
.4554
.4641
.4713
.4345
.4463
.4564
.4649
.4719
.4357
.4474
.4573
.4656
.4726
.4370
.4484
.4582
.4664
.4732
.4382
.4495
.4591
.4671
.4738
.4394
.4505
.4599
.4678
.4744
.4406
.4515
.4608
.4686
.4750
.4418
.4525
.4616
.4693
.4756
.4429
.4535
.4625
.4699
.4761
.4441
.4545
.4633
.4706
.4767
Appendice
270
Continua
z 0.5−α 0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
2.0
2.1
2.2
2.3
2.4
.4772
.4821
.4861
.4893
.4918
.4778
.4826
.4864
.4896
.4920
.4783
.4830
.4868
.4898
.4922
.4788
.4834
.4871
.4901
.4925
.4793
.4838
.4875
.4904
.4927
.4798
.4842
.4878
.4906
.4929
.4803
.4846
.4881
.4909
.4931
.4808
.4850
.4884
.4911
.4932
.4812
.4854
.4887
.4913
.4934
.4817
.4857
.4890
.4916
.4936
2.5
2.6
2.7
2.8
2.9
.4938
.4953
.4965
.4974
.4981
.4940
.4955
.4966
.4975
.4982
.4941
.4956
.4967
.4976
.4982
.4943
.4957
.4968
.4977
.4983
.4945
.4959
.4969
.4977
.4984
.4946
.4960
.4970
.4978
.4984
.4948
.4961
.4971
.4979
.4985
.4949
.4962
.4972
.4979
.4985
.4951
.4963
.4973
.4980
.4986
.4952
.4964
.4974
.4981
.4986
3.0 .4987 .4987 .4987 .4988 .4988
.4989 .4989 .4989 .4990 .4990
Tavole statistiche
271
Tav. 5 Valori tα della v.c. T di Student per
differenti livelli di probablità e diversi gradi di libertà
P{ tα ≤ T( g ) <∞ }= α
g\α
g\1-α
1
2
3
4
5
0.40 0.25
0.60 0.75
.325 1.000
.289 .816
.277 .765
.271 .741
.267 .727
0.10
0.90
3.087
1.886
1.638
1.533
1.476
0.05
0.95
6.314
2.920
2.353
2.132
2.015
0.025
0.975
12.706
4.303
3.182
2 776
2 571
0.01
0.99
31.821
6.965
4.541
3.747
3.365
0.005
0.995
63.657
9.925
5.841
4.604
4.032
0.0005
0.9995
636.619
31.598
12.924
8.610
6.869
6
7
8
9
10
.265
.263
.262
.261
.260
.718
.711
.706
.703
.700
1.440
1.415
1.397
1.383
1.372
1.943
1.895
1.860
1.833
1.812
2.447
2 365
2 306
2.262
2.228
3.143
2.998
2.896
2.821
2.764
3.707
3.499
3.355
3.250
3.169
5 959
5.408
5.041
4.781
4.587
11
12
13
14
15
.260 .697
.259 .695
.259 .694
.258 . 692
.258 .691
1.363
1.356
1.350
1.345
1.341
1.796
1.782
1.771
1.761
1.753
2.201
2.179
2 160
2.145
2.131
2.718
2.681
2.650
2.624
2.602
3.106
3.055
3.012
2.977
2.947
4.437
4.318
4.221
4.140
4.073
16
17
18
19
20
.258
.257
.257
.247
.257
1.337
1.333
1.330
1.328
1.325
1.746
1.740
1.734
1.729
1.725
2 120
2 110
2 101
2.093
2 086
2.583
2.567
2.552
2.539
2.528
2.921
2.898
2.878
2.861
2.845
4.015
3.965
3.922
3.883
3.850
.690
.689
.688
.688
.687
Tavole statistiche
272
Continua
g\α
g\1-α
21
22
23
24
25
0.40 0.25 0.10
0.60 0.75 0.90
.257 .686 1.323
.256 .686 1.321
.256 .685 1.319
.256 .685 1.318
.256 .684 1.316
26
27
28
29
30
.256
.256
.256
.256
40
60
120
∞
0.05
0.025
0.01
0.005 0.0005
0.95
0.975
0.99
0.995 0.9995
1.721
2 080
2.518
2.831 3.819
1.717
2 074
2.508
2.819 3.792
1.714
2 069
2.500
2.807 3.767
1.711
2.064
2.492
-2.797 3.745
1.708
2 060
2.485
2.787 3.725
.256
.684
.684
.683
.683
.683
1.315
1.314
1.313
1.311
1.310
1.706
1.703
1.701
1.699
1.697
2.056
2 052
2 048
2 045
2 042
2.479
2 473
2.467
2.462
2.457
2.779
2.771
2.763
2.756
2.750
3.707
3.690
3.674
3.659
3.646
.255
.254
.254
.253
.681
.679
.677
.674
1.303
1.296
1.289
1.282
1.684
1.671
1.658
1.645
2 021
2 000
1.980
1.960
2.423
2.390
2.358
2.326
2.704
2.660
2.617
2.576
3.551
3.460
3.373
3.291
Tavole statistiche
Tav. 6 Valori di χ
2
g ,α
273
2
della v.c. χ per differenti livelli di probabilità e gradi di
2
libertà: P{χ 2g ,α ≤ χ < ∞} = α
g\α
1
2
3
4
0.250
0.100
0.050
0.025
0.010
1.32330
2.77259
4.10835
5.38527
2.70554
4.60517
6.25139
7.77944
3.84146
5.99147
7.81473
9.48773
5.02389
7.37776
9.34840
11.1433
6.63490
9.21034
11.3449
13.2767
7.87944
10.5966
12.8381
14.8602
10.828
13.816
16.~66
18.467
5
6
7
8
9
6.62568
7.84080
9.03715
10.2188
11.3887
9.23635
10.6446
12.0170
13.3616
14.6837
11.0705
12.5916
14.0671
15.5073
16.9190
12.8325
14.4494
16.0128
17.5346
19.0228
15.0863
16.8119
18.4753
20.0902
21.6660
16.7496
18.5476
20.2777
21.9550
23.5893
20.515
22.458
24.322
26.125
27.877
10
11
12
13
14
12.5489
13.7007
14.8454
15.9839
17.1170
15.9871
17.2750
18.5494
19.8119
21.0642
18.3070
19.6751
21.0261
22.3621
23.6848
20.4831
21.9200
23.3367
24.73s6
26.1190
23.2093
24.7250
26.2170
27.6883
29.1413
25.1882
26.7569
28.2995
29.8194
31.3193
29.588
31.264
32.909
34.528
36.123
15
16
17
18
19
18.2451
19.3688
20.4887
21.6049
22.7178
22.3072
23.5418
24.7690
25.9894
27.2036
24.9958
26.2962
27.5871
28.8693
30.1435
27.4884
28.84s4
30.1910
31.5264
32.8523
30.5779
31.9999
33.4087
34.8053
36.1908
32.8013
34.2672
35.7185
37.1564
38.5822
37.697
39.252
40.790
42.312
43.820
20
21
22
23
23.8277
24.9348
26.0393
27.1413
28.4120
29.6151
30.8133
32.0069
31.4104
32.6705
33.9244
35.1725
34.1696
35.4789
36.7807
38.0757
37.5662
38.9321
40.2894
41.6384
39.9908
41.4010
42.7956
44.1813
45.315
46.797
48.268
49.728
0.005
0.001
Tavole statistiche
274
Continua
g\α
24
0.250
28.2412
0.100
33.1963
0.050
36.4151
0.025
0.010
0.005
0.001
39.3641
42.9798 45.5585
51.179
25
26
27
28
29
29.3389
30.4345
31.5284
32.6205
33.7109
34.3816
35.5631
36.7412
37.9159
39.0875
37.6525
38.8852
40.1133
41.3372
42.5569
40.6465
41.9232
43.1944
44.4607
45.7222
44.3141
45.6417
46.9630
48.2782
49.5879
46.9278
48.2899
49.6449
50.9933
52.3356
52.600
54.052
55.476
56.892
58.302
30
40
50
60
34.7998
45.6160
56.3336
66.9814
40.2560
51.8050
63.1671
74.3970
43.7729
55.7585
67.5048
79.0819
46.9792
59.3417
71.4202
83.2976
50.8922
63.6907
76.1539
88.3794
53.6720
66.7659
79.4900
91.9517
59.703
73.402
86.661
99.607
70
80
90
100
77.5766
88.1303
98.6499
109.141
85.5271
96.5782
107.565
118.498
90.5312
101.879
113.145
124.342
95.0231
106.629
118.136
129.561
100.425
112.329
124.116
135.807
104.215
116.321
128.299
140.169
112.317
124.839
137.208
149.449
Tavole statistiche
275
2
Tav. 7 Valori di χ 2g ,α della v.c. χ per differenti livelli di probabilità e gradi di
(
)
libertà: P 0 ≤ χ 82 g 9 ≤ χ g2,α = α
g\α
0.005
0.010
0.025
0.050
.
.
-8
-8
-8
1
3927 10 15709 10
98207 10 39321.10-7
2
0.01002
0.02010
0.05063
0.10259
3
0.07172
0.11483
0.21579
0.35185
4
0.20699
0.29711
0.48442
0.71072
0.100
0.250
0.500
0.01579
0.21072
0.58437
1.06362
0.10153
0.57536
1.21253
1.92255
0.45493
1.38629
2.36597
3.35670
5
6
7
8
9
0.41174
0.67572
0.98926
1.34441
1.73492
0.55430
0.87208
1.23904
1.64648
2.08791
0.83121
1.23734
1.68987
2.17973
2.70039
1.14547
1.63539
2.16735
2.73264
3.32511
1.61031
2.20413
2.83311
3.48954
4.16816
2.67460
3.45460
4.25485
5.07064
5.89883
4.35146
5.34812
6.34581
7.34412
8.34283
10
11
12
13
14
2.15585
2.60321
3.07382
3.56503
4.07468
2.55821
3.05347
3.57056
4.10691
4.66043
3.24697
3.81575
4.40379
5.00874
5.62872
3.94030
4.57481
5.22603
5.89186
6.57063
4.86518
5.57779
6.30380
7.04150
7.78953
6.73720
7.58412
8.43842
9.29906
10.1653
9.34182
10.3410
11.3403
12.3398
13.3393
15
16
17
18
19
4.60094
5.14224
5.69724
6.26481
6.84398
5.22935
5.81221
6.40776
7.01491
7.63273
6.26214
6.90766
7.56418
8.23075
8.90655
7.26094
7.96164
8.67176
9.39046
10.1170
8.54675
9.31223
10.0852
10.8649
11.6509
11.0365
11.9122
12.~919
13.6753
14.5620
14.3389
15.3385
16.3381
17.3379
18.3376
20
21
22
7.43386
8.03366
8.64272
8.26040
8.89720
9.54249
9.59083
10.2829
10.9823
10.8508
11.5913
12.3380
12.4426
13.2396
14.0415
15.4518
16.3444
17.2396
19.3374
20.3372
21.3370
Tavole statistiche
276
Continua
g\α
23
24
0.005
9.26042
9.88623
0.010
10.1957
10.8564
0.025
11.6885
12.4011
0.050
13.0905
13.8484
0.100
14.8479
15.6587
0.250
18.1373
19.0372
0.500
22.3369
23.3367
25
26
27
28
29
10.5197
11.1603
11.8076
12.4613
13.1211
11.5240
12.1981
12.8786
13.5648
14.2565
13.1197
13.8439
14.5733
15.3079
16.0471
14.6114
15.3791
16.1513
16.9279
17.7083
16.4734
17.2919
18.1138
18.9392
19.7677
19.9393
20.8434
21.7494
22.6572
23.5666
24.3366
25.3364
26.3363
27.3363
28.3362
30
40
50
60
13.7867
20.7065
27.9907
35.5346
14.9535
22.1643
29.7067
37.4848
16.7908
24.4331
32.3574
40.4817
18.4926
26.5093
34.7642
43.1879
20.5992
29.0505
37.6886
46.4589
24.4776
33.6603
42.9421
52.2938
29.3360
39.3354
49.3349
59.3347
70
80
90
100
43.2752
51.1720
59.1963
67.3276
45.4418
53.5400
61.7541
70.0648
48.7576
57.1532
65.6466
74.2219
51.7393
60.3915
69.1260
77.9295
55.3290
64.2778
73.2912
82.3581
61.6983
71.1445
80.6247
90.1332
69.3344
79.3343
89.3342
99.3341
Appendice
Tav. 8 Valori Fk, h;
h\k
1
2
3
4
1- α
277
della v.c. F per α = 0.10 e differenti coppie di gradi di libertà: P( 0 < Fk, h < Fk, h; 1- α ) = 0.90
Numeratore
1
2
3
4
5
6
7
8
9
39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86
8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38
5.54 5.46 5.39 5.34 5.31 5.28 5.27 5 25 5.24
4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94
10
12
15
20
60.19 60.71 61.22 61.74
9.39 9.41 9.42 9.44
5.23 5.22 5.20 5.18
3.92 3.90 3.87 3.84
24
62.00
9.45
5.18
3.83
30
40
60
120
∞
62.26 62.53 62.79 63.06 63.33
9.46 9.47 9.47 9.48 9.49
5.17 5.16 5.15 5.14 5 13
3.82 3.80 3.79 3.78 3.76
5
6
7
8
9
4.06
3.78
3.59
3.46
3.36
3.78
3.46
3.26
3.11
3.01
3.62
3.29
3.07
2.92
2.81
3.52
3.18
2.96
2.81
2.69
3.45
3.11
2.88
2.73
2.61
3.40
3.05
2.83
2.67
2.55
3.37
3.01
2.78
2.62
2.51
3.34
2.98
2.75
2.59
2.47
3.32
2.96
2.72
2.56
2.44
3 30
2.94
2.70
2.54
2.42
3.27
2.90
2.67
2.50
2.38
3.24
2.87
2.63
2.46
2.34
3.21
2.84
2.59
2.42
2.30
3.19
2.82
2.58
2.40
2.28
3.17
2.80
2.56
2.38
2.25
3.16
2.78
2.54
2.36
2.23
3.14
2.76
2.51
2.34
2.21
3.12
2.74
2.49
2.32
2.18
3.10
2.72
2.47
2.29
2.16
10
11
12
13
14
3.29
2.23
3.18
3.14
3.10
2.92
2.86
2.81
2.76
2.73
2.73
2.66
2.61
2.56
2.52
2.61
2.54
2.48
2.43
2.39
2.52
2.45
2.39
2.35
2.31
2.46
2.39
2.33
2.28
2.24
2.41
2.34
2.28
2.23
2.19
2.38
2.30
2.24
2.20
2.15
2.35
2.27
2.21
2.16
2.12
2.32
2.25
2.19
2.14
2.10
2.28
2.21
2.15
2.10
2.05
2.24
2.17
2.10
2.05
2.01
2.20
2.12
2.06
2.01
1.96
2.18
2.10
2.04
1.98
1.94
2.16
2.08
2.01
1.96
1.91
2.13
2.05
1.99
1.93
1.89
2.11
2.03
1.96
1.90
1.86
2.08
2.00
1.93
1.88
1.83
2.06
1.97
1.90
1.85
1.80
15
16
17
3.07
3.05
3.03
2.70
2.67
2.64
2.49
2.46
2.44
2.36
2.33
2.31
2.27
2.24
2.22
2.21
2.18
2.15
2.16
2.13
2.10
2.12
2.09
2.06
2.09
2.06
2.03
2.06
2.03
2.00
2.02
1.99
1.96
1.97
1.94
1.91
1.92
1.89
1.86
1.90
1.87
1.84
1.87
1.84
1.81
1.85
1.81
1.78
1.82
1.78
1.75
1.79 1.76
1.75 1.72
1.72 1.69
Appendice
278
Continua
Numeratore
h\k
18
19
1
2
3
4
5
6
7
8
9
10
12
15
20
24
30
40
60
120
∞
3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98 1.93 1.89 1.84 1.81 1.78 1.75 1.72 1.69 1.66
2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98 1.96 1.91 1.86 1.81 1.79 1.76 1.73 1.70 1.67 1.63
20
21
22
23
24
2.97
2.96
2.95
2.94
2.93
2.59
2.57
2.56
2.55
2.54
2.38
2.36
2.35
2.34
2.33
2.25
2.23
2.22
2.21
2.19
2.16
2.14
2.13
2.11
2.10
2.09
2.08
2.06
2.05
2.04
2.04
2.02
2.01
1.99
1.98
2.00
1.98
1.97
1.95
1.94
1.96
1.95
1.93
1.92
1.91
1.94
1.92
1.90
1.89
1.88
1.89
1.87
1.86
1.84
1.83
1.84
1.83
1.81
1.80
1.78
1.79
1.78
1.76
1.74
1.73
1.77
1.75
1.73
1.72
1.70
1.74
1.72
1.70
1.69
1.67
1.71
1.69
1.67
1.66
1.64
1.68
1.66
1.64
1.62
1.61
1.64
1.62
1.60
1.59
1.57
1.61
1.59
1.57
1.55
1.53
25
26
27
28
29
2.92
2.91
2.90
2.89
2.89
2.53
2.52
2.51
2.50
2.50
2.32
2.31
2.30
2.29
2.28
2.18
2.17
2.17
2.16
2.15
2.09
2.08
2.07
2.06
2.06
2.02
2.01
2.00
2.00
1.99
1.97
1.96
1.95
1.94
1.93
1.93
1.92
1.91
1.90
1.89
1.89
1.88
1.87
1.87
1.86
1.87
1.86
1.85
1.84
1.83
1.82
1.81
1.80
1.79
1.78
1.77
1.76
1.75
1.74
1.73
1.72
1.71
1.70
1.69
1.68
1.69
1.68
1.67
1.66
1.65
1.66
1.65
1.64
1.63
1.62
1.63
1.61
1.60
1.59
1.58
1.59
1.58
1.57
1.56
1.55
1.56
1.54
1.53
1.52
1.51
1.52
1.50
1.49
1.48
1.47
30
40
60
120
2.88
2.84
2.79
2.75
2 71
2.49
2.44
2.39
2.35
2 30
2.28
2.23
2.18
2.13
2 08
2.14
2.09
2.04
1.99
1.94
2.05
2.00
1.95
1.90
1 85
1.98
1.93
1.87
1.82
1.77
1.93
1.87
1.82
1.77
1.72
1.88
1.83
1.77
1.72
1.67
1.85
1.79
1.74
1.68
1.63
1.82
1.76
1.71
1.65
1.60
1.77
1.71
1.66
1.60
1.55
1.72
1.66
1.60
1.55
1.49
1.67
1.61
1.54
1.48
1 42
1.64
1.57
1.51
1.45
1.38
1.61
1.54
1,48
1.41
1.34
1.57
1.51
1.44
1.37
1.30
1.54
1.47
1.40
1.32
1.24
1.50
1.42
1.35
1.26
1.17
1.46
1.38
1.29
1.19
1.00
∞
Appendice
279
Tav. 9 Valori Fk, h; 1-α della v.c. F per α = 0.05 e differenti coppie di gradi di libertà: P( 0 < Fk, h < Fk, h; 1-α ) = 0.95
h \k 1
2
3
4
1
161.4 199.5 215.7 224.6
2
18.51 19.00 19.16 19.25
3
10.13 9.55 9.28 9.12
4
7.71 6.94 6.59 6.39
Numeratore
∞
5
230.2
19.30
9.01
6.26
6
234.0
19.33
8.94
6.16
7
236.8
19.35
8.89
6.09
8
238.9
19.37
8.85
6.04
9
240.5
19.38
8.81
6.00
10
241.9
19.40
8.79
5.96
12
243.9
19.41
8.74
5.91
15
245.9
19.43
8.70
5.86
20
248.0
19.45
8.66
5.80
24
249.1
19.45
8.64
5.77
30
250.1
19.46
8.62
5.75
40
251.1
19.47
8.59
5.72
60
252.2
19.48
8.57
5.69
120
253.3
19.49
8.55
S.66
254.3
19.50
8.53
5.63
5
6
7
8
9
6.61
5.99
5.59
5.32
5.12
5.79
5.14
4.74
4.46
4.26
5.41
4.76
4.35
4.07
3.86
5.19
4.53
4.12
3.84
3.63
5.05
4.39
3.97
3.69
3.48
4.95
4.28
3.87
3.58
3.37
4.88
4 21
3.79
3.50
3.29
4.82
4.15
3.73
3.44
3.23
4.77
4.10
3.68
3.39
3.18
4.74
4.06
3.64
3.35
3.14
4.68
4.00
3.57
3.28
3.07
4.62
3.94
3.51
3.22
3.01
4.56
3.87
3.44
3.15
2.94
4.53
3.84
3.41
3.12
2.90
4.50
3.81
3.38
3.08
2.86
4.46
3.77
3.34
3.04
2.83
4.43
3.74
3.30
3.01
2.79
4.40
3.70
3.27
2.97
2.75
4.36
3.67
3.23
2.93
2.71
10
11
12
13
14
4.96
4.84
4.75
4.67
4.60
4.10
3.98
3.89
3.81
3.74
3.71
3.59
3.49
3.41
3.34
3.48
3.36
3.26
3.18
3.11
3.33
3.20
2.11
3.03
2.96
3.22
3.09
3.00
2.92
2.85
3.14
3.01
2.91
2.83
2.76
3.07
2.95
2.85
2.77
2.70
302
2.90
2.80
2.71
2.65
2.98
2.85
2.75
2.67
2.60
2.91
2.79
2.69
2.60
2.53
2.85
2.72
2.62
2.53
2.46
2.77
2.65
2.54
2.46
2.39
2.47
2.61
2.51
2.42
2.35
2.70
2.57
2.47
2.38
2.31
2.66
2.53
2.43
2.34
2.27
2.62
2.49
2.38
2.30
2.22
2.58
2.45
2.34
2.25
2.18
2.54
2.40
2.30
2.21
2.13
15
16
4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07
4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01
Appendice
280
Continua
Numeratore
h\k
17
18
19
1
2
3
4
5
6
7
8
9
10
12
15
20
24
30
40
60
120
∞
4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96
4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92
4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88
20
21
22
23
24
4.35
4.32
4.30
4.28
4.26
3.49
3.47
3.44
3.42
3.40
3.10
3.07
3.05
2.03
3.01
2.87
2.84
2.82
2.80
2.78
2.71
2.68
2.66
2.64
2.62
2.60
2.57
2.55
2.53
2.51
2.51
2.49
2.46
2.44
2.42
2.45
2.42
2.40
2.37
2.36
2.39
2.37
2.34
2.32
2.30
2.35
2.32
2.30
2.27
2.25
2.28
2.25
2.23
2.20
2.18
2.20
2.18
2.15
2.13
2.11
2.12
2.10
2.07
2.05
2.03
2.08
2.05
2.03
2.01
1.98
2.04
2.01
1.98
1.96
1.94
1.99
1.96
1.94
1.91
1.89
1.95
2.92
1.89
1.86
1.84
1.90
1.87
1.84
1.81
1.79
1.84
1.81
1.78
1.76
1.73
25
26
27
28
29
4.24
4.23
4.21
4.20
4.18
3.39
3.37
3.35
3.34
3.33
2.99
2.98
2.96
2.95
2.93
2.76
2.74
2.73
2.71
2.70
2.60
2.59
2.57
2.56
2.55
2.49
2.47
2.46
2.45
2.43
2.40
2.39
2.37
2.36
2.35
2.34
2.32
2.31
2.29
2.28
2.28
2.27
2.25
2.24
2.22
.24
.22
.20
.19
.18
2 16
2.15
2.13
2.12
2.10
2.09
2.07
2.06
2.04
2.03
2.01
1.99
1.97
1.96
1.94
1.96
1.95
1.93
1.91
1.90
1.92
1.90
1.88
1.87
1.85
1.87
1.85
1.84
1.82
1.81
1.82
1.80
1.79
1.77
1.75
1.77
1.75
1.73
1.71
1.80
1.71
1 69
1.67
1.65
1.64
30
40
60
20
4.17
4.08
4.00
3.92
3.84
3.32
3.23
3.15
3.07
3.00
2.92
2.84
2.76
2.68
2.60
2.69
2.61
2.53
2.45
2.37
2.53
2.45
2.37
2.29
2.21
2.42
2.34
2.25
2.17
2.10
2.33
2.25
2.17
2.09
2.01
2.27
2.18
2.10
2.02
1.94
2.21
2.12
2.04
1.96
1.88
.16
.08
.99
.91
.83
2.09
2.00
1.92
1.83
1 75
2.01
1.92
1.84
1.75
1.67
1.93
1.84
1.75
1.66
1 57
1.89
1.79
1.70
1.61
1.52
1.84
1.74
1.65
1.55
1.46
1.79
1.69
1.59
1.50
1.39
1.74
1.64
1.53
1.43
1.32
1.68
1.58
1.47
1.35
122
1.62
1.51
1.39
1.25
1 00
∞
Appendice
Tav. 10 Valori Fk, h;
1-α
2
3
4
799.5 864.2 899.6
39.00 39.17 39.25
16.04 15.44 10.10
10.65 9.98 9.60
281
della v.c. F per α = 0.025 e differenti coppie di gradi di libertà: P( 0 < Fk, h < Fk, h; 1-α )= 0.975
5
921.8
39.30
14.88
9.36
6
7
937.1 948.2
39.33 39.36
14.73 14.62
9.20 9.07
Numeratore
8
9
956.7 963.3
39.37 39.39
14.54 14.47
8.98 8.90
10
12
15
20
968.6 976.7 984.9 993.1
39.40 39.41 39.43 39.45
14.42 14.34 14.2 14.17
8.84 8.75 8.66 8.56
24
30
997.2 1001
39.46 39.46
14.12 14.08
8.51 8.46
40
60
120
1006 1010 1014
39.47 39.48 39.45
14.04 13.99 13.95
8.41 8.36 8.31
∞
h\k
1
2
3
4
1
647.8
38.5l
17.44
12.22
5
6
7
8
9
10.01
8.81
8.07
7.57
7.21
8.43
7.26
6.54
6.06
5.71
7.76
6.60
5.89
5.42
5.08
7.39
6.23
5.52
5.05
4.71
7.15
5.99
5.29
4.82
4.48
6.98
5.82
5.12
4.65
4.32
6.85
5.70
4.99
4.53
4.20
6.76
5.60
4.90
4.43
4.10
6.68
5.52
4.82
4.36
4.03
6.62
5.46
4 76
4 30
3.96
6.52
5.37
4.67
4.20
3.87
6.43
5.27
4.57
4.10
3.77
6.33
5.17
4.47
4.00
3.67
6.28
5.12
4.42
3.95
3.61
6.23
5.07
4.36
3.89
3.56
6.18
5.01
4.31
3.84
3.51
6.12
4.96
4.25
3.78
3.45
6.07
4.90
4.20
3.73
3.35
6.02
4.85
4.14
3.67
3.33
10
11
12
13
14
6.94
6.72
6.55
6.41
6.30
4.56
5.26
5.10
4.97
4.86
4.83
4.63
4.47
4.35
4.24
4.47
4.28
4.12
4.00
3.89
4.24
4.04
3.89
3.77
3.66
4.07
3.88
3.73
3.60
3.50
3.95
3.76
3.61
3.48
3.38
3.85
3.66
3.51
3.39
3.29
3.78
3.59
3.44
3.31
3.21
3.72
3.53
3.37
3.25
3.15
3.62
3.43
3.28
3.15
3.05
3.52
3.33
3.18
3.05
2.95
3.42
3.23
3.07
2.95
2.84
3.37
3.17
3.02
2.89
2.79
3.31
3.12
2.96
2.84
2.73
3.26
3.06
2.91
2.78
2.67
3.20
3.00
2.85
2.72
2.61
3.14
2.94
2.79
2.66
2.55
3.08
2.88
2.72
2.60
2.49
15
16
6.20
6.12
4.77
4.69
4.15
4.08
3.80
3.73
3.58
3.50
3.41
3.34
3.29
3.22
3.20
3.12
3.12
3.05
3.06
2.99
2.96
2.89
2.86
2.79
2.76
2.68
2.70
2.63
2.64
2.57
2.59
2.51
2.52
2.45
2.46
2.38
2.40
2.32
1018
39.50
13.90
8.26
Appendice
282
Continua
h\k
17
18
19
1
6.04
5.98
5.92
2
4.62
4.56
4.51
3
4.01
3.95
3.90
4
3.66
3.61
3.56
5
3.44
3.38
3.33
6
3.28
3.22
3.17
7
3.16
3.10
3.05
8
3.06
3.01
2.96
20
21
22
23
24
5.87
5.83
5.79
5.75
5.72
4.46
4.42
4.38
4.35
4.32
3.86
3.82
3.78
3.75
3.72
3.51
3.48
3.44
3.41
3.38
3.29
3.25
3.22
3.18
3.15
3.13
3.09
3.05
3.02
2.99
3.01
2.97
2.93
2.90
2.87
25
26
27
28
29
5.69
5.66
5.63
5.61
5.59
4.29
4.27
4.24
4.22
4.20
3.69
3.67
3.65
3.63
3.61
3.35
3.33
3.31
3.29
3.27
3.13
3.10
3.08
3.06
3.04
2.97
2.94
2.92
2.90
2.88
30
40
60
120
5.57
5.42
5.29
5.15
5.02
4.18
4.05
3.93
3.80
3.69
3.59
3.46
3.34
3.23
3.12
3.25
3.13
3.01
2.89
2.79
3.03
2.90
2.79
2.67
2.57
2.87
2.74
2.63
2.52
2.41
∞
Numeratore
9
2.98
2.93
2.88
10
2.92
2.87
2.82
12
2.82
2.77
2.72
15
2.72
2.67
2.62
20
2.62
2.56
2.51
24
2.56
2.50
2.45
30
2.50
2.44
2.39
40
2.44
2.38
2.33
2.91
2.87
2.84
2.81
2.78
2.84
2.80
2.76
2.73
2.70
2.77
2.73
2.70
2.67
2.64
2.68
2.64
2.60
2.57
2.54
2.57
2.53
2.50
2.47
2.44
2.46
2.42
2.39
2.36
2.33
2.41
2.37
2.33
2.30
2.27
2.35
2.31
2.2~
2.24
2.21
2.29
2.25
2.21
2.18
2.15
2.85
2.82
2.80
2.78
2.76
2.75
2.73
2.71
2.69
2.67
2.68
2.65
2.63
2.61
2.59
2.61
2.59
2.57
2.55
2.53
2.51
2.49
2.47
2.45
2.43
2.41
2.35
2.36
2.34
2.32
2.30
2.28
2.25
2.23
2.21
2.24
2.22
2.19
2.17
2.15
2.18
2.16
2.13
2.11
2.05
2.75
2.62
2.63
2.39
2.29
2.65
2.53
2.41
2.30
2.19
2.57
2.45
2.33
2.22
2.11
2.51
2.39
2.27
2.16
2 05
2.41
2.29
2.17
2.05
1.94
2.31
2.18
2.06
1.94
1.83
2.20
2.07
1.94
1.82
1.71
2.14
2.01
1.88
1.76
1.64
2.07
1.94
1.82
1.69
1.57
60
2.38
2.32
2.27
∞
120
2.32
2.26
2.20
2.25
2.19
2.13
2.22
2.18
2.14
2.11
2.08
2.16
2.11
2.08
2.04
2.01
2.09
2.04
2.00
1.97
1.94
2.12
2.09
2.07
2.05
2.03
2.05
2.03
2.00
1.98
1.96
1.98
1.95
1.93
1.91
1.85
1.91
1.88
1.85
1.83
1.81
2.01
1.88
1.74
1.61
1.48
1.94
1.80
1.67
1.53
1.39
1.87
1.72
1.58
1.43
1.27
1.79
1.64
1.48
1.31
1.00
Appendice
283
Tav. 11 Valori Fk, h; 1-α della v.c. F per α = 0.001 e differenti coppie di gradi di libertà: P(0 < Fk, h < Fk, h; 1-α ) = 0.99
h\k
1
2
3
4
5
6
7
8
9
1
2
3
4
4052 4999 5403 5625
98.50 99.00 99.17 99.25
34.12 30.82 29.46 28.71
21.20 18.00 16.69 15.98
Numeratore
5
6
7
5764 5859 5928
99.30 99.33 99.36
28.24 27.91 27.67
15.52 15.21 14.98
8
9
10
5982 6022 6056
99.37 99.39 99.40
27.49 27.35 27.23
14.80 14.66 14.55
16.26 13.27 12.06 11.39 10.97 10.67 10.46
13.75 10.92 9.78 9.15 8.75 8.47 8.26
12.25 9.55 8.45 7.85 7.46 7.19 6.99
11.26 8.65 7.59 7.01 6.63 6.37 6.18
10.56 8.02 6.99 6.42 6.06 5.80 5.61
10.29 10.16 10.05
8.10 7.98 7.87
6.84 6.72 6.62
6.03 5.91 5.81
5.47 5.35 5.26
12
15
20
24
30
40
60
6106 6157 6209 6235 6261 S287 6313
99.42 99.43 99.45 99.46 99.47 99.47 99.48
27.05 26.87 26.69 26.60 26.50 26.41 26.32
14.37 14.20 14.02 13.93 13.84 13.75 13.65
∞
120
6339
99.49
26.22
13.56
6366
99.50
26.13
13.46
9.89
7.72
6.47
5.67
5.11
9.72
7.56
6.31
5.52
4.96
9.55
7.40
6.16
5.36
4.81
9.47
7.31
6.07
5.28
4.73
9.38
7.23
5.99
5.20
4.65
9.29
7.14
5.91
5.12
4.57
9.20
7.06
5.82
5.03
4.48
9.11
6.97
5.74
4.95
4.40
9.02
6.88
5.65
4.86
4.31
10
11
12
13
14
15
10.04
9.65
9.33
9.07
8.86
8.68
7.56
7.21
6.93
6.70
6.51
6.36
6.55
6.22
5.95
5.74
5.65
5.42
5.99
5.67
5.41
5.21
5.04
4.89
5.64
5.32
5.06
4.86
4.69
4.56
5.39
5.07
4.82
4.62
4.46
4.32
5.20
4.89
4.64
4.44
4.28
4.14
5.06
4.74
4.5o
4.30
4.14
4.00
4.94
4.63
4.39
4.19
4.03
3.89
4.85
4.54
4.30
4.10
3.94
3.80
4.71
4.40
4.16
3.96
3.80
3.67
4.56
4.25
4.01
3.82
3.66
3.52
4.41
4.10
3.86
3.66
3.51
3.37
4.33
4.02
3.78
3.59
3.43
3.29
4.25
3.94
3.70
3.51
3.35
3.21
4.17
3.86
3.62
3.43
3.27
3.13
4.08
3.78
3.54
3.34
3.18
3.05
4.00
3.69
3.45
3.25
3.09
2.96
3.91
3.60
3.36
3.17
3.00
2.87
16
17
8.53
8.40
6.23
6.11
5.29
5.18
4.77
4.67
4.44
4.34
4.20
4.10
4.03
3.93
3.89
3.79
3.78
3.68
3.69
3.59
3.55
3.46
3.41
3.31
3.26
3.16
3.18
3.08
3.10
3.00
3.02
2.92
2.93
2.83
2.84
2.75
2.75
2.65
Appendice
284
Continua
h\k
18
19
8
3.71
3.63
Numeratore
2
6.01
5.93
3
5.09
5.Ol
4
4.58
4.5o
5
4.25
4.17
6
4.01
3.94
7
3.84
3.77
20
21
22
23
24
8.10 5.85
8.02 5.78
7.95 5.72
7.88 5.66.
7.82 5.61
4.94
4.87
4.82
4.76
4.72
4.43
4.37
4.31
4.26
4.22
4.10
4.04
3.99
3.94
3.90
3.87
3.81
3.76
3.71
3.67
3.70
3.64
3.59
3.54
3.5o
3.56
3.51
3.45
3.41
3.36
3.46
3.40
3.35
3.03
3.26
3.37
3.31
3.26
3.21
3.17
3.23
3.17
3.12
3.07
3.03
3.09
3.03
2.98
2.93
2.89
2.94
2.88
2.83
2.78
2.74
2.86
2.80
2.75
2.70
2.66
25
26
27
28
29
7.77
7.72
7.68
7.64
7.60
5.57
5.53
5.49
5.45
5.42
4.68
4.64
4.60
4.57
4.54
4.18
4.14
4.11
4.07
4.04
3.85
3.82
3.78
3.75
3.73
3.63
3.59
3.56
3.53
3.5o
3.46
3.42
3.39
3.36
3.33
3.32
3.29
3.26
3.23
3.20
3.22
3.18
3.15
3.12
3.09
3.13
3.09
3.06
3.03
3.00
2.99
2.96
2.93
2.90
2.87
2.85
2.81
2.78
2.75
2.73
2.70
2.66
2.63
2.60
2.57
30
40
60
120
7.56
7.31
7.08
6.85
6 63
5.39
5.18
4.98
4.79
4.61
4.51
4.31
4.13
3.95
3.78
4.02
3.83
3.65
3.48
3.32
3.70
3.51
3.34
3.17
3 02
3.47
3.29
3.12
2.96
2 80
3.30
3.12
2.95
2.79
2.64
3.17
2.99
2.82
2.66
2 5l
3.07
2.89
2.72
2.56
2.41
2.98
2.80
2.63
2.47
2.32
2.84
2.66
2.50
2.34
2.18
2.70
2.52
2.35
2.19
2.04
2.55
2.37
2.20
2.03
1.88
∞
1
8.29
8.18
9
3.60
3.52
10
3.51
3.43
12
3.37
3.30
15
3.23
3.15
20
3.08
3.00
24
3.00
2.92
30
2.92
2.84
∞
40
2.84
2.76
60
2.75
2.67
120
2.66
2.58
2.57
2.49
2.78
2.72
2.67
2.62
2.58
2.69
2.64
2.58
2.54
2.49
2.61
2.55
2.50
2.45
2.40
2.52
2.46
2.40
2.35
2.31
2.42
2.36
2.31
2.26
2.21
2.62
2.58
2.55
2.52
2.49
2.54
2.50
2.47
2.44
2.41
2.45
2.42
2.38
2.35
2.33
2.36
2.33
2.29
2.26
2.23
2.27
2.23
2.20
2.17
2.14
2.17
2.13
2.10
2.06
2.03
2.47
2.29
2.12
1.95
1.79
2.39
2.20
2.03
1.86
1.70
2.30
2.11
1.94
1.76
1.59
2.21
2.02
1.84
1.66
1.47
2.11
1.92
1.73
1.53
1.32
2.01
2.80
1.60
1.38
1 00
285
Appendce
Tav. 12 Distribuzione di Wilcoxon: P( U ≤ a )
k1 = min( n, m ), k2 = max( n, m ), P(U ≤ a) = P( U ≥ n m – a )
k1 a
k2=3
3
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
.0500
.1000
.2000
.3500
.5000
.6500
.8000
.9000
.9500
1.000
4
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
k2=4 k2=5 k2=6
k2=7 k2=8
k2=9
k2=10 k2=11 k2=12
.0286
.0571
.1143
.2000
.3143
.4286
.5714
.6857
.8000
.8857
.9429
.9714
1.0000
.0179
.0357
.0714
.1250
.1964
.2857
.3929
.5000
.6071
.7143
.8036
.8750
.9286
.9643
.9821
1.0000
.0119
.0238
.0476
.0833
.1310
.1905
.2738
.3571
.4524
.5476
.6429
.7262
.8095
.8690
.9167
.9524
.9762
.9881
1.0000
.0083
.0167
.0333
.0583
.0917
.1333
.1917
.2583
.3333
.4167
.5000
.5833
.6667
.7417
.8083
.8667
.9083
.9417
.9667
.0061
.0121
.0242
.0424
.0667
.0970
.1394
.1879
.2485
.3152
.3879
.4606
.5394
.6121
.6848
.7515
.8121
.8606
.9030
.0045
.0091
.0182
.0318
.0500
.0727
.1045
.1409
.1864
.2409
.3000
.3636
.4318
.5000
.5682
.6364
.7000
.7591
.8136
.0035
.0070
.0140
.0245
.0385
.0559
.0804
.1084
.1434
.1853
.2343
.2867
.3462
.4056
.4685
.5315
.5944
.6538
.7133
.0027
.0055
.0110
.0192
.0302
.0440
.0632
.0852
.1126
.1456
.1841
.2280
.2775
.3297
.3846
.4423
.5000
.5577
.6154
.0022
.0044
.0088
.0154
.0242
.0352
.0505
.0681
.0901
.1165
.1473
.1824
.2242
.2681
.3165
.3670
.4198
.4725
.5275
.0143
.0286
.0571
.1000
.1714
.2429
.3429
.4429
.5571
.6571
.7571
.8286
.9000
.9429
.9714
.9857
1.0000
.0079
.0159
.0317
.0556
.0952
.1429
.2063
.2778
.3651
.4524
.5476
.6349
.7222
.7937
.8571
.9048
.9444
.9683
.9841
.9921
1.0000
.0048
.0095
.0190
.0333
.0571
.0857
.1286
.1762
.2381
.3048
.3810
.4571
.5429
.6190
.6952
.7619
.8238
.8714
.9143
.9429
.9667
.9810
.9905
.9952
1.0000
.0030
.0061
.0121
.0212
.0364
.0545
.0818
.1152
.1576
.2061
.2636
.3242
.3939
.4636
.5364
.6061
.6758
.7364
.7939
.8424
.8848
.9182
.9455
.9636
.9788
.0020
.0040
.0081
.0141
.0242
.0364
.0545
.0768
.1071
.1414
.1838
.2303
.2848
.3414
.4040
.4667
.5333
.5960
.6586
.7152
.7697
.8162
.8586
.8929
.9232
.0014
.0028
.0056
.0098
.0168
.0252
.0378
.0531
.0741
.0993
.1301
.1650
.2070
.2517
.3021
.3552
.4126
.4699
.5301
.5874
.6448
.6979
.7483
.7930
.8350
.0010
.0020
.0040
.0070
.0120
.0180
.0270
.0380
.0529
.0709
.0939
.1199
.1518
.1868
.2268
.2697
.3177
.3666
.4196
.4725
.5275
.5804
.6334
.6823
.7303
.0007
.0015
.0029
.005I
.0088
.0132
.0198
.0278
.0388
.0520
.0689
.0886
.1128
.1399
.1714
.2059
.2447
.2857
.3304
.3766
.4256
.4747
.5253
.5744
.6234
.0005
.0011
.0022
.0038
.0066
.0099
.0148
.0209
.0291
.0390
.0516
.0665
.0852
.1060
.1308
.1582
.1896
.2231
.2604
.2995
.3418
.3852
.4308
4764
.5236
286
Appendice
Continua
k1
5
6
a
k2=5 k2=6 k2=7
0 .0040 .0022 .0013
1 .0079 .0043 .0025
2 .0159 .0087 .0051
3 .0278 .0152 .0088
4 .0476 .0260 .0152
5 .0754 .0411 .0240
6 .1111 .0628 .0366
7 .1548 .0887 .0530
8 .2103 .1234 .0745
9 .2738 .1645 .1010
10 .3452 .2143 .1338
11 .4206 .2684 .1717
12 .5000 .3312 .2159
13 .5794 .3961 .2652
14 .6548 .4654 .3194
15 .7262 .5346 .3775
16 .7897 .6039 .4381
17 .8452 .6688 .5000
18 .8889 .7316 .5619
19 .9246 .7857 .6225
20 .9524 .8355 .6806
21 .9722 .8766 .7348
22 .9841 .9113 .7841
23 .9921 .9372 .8283
24 .9960 .9589 .8662
25 1.0000 .9740 .8990
0
.0011 .0006
1
.0022 .0012
2
.0043 .0023
3
.0076 .0041
4
.0130 .0070
5
.0206 .0111
6
.0325 .0175
7
.0465 .0256
8
.0660 .0367
9
.0898 .0507
10
.1201 .0688
11
.1548 .0903
12
.1970 .1171
13
.2424 .1474
14
.2944 .1830
15
.3496 .2226
16
.4091 .2669
17
.4686 .3141
18
.5314 .3654
19
.5909 .4178
20
.6504 .4726
21
.7056 .5274
k2=8 k2=9 k2=10 k1
.0008
.0016
.0031
.0054
.0093
.0148
.0225
.0326
.0466
.0637
.0855
.1111
.1422
.1772
.2176
.2618
.3108
.3621
.4165
.4716
.5284
.5835
.6379
.6892
.7382
.7824
.0003
.0007
.0013
.0023
.0040
.0063
.0100
.0147
.0213
.0296
.0406
.0539
.0709
.0906
.1142
.1412
.1725
.2068
.2454
.2864
.3310
.3773
.0005
.0010
.0020
.0035
.0060
.0095
.0145
.0210
.0300
.0415
.0559
.0734
.0949
.1199
.1489
.1818
.2188
.2592
.3032
.3497
.3986
.4491
.5000
.5509
.6014
.6503
.0002
.0004
.0008
.0014
.0024
.0038
.0060
.0088
.0128
.0180
.0248
.0332
.0440
.0567
.0723
.0905
.1119
.1361
.1638
.1942
.2280
.2643
.0003
.0007
.0013
.0023
.0040
.0063
.0097
.0140
.0200
.0276
.0376
.0496
.0646
.0823
.1032
.1272
.1548
.1855
.2198
.2567
.2970
.3393
.3839
.4296
.4765
.5235
.0001
.0002
.0005
.0009
.0015
.0024
.0037
.0055
.0080
.0112
.0156
.0210
.0280
.0363
.0467
.0589
.0736
.0903
.1099
.1317
.1566
.1838
7
a
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
29
30
31
32
33
34
35
k2=7 k2=8 k2=9 k2=10
.0003
.0006
.0012
.0020
.0035
.0055
.0087
.0131
.0189
.0265
.0364
.0487
.0641
.0825
.1043
.1297
.1588
.1914
.2279
.2675
.3100
.3552
.4024
.4508
.5000
.5492
.5976
.6448
.7325
.7721
.8086
.8412
.8703
.8957
.9175
.0002
.0003
.0006
.0011
.0019
.0030
.0047
.0070
.0103
.0145
.0200
.0270
.0361
.0469
.0603
.0760
.0946
.1159
.1405
.1678
.1984
.2317
.2679
.3063
.3472
.3894
.4333
.4775
.5667
.6106
.6528
.6937
.7321
.7683
.8016
.0001
.0002
.0003
.0006
.0010
.0017
.0026
.0039
.0058
.0082
.0115
.0156
.0209
.0274
.0356
.0454
.0571
.0708
.0869
.1052
.1261
.1496
.1755
.2039
.2349
.2680
.3032
.3403
.4185
.4591
.5000
.5409
.5815
.6212
.6597
.0001
.0001
.0002
.0004
.0006
.0010
.0015
.0023
.0034
.0048
.0068
.0093
.0125
.0165
.0215
.0277
.0351
.0439
.0544
.0665
.0806
.0966
.1148
.1349
.1574
.1819
.2087
.2374
.3004
.3345
.3698
.4063
.4434
.4811
.5189
Appendce
Continua
22
23
24
25
26
27
28
.7576
.8030
.8452
.8799
.9102
.9340
.9535
.5822
.6346
.6859
.7331
.7774
.8170
.8526
.4259
.4749
.5251
.5741
.6227
.6690
.7136
.3035
.3445
.3878
.4320
.4773
.5227
.5680
.2139
.2461
.2811
.3177
.3564
.3962
.4374
287
288
Appendice
Continua
k1
a
k2=8
k2=9
k2=10
k1
a
k2=9
k2=10
k1
a
8
0
1
2
3
4
5
6
7
8
9
10
1l
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
.0001
.0002
.0003
.0005
.0009
.0015
.0023
.0035
.0052
.0074
.0103
.0141
.0190
.0249
.0325
.0415
.0524
.0652
.0803
.0974
.1172
.1393
.1641
.1911
.2209
.2527
.2869
.3227
.3605
.3992
.4392
.4796
.5201
.5608
.6008
.6395
.6773
.7173
.7473
.7791
.8089
.0000
.0001
.0002
.0003
.0005
.0008
.0012
.0019
.0028
.0039
.0056
.0076
.0103
.0137
.0180
.0232
.0296
.0372
.0464
.0570
.0694
.0836
.0998
.1179
.1383
.1606
.1852
.2117
.2404
.2707
.3029
.3365
.3715
.4074
.4442
.4813
.5187
.5558
.5926
.6285
.6635
.0000
.0000
.0001
.0002
.0003
.0004
.0007
.0010
.0015
.0022
.0031
.0043
.0058
.0078
.0103
.0133
.0171
.0217
.0273
.0338
.0416
.0506
.0610
.0729
.0864
.1015
.1185
.1371
.1577
.1800
.2041
.2299
.2574
.2863
.3167
3482
.3809
.4143
.4484
.4827
.5173
9
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
36
39
40
41
42
43
44
45
.0000
.0000
.0001
.0001
.0002
.0004
.0006
.0009
.0014
.0020
.0028
.0039
.0053
.0071
.0094
.0122
.0157
.0200
.0252
.0313
.0385
.0470
.0567
.0680
.0807
.0951
.1112
.1290
.1487
.1701
.1933
.2181
.2447
.2729
.3024
.3332
.3652
.3981
.4317
.4657
.5000
.5343
.5683
.6019
.6348
.6668
.0000
.0000
.0000
.000l
.0001
.0002
.0003
.0005
.0007
.0011
.0015
.0021
.0028
.0038
.0051
.0066
.0086
.0110
.0140
.0175
.0217
.0267
.0326
.0394
.0474
.0564
.0667
.0782
.0912
.1055
.1214
.1388
.1577
.1781
.2001
.2235
.2483
.2745
.3019
.3304
.3598
.3901
.4211
.4524
.4841
.5159
10
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
k2=10
.0000
.0000
.0000
.0000
.0001
.0001
.0002
.0002
.0004
.0005
.0008
.0010
.0014
.0019
.0026
.0034
.0045
.0057
.0073
.0093
.0116
.0144
.0177
.0216
.0262
.0315
.0376
.0446
.0526
.0615
.0716
.0827
.0952
.1088
.1237
.1399
.1575
.1763
.1965
.2179
.2406
.2644
.2894
.3]53
.3421
.3697
289
Appendce
Continua
46
47
48
49
50
.3980
.4267
.4559
.4853
.5147
290
Appendice
Tav. 13 Distribuzione della statistica del segno: P(SN ≤ a)
a\N
2
0
.2500
1
.7500
2 1.0000
3
4
3
.1250
.5000
.8750
1.0000
4
.0625
.3125
.6875
.9375
1.0000
5
.0313
.1875
.5000
.8125
.9687
6
.0156
.1094
.3438
.6562
.8906
7
.0078
.0625
.2266
.5000
.7734
8
.0039
.0352
.1445
.3633
.6367
9
.0020
.0195
.0898
.2539
.5000
a\N
0
1
2
3
4
5
6
7
8
10
.0010
.0107
.0547
.1719
.3770
.6230
.8281
.9453
.9893
11
.0005
.0059
.0327
.1133
.2744
.5000
.7256
.8867
.9673
12
.0002
.0032
.0193
.0730
.1938
.3872
.6128
.8062
.9270
13
.0001
.0017
.0112
.0461
.1334
.2905
.5000
.7095
.8666
14
.0001
.0009
.0065
.0287
.0898
.2120
.3953
.6047
.7880
15
.0000
.0005
.0037
.0176
.0592
.1509
.3036
.5000
.6964
16
.0000
.0003
.0021
.0106
.0384
.1051
.2272
.4018
.5982
17
.0000
.0001
.0012
.0064
.0245
.0717
.1662
.3145
.5000
a\N
0
1
2
3
4
5
6
7
8
9
10
11
12
18
.0000
.0001
.0007
.0038
.0154
.0481
.1189
.2403
.4073
.5927
.7597
.8811
.9519
19
.0000
.0000
.0004
.0022
.0096
.0318
.0835
.1796
.3238
.5000
.6762
.8204
.9165
20
.0000
.0000
.0002
.0013
.0059
.0207
.0577
.1316
.2517
.4119
.5881
.7483
.8684
21
.0000
.0000
.0001
.0007
.0036
.0133
.0392
.0946
.1917
.3318
.5000
.6682
.8083
22
.0000
.0000
.0001
.0004
.0022
.0085
.0262
.0669
.1431
.2617
.4159
.5841
.7383
23
.0000
.0000
.0000
.0002
.0013
.0053
.0173
.0466
.1050
.2024
.3388
.5000
.6612
24
.0000
.0000
.0000
.0001
.0008
.0033
.0113
.0320
.0758
.1537
.2706
.4194
.5806
25
.0000
.0000
.0000
.0001
.0005
.0020
.0073
.0216
.0539
.1148
.2122
.3450
.5000
291
Appendce
Continua
a\N
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
26
.0000
.0000
.0000
.0000
.0003
.0012
.0047
.0145
.0378
.0843
.1635
.2786
.4225
.5775
.7214
.8365
.9157
27
.0000
.0000
.0000
.0000
.0002
.0008
.0030
.0096
.0261
.0610
.1239
.2210
.3506
.5000
.6494
.7790
.8761
28
.0000
.0000
.0000
.0000
.0001
.0005
.0019
.0063
.0178
.0436
.0925
.1725
.2858
.4253
.5747
.7142
.8275
29
.0000
.0000
.0000
.0000
.0001
.0003
.0012
.0041
.0121
.0307
.0680
.1325
.2291
.3555
.5000
.6445
.7709
30
.0000
.0000
.0000
.0000
.0000
.0002
.0007
.0026
.0081
.0214
.0494
.1002
.1808
.2923
.4278
.5722
.7077
31
.0000
.0000
.0000
.0000
.0000
.0001
.0004
.0017
.0053
.0147
.0354
.0748
.1405
.2366
.3601
.5000
.6399
32
.0000
.0000
.0000
.0000
.0000
.0001
.0003
.0011
.0035
.0100
.0251
.0551
.1077
.1885
.2983
.4300
.5700
a\N
0
1
2
3
4
5
6
7
8
9
10
1l
12
13
14
15
16
17
18
19
20
34
.0000
.0000
.0000
.0000
.0000
.0000
.0001
.0004
.0015
.0045
.0122
.0288
.0607
.1147
.1958
.3038
.4321
.5679
.6962
.8042
.8853
35
.0000
.0000
.0000
.0000
.0000
.0000
.0001
.0003
.0009
.0030
.0083
.0205
.0448
.0877
.1553
.2498
.3679
.5000
.6321
.7502
.8447
36
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0002
.0006
.0020
.0057
.0144
.0326
.0662
.1215
.2025
.3089
.4340
.5660
.6911
.7975
37
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0001
.0004
.0013
.0038
.0100
.0235
.0494
.0939
.1620
.2557
.3714
.5000
.6286
.7443
38
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0001
.0002
.0008
.0025
.0069
.0168
.0365
.0717
.1279
.2088
.3136
.4357
.5643
.6864
39
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0001
.0005
.0017
.0047
.0119
.0266
.0541
.0998
.1684
.2612
.3746
.5000
.6254
40
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0001
.0003
.0011
.0032
.0083
.0192
.0403
.0769
.1341
.2148
.3179
.4373
.5627
33
.0000
.0000
.0000
.0000
.0000
.0000
.0002
.0007
.0023
.0068
.0175
.0401
.0814
.1481
.2434
.3642
.5000