L`aspetto inferenziale

annuncio pubblicitario
L’aspetto inferenziale
Dev’essere limitato a casi semplici, il più importante
dei quali conduce alla stima per intervallo della media
di una popolazione normalmente distribuita, di dimensione N, della quale si conoscono lo scarto tipo s e
un suo campione di dimensione n (n≤N), avente
x
media
.
La maggiore difficoltà di apprendimento consiste nel
riuscire a capire che se si prende un campione a caso,
questo non è forzatamente attendibile; perciò la stima
comporta sempre un rischio di essere errata.
L’aspetto inferenziale
Una utile esperienza in classe: partire da una
popolazione di pochi elementi (6 o 7 o 8),
interamente conosciuta, formare tutti i campioni
possibili, calcolare media e scarto tipo di ogni
campione e infine calcolare la media delle medie
e lo scarto delle medie.
Essa permette di dedurre sperimentalmente alcune tesi
del teorema centrale del limite, che costituisce il
fondamento teorico dell’analisi campionaria.
L’aspetto inferenziale
Il terreno è pronto per la costruzione dell’intervallo di
confidenza per la media della popolazione:

I  x  z a

2
s

; x  za
n
2
s


n
Cioè: esiste una probabilità 1-a che la media
sconosciuta della popolazione sia compresa in I. a è il
rischio assunto, cioè la probabilità che I non contenga
questa media;
è l'ascissa, letta sulle tavole della
za 2
normale, corrispondente alla probabilità
; n è la
a
1
dimensione del campione.
2
L’aspetto inferenziale
Graficamente, la situazione si presenta così:
Le due aree agli estremi rappresentano la probabilità a
di avere un campione degenere.
Se l’intervallo I è grande (stima grossa), il rischio è
piccolo; se l’intervallo I è piccolo (stima fine), il rischio è
grande.
L’aspetto inferenziale
L’intervallo di confidenza può essere usato anche per
il test statistico.
Una popolazione di N elementi dovrebbe avere una
media m e di essa si conosce pure lo scarto s.
Si vuole controllare per mezzo di un campione di n
elementi (n≤N), casualmente estratto, se tale media
è ancora credibile oppure no, con un rischio a.
Ipotesi zero: la media è davvero m.
L’aspetto inferenziale
Si preleva un campione di dimensione n e si
costruisce l’intervallo di confidenza:

I  m  z a

2
s

; m  za
n
2
s
 
n
Si calcola infine la media del campione x .
Si possono presentare due casi:
1) x I : lIipotesi zero è verificata
2) x I : lIipotesi zero è resp int a
L’aspetto inferenziale
Ovviamente il test non è sicuro, perché se si sceglie
un campione degenere il risultato è falso.
Si possono compiere due tipi di errore:
Di tipo uno: respingere l’ipotesi quando in realtà
doveva essere accettata.
Di tipo due: accettare l’ipotesi quando in realtà
doveva essere respinta.
L’aspetto inferenziale
Fin qui si può ragionevolmente arrivare in modo
sperimentale, mettendo l’allievo in situazione,
facendolo riflettere anche sugli aspetti qualitativi.
L’obiettivo non è certo quello di formare degli specialisti
in controllo della qualità, ma:
creare una mentalità statistica che aiuti il futuro
cittadino a interpretare correttamente tutto ciò che è
previsione basata su rilevazioni statistiche.
L’aspetto inferenziale
Indagini
demoscopiche…
Previsioni del
tempo…
Stima di valori medi…
Teorie economiche…
Durata della vita…
Controllo industriale della qualità…
Verifica dell’effetto di nuovi medicinali…
L’aspetto inferenziale: proposte didattiche
Problema 1: campioni e popolazione
Premessa: l’inferenza statistica consiste nel
prevedere i risultati di una popolazione sconosciuta,
sulla base di un suo campione estratto casualmente.
Data una popolazione di 7 elementi, vogliamo costruire tutti i
campioni possibili di 2, 3, 4, 5 elementi e trovare che
relazioni esistono tra la media aritmetica e la varianza dei
vari campioni e quelli dell'intera popolazione.
La varianza è il quadrato dello scarto tipo: si usa invece
dello scarto perché ha interessanti proprietà matematiche.
L’aspetto inferenziale: proposte didattiche
Popolazione di 7 elementi
A
B
C
D
E
F
G
300 263 276 315 285 288 282
Gli elementi della popolazione sono A,B,C,D,E,F,G. I numeri
sotto ciascuna lettera rappresentano la misura di una
determinata caratteristica degli elementi della popolazione
data.
Di seguito, la composizione e i risultati relativi a tutti i
campioni di grandezza 2,3,4,5.
L’aspetto
inferenziale:
proposte
didattiche
L’aspetto
inferenziale:
proposte
didattiche
L’aspetto
inferenziale:
proposte
didattiche
Camp. k=4
media varianza
287.00
No. camp. = 35
AB C D
AB C E
AB C F
AB C G
A B DE
AB D F
AB DG
AB E F
AB E G
. . .
.. .
. . .
BD E G
B D FG
B E FG
CD E F
CDE G
D EGG
C E FG
DE F G
media pop.
288.50
281.00
281.75
280.25
290.75
291.50
290.00
284.00
282.50
É
É
É
286.25
287.00
279.50
291.00
289.50
290.25
282.75
292.50
410.25
181.50
189.19
177.19
369.19
362.25
379.50
178.50
173.25
É
É
É
346.69
346.50
95.25
211.50
227.25
222.19
19.69
163.25
varianza pop.
240.00
media medie
287.00
media var.
210.00
var. medie
30.00
L’aspetto
inferenziale:
proposte
didattiche
L’aspetto inferenziale: proposte didattiche
Riassunto e osservazioni:
Popolazione
k=2
Campioni
k=3
k=5
media medie
287.00
media medie
287.00
media medie
287.00
media var.
media var.
media var.
140.00
186.67
224.00
var. medie
var. medie
var. medie
100.00
53.33
16.00
L’aspetto inferenziale: proposte didattiche
Riassunto e osservazioni:
La media delle medie campionarie è uguale alla
media della popolazione.
La media delle varianze campionarie non è paragonabile
alla varianza della popolazione, ma la varianza delle
medie campionarie diminuisce sensibilmente al
crescere di k (dimensione del campione).
L’aspetto inferenziale: proposte didattiche
Queste semplici osservazioni ci fanno dire che, potendo
disporre di un certo numero di campioni (al limite di tutti i
campioni) si può determinare una stima abbastanza
attendibile della media della popolazione.
Inoltre si deduce che, avendo a disposizione campioni
più grandi, le medie campionarie si raccolgono
maggiormente attorno alla loro media (quindi alla
media della popolazione).
Siamo ora pronti per capire il teorema più importante della
statistica, il cosiddetto teorema centrale del limite.
L’aspetto inferenziale: proposte didattiche
Il teorema centrale del limite
Siano: X1, X2, …, Xn n variabili aleatorie reciprocamente
indipendenti e distribuite in modo qualunque;
m1, m2, …, mn ordinatamente le loro medie
s12, s22, …, sn2 ordinatamente le loro varianze.
Allora, per n tendente all'infinito, la variabile aleatoria
X = X1+X2+…+Xn è distribuita normalmente con media
m = m1+m2+…+mn e varianza s2 = s12+s22+…+sn2
… il che può sembrare poco significativo. Ma …
L’aspetto inferenziale: proposte didattiche
Corollario 1
Se m1=m2=…=mn = m
e
s12=s22=…=sn2 = s2
Allora la variabile aleatoria X = X1+X2+…+Xn si distribuisce
normalmente con media
mX = n m e varianza sX2 = n s
… il che può ancora sembrare poco significativo. Ma …
L’aspetto inferenziale: proposte didattiche
Corollario 2
Se m1=m2=…=mn = m
e
s12=s22=…=sn2 = s2
la variabile aleatoria
X1  X 2    Xn
X
n
si distribuisce normalmente con
nm
mX 
m
n
e
sX
2
n2 s

ns
n
… il che è finalmente interessante, perché …
L’aspetto inferenziale: proposte didattiche
… è il caso della variabile aleatoria media campionaria.
Ecco perché lavorando su tutti i campioni esistenti,
abbiamo ottenuto come media delle medie proprio la
media m della popolazione!
Ecco perché lavorando su tutti i campioni esistenti,
abbiamo visto che la varianza delle medie s X
2
diminuisce al crescere del numero n di elementi del
campione!
… Che bello poter dire: “il teoremone è ovvio!”
L’aspetto inferenziale: proposte didattiche
Un’osservazione interessante:
Se n e N sono “molto grandi”, per il teoremone si ha:
s2
sX
2
n
… e se n non è abbastanza grande?
Vale la relazione:
s2
sX
2
Nn

n
N 1
… sarà poi vero?
L’aspetto inferenziale: proposte didattiche
… sembra funzionare!
L’aspetto inferenziale: proposte didattiche
Campioni attendibili e campioni degeneri
L'analisi fatta sui campioni della popolazione di 7 elementi
ci permette di vedere quali possono essere considerati
attendibili e quali invece degeneri.
Occorre costruire un criterio di giudizio.
Inoltre, nel caso in cui si dispone di un solo campione (è il
caso della maggior parte delle indagini statistiche), si
vorrebbe sapere la probabilità di avere un campione
attendibile.
L’aspetto inferenziale: proposte didattiche
Campioni attendibili e campioni degeneri
Nel caso di una distribuzione normale delle medie, queste
si dispongono percentualmente così (valori approssimati):


Nell'int ervallo x  2 s , x  2 s il
Nell'int ervallo x  3 s , x  3 s il
Nell'int ervallo x  s , x  s il 68%.
95,2%.
99,97%.
Nasce quindi l’idea di prendere s come unità di
misura per il raggio dell’intervallo centrato sulla
media.
L’aspetto inferenziale: proposte didattiche
Campioni attendibili e campioni degeneri
Vediamo la situazione dei campioni della popolazione di 7
elementi. Consideriamo attendibile un campione la cui
media è compresa nell'intervallo x  s , x  s :


DISTRIBUZIONE DELLE MEDIE CAMPIONARIE: N = 7 ; n = 2
310
305
300
x  s  297
Campioni
attendibili:
13 su 21,
cioè circa il
62%
295
290
x  287
285
280
x  s  277
275
270
265
0
5
10
15
20 21
L’aspetto inferenziale: proposte didattiche
Campioni attendibili e campioni degeneri
Campioni
attendibili:
22 su 35,
cioè circa il
63%
L’aspetto inferenziale: proposte didattiche
Campioni attendibili e campioni degeneri
Campioni
attendibili:
22 su 35,
cioè circa il
63%
L’aspetto inferenziale: proposte didattiche
Campioni attendibili e campioni degeneri
DISTRIBUZIONE DELLE MEDIE CAMPIONARIE: N = 7 ; n = 5
294
292
x  s  291
Campioni
attendibili:
13 su 21,
cioè circa il
62%
290
288
x = 287
286
284
x  s  283
282
280
278
0
5
10
15
20 21
L’aspetto inferenziale: proposte didattiche
Campioni attendibili e campioni degeneri
Abbiamo visto che per la popolazione di 7 elementi, la
probabilità di scegliere un campione attendibile è circa 0,62.
Se si scelg ono tre campioni, la probabilità che
almeno due siano attendibili è :
3  0,622  0,38  0,623  0,68
Se si scelg ono cinque campioni, la probabilità che
almeno tre siano attendibili è :
 5
3
2
4
5
   0,62  0,38  5  0,62  0,38  0,62  0,72
 3
L’aspetto inferenziale: proposte didattiche
Problema 1: attendibilità di un campione
La ditta TRANSPORT SA vuole stimare il tonnellaggio medio
mensile delle sue spedizioni.
Per fare questo ha a disposizione i dati relativi a 50 mesi
di attività (le misure sono da intendersi in tonnellate).
228
210
202
198
208
212
199
228
221
214
217
214
197
227
212
227
232
197
225
224
222
223
197
221
232
235
234
199
217
213
212
238
211
239
197
222
222
204
216
198
235
217
231
214
227
214
210
229
228
220
L’aspetto inferenziale: proposte didattiche
Scegliamo un campione a caso e controlliamo se la
sua media è nell’intervallo x  s , x  s


… cioè se è un campione attendibile.
Ci aiutiamo con una successione di numeri casuali (parte
iniziale dei decimali del numero trascendente e).
27182 81828 45904 52353 60287 47135 26624 97757 24709 36999
59574 96696 76277 24076 63035 35475 94571 38217 85251 66427
42746 63919 32003 05992 18174 13596 62904 35729 00334 29526
05956 30738 13232 86279 43490 76323 38298 80753 19525 10190
11573 83418 79307 02154 08914 99348 84167 50924 47614 60668
08226 48001 68477 41185 37423 45442 43710 75390 77744 99206
95517 02761 83860 62613 31384 45830 00752 04493 38265 60297
60673 71132 00709 32870 91274 43747 04723 06969 77209 31014
L’aspetto inferenziale: proposte didattiche
La successione la suddividiamo arbitrariamente in
pacchetti di cinque cifre ciascuno.
Poi, partendo da uno qualunque (per esempio da quello in
grassetto), prendiamo il resto (≠0) di ciascun numero di 5
cifre diviso per 51, procedendo di seguito da sinistra a
destra, dall'alto verso il basso.
Ogni resto ottenuto, se diverso da tutti i precedenti, fissa il
rango del valore osservato da prelevare dalla popolazione
per costituire il campione.
Formiamo così un campione di 16 elementi.
L’aspetto inferenziale: proposte didattiche
media popolazione:
scarto popolazione
intervallo
m = 217,38
s =12,07
[205,31 ; 229,45]
Nel campione scelto secondo quanto detto in precedenza
entrano i valori che occupano i seguenti posti:
17 18 30
25
8
16 26 21
29 28 48
40 36 23 38 27
cioè:
238 222 229 197 222 234 199 202
231 204 198 228 217 197 216 211
L’aspetto inferenziale: proposte didattiche
Media del campione: 215,3125
È compresa nell’intervallo [205,31 ; 229,45] , quindi il
campione è attendibile!
Un’altra estrazione casuale ha dato il seguente campione:
228
210
202
198
208
212
199
228
221
214
217
214
197
227
212
227
232
197
225
224
222
223
197
221
232
235
234
199
217
213
212
238
211
239
197
222
222
204
216
198
235
217
231
214
227
214
210
229
228
220
Media del campione: 204,0
Non è compresa nell’intervallo [205,31 ; 229,45] , quindi il
campione non è attendibile!
L’aspetto inferenziale: proposte didattiche
Problema 3: Criterio di affidabilità per un campione
Dati:
- una popolazione di N elementi con media m e scarto tipo s
- un suo campione di n elementi con media x
Vogliamo costruire un intervallo che ci serva da criterio per
stabilire se un campione è o no attendibile.
L’aspetto inferenziale: proposte didattiche
Dal teorema centrale del limite:
E(x) = m
s
sx 
, per una popolazione e un campione "grandi"
n
s
Nn
sx 

, per un campione piccolo.
n N1
Abbiamo già visto che l’intervallo
x – 2 sx  m  x + 2 sx
ha la probabilità (circa) dello 0,952 di contenere la media m.
L’aspetto inferenziale: proposte didattiche
L’idea consiste nel far variare il coefficiente 2:
mettiamo al suo posto la lettera z e poi calcoliamo.
x – z sx  m  x + z sx
–z s x  m  x  z s x
z s x  x – m  –z s x
–z s x  x – m  z s x
m  z s x  x  m  z sx
L’intervallo cercato è quindi:
m  z s x ; m  z s x 
La sua ampiezza dipende da z, che a sua volta dipende dal
rischio a (o dal grado di fiducia 1–a).
L’aspetto inferenziale: proposte didattiche
Per una popolazione “grande” (infinita) e un suo
campione di dimensione n sufficientemente grande,
l’intervallo si traduce in:

s
s
; x z 
x  z

n
n
che significa:

zs
z s
P m 
 x  m
  1 a

n
n
Se la popolazione è distribuita normalmente, z si ricava
dalle tavole della distribuzione normale.
L’aspetto inferenziale: proposte didattiche
Illustrazione grafica:
Il rischio a va distribuito equamente tra le due aree
estreme. Il valore z da leggere è
l’ascissa corrispondente alla probabilità 1 a
2
L’aspetto inferenziale: proposte didattiche
Esempio
i) Vogliamo determinare l'intervallo, centrato sulla media
della popolazione m0,90 con s=0,06, nel quale la media del
campione ha la probabilità 68,3% di situarsi
1 0,683
0,683 
 0,8415
2
lettura


z 1
Intervallo cercato (detto intervallo di confidenza):

0,06
0,06 
; 0,90  1
0,90 1 
  0,894 ; 0,906

100
100 


L’aspetto inferenziale: proposte didattiche
ii) Vogliamo determinare l'intervallo, centrato sulla media di
una popolazione m=0,90 con s=0,06, nel quale la media del
campione ha la probabilità 95,4% di situarsi.
1 0,954
0,954 
 0,977
2
lettura


z  1,9954
Intervallo di confidenza:

0,06
0,06 
; 0,90  1,9954 
0,90 1,9954 
  0,888 ; 0,912

100
100 


L’aspetto inferenziale: proposte didattiche
Problema 4: Stima della media
Il proprietario di una panetteria desidera conoscere una
stima del numero medio di panini bianchi venduti
quotidianamente, con un grado di fiducia del 92%.
Per poterlo aiutare ci siamo procurati i dati relativi agli
ultimi 90 giorni che consideriamo come popolazione di
valori osservati.
Eccoli.
L’aspetto inferenziale: proposte didattiche
881 1049
880 721
800 812
992 818
1013 992
967 832
971 946
842 672
648 903
888 959
751 973
753 1003
924 670
995 983
1009 606
688 854
806 927
841 1017
791
799
925
832
687
812
874
774
884
787
853
951
1034
540
926
982
919
781
788
951
769
650
832
690
772
844
865
910
992
648
884
990
1018
683
824
986
928 554
667 899
888 767
857 874
869 823
956 1050
977 1044
676 847
947 642
(Dato che siamo in situazione di apprendimento, possiamo
calcolare la media m della popolazione: m=854, che
teniamo in memoria.)
L’aspetto inferenziale: proposte didattiche
Vogliamo estrarre casualmente un campione di dimensione
35 e, supponendo di non conoscere la media della
popolazione, costruire il relativo intervallo di confidenza
che stimi la media con un grado di fiducia del 92%. Si
potrà allora costatare se la media della popolazione
(calcolata segretamente) starà o no nell’intervallo costruito.
Dati a disposizione
Dimensione della popolazione:
Scarto della popolazione:
N = 90
s = 122 (dato”storico”)
Dimensione del campione estratto :
Media del campione:
n = 35
x  862
L’aspetto inferenziale: proposte didattiche
Errore standard della stima:
s
N  n 122
90  35
sx 



 16.21
90  1
n N1
35
Grado di fiducia:
0,92

1 0,92
0,92 
 0,96
2
lettura


z a 2  1,75
Intervallo di confidenza (stima della media m): [834 ; 890]
Ciò significa che, secondo i nostri calcoli, la media
sconosciuta della popolazione è compresa tra 834 e 890.
Segretamente avevamo calcolato m = 854, dunque il
campione scelto ha dato una buona stima.
L’aspetto inferenziale: proposte didattiche
Vogliamo infine estrarre casualmente un campione di
dimensione 15 e fare la stessa stima di prima. Il campione è
piccolo, quindi occorre usare l’errore standard modificato e
leggere il valore z sulle tavole di Student (indicato con t).
Estremi dell’intervallo di confidenza:
N n
s
x  ta 2  sX  x  ta 2 

N1
n
Dimensione del campione estratto :
Media del campione:
n = 15
x  886
L’aspetto inferenziale: proposte didattiche
Errore standard: s x
s
N  n 122 90  15




 28.92
90  1
n N1
15
per Student
 a  1 0,92  0,08
Grado di fiducia: 0,92 
Gradi di libertà:   15 1 14
Student

t a  1,8875
Intervallo di confidenza (stima della media m):
[886 – 1,8875 · 28,92 ; 886 + 1,8875 · 28,92] = [831 ; 940]
È ancora una buona stima (contiene m = 854), ma
l’intervallo è più ampio del precedente, quindi la stima è più
grossa).
L’aspetto inferenziale: proposte didattiche
Problema 5: Test delle ipotesi
Si sa che il ritmo cardiaco medio a riposo di un atleta
giovane è di 72 battiti al minuto. Si è misurato il ritmo
cardiaco di 36 giovani atleti e si è ottenuto una media 69.4
con uno scarto di 9.
Si sa che la variabile aleatoria che descrive il ritmo cardiaco
si distribuisce normalmente.
Si vuole testare l'ipotesi che il ritmo cardiaco medio dei
giovani atleti sia ancora di 72 battiti al minuto, con un livello
di significatività di 0.08.
L’aspetto inferenziale: proposte didattiche
Ipotesi del test H0: m = 72 (battiti al minuto)
Rischio:
0,92

1 0,92
0,92 
 0,96
2
lettura


z a 2  1,75
Popolazione “infinita”, normalmente distribuita.
Dimensione del campione:
Media del campione:
Scarto del campione:
n = 36
69.4 (battiti al minuto)
9 (battiti al minuto)
L’aspetto inferenziale: proposte didattiche
sn1
9

 1,5
Errore standard della stima: s x 
n
36
Rischio:
0,92

1 0,92
0,92 
 0,96
2
lettura


z a 2  1,75
Estremi dell'intervallo di confidenza: 69,4 ± 1,75 · 1,5
Intervallo di confidenza: [66,775 ; 72,025]
72 è incluso, quindi l’ipotesi è accettata.
L’aspetto inferenziale: proposte didattiche
Illustrazione grafica:
Con un rischio dell’8%, possiamo accettare l’ipotesi che il
battito cardiaco medio di un atleta sia di 72 battiti al
minuto, anche se il campione ha dato il valore 69,4.
Scarica