statistica 2011-12 - Dipartimento di Matematica

L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
LA STATISTICA
PREREQUISITI. Insiemi, numeri, funzioni, sistemi lineari, grafica.
SCOPI. Presentare nozioni di base della statistica.
PR E MESS A.
Il contenuto di queste pagine riporta, con alcune risistemazioni e qualche
integrazione e correzione, il contenuto delle lezioni di Statistica tenute nell’anno accademico
2011/12 come modulo di 2 crediti dell’insegnamento di Matematica, Statistica ed Informatica del I
anno della laurea triennale in Scienze Naturali. Lo stesso modulo è stato mutuato una tantum dagli
allievi del II anno, come modulo di 3 crediti dell’insegnamento di Genetica e Statistica.
Negli anni passati, infatti, questo modulo non era collegato all’insegnamento di Matematica
e Statistica, ma a quello di Genetica. L’averlo caricato per motivi di riassetto dovuto alla legge
Gelmini, sul mio insegnamento di Matematica mi ha costretto ad organizzare in tre mesi una
disciplina largamente estranea ai miei interessi e sulla quale non avevo alcuna competenza né
preparazione universitaria, ma solo un uso occasionale di nozioni di base. Questo è il motivo delle
lacune anche importanti (il test t di Student, le distribuzioni bimodali, ecc.) e la presenza di alcune
dimostrazioni di formule mediante integrazioni dei contenuti matematici, forse non necessarie e
comunque non assimilate dagli allievi. Manca inoltre l’attività di laboratorio, eliminata anche a
causa dello spropositato numero di allievi (circa 400 tra I e II anno), ben superiore alle medie di 60
allievi al massimo negli anni precedenti.
INDICE:
Introduzione: che cos’è Statistica?
p. 2
§1
Le rappresentazioni grafiche dei dati
p. 4
§2
Medie e indici di dispersione
p. 13
§3
Correlazione fra serie di dati
p. 21
§4
Probabilità e Statistica: il caso discreto
p. 35
§5
Probabilità e Statistica: il caso continuo
p. 50
§6
Esercizi
p. 55
Bibliografia
p. 72
1
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
INT ROD UZIONE: CHE C OS’È L A STATIST ICA ?
Secondo il poeta romano Trilussa, la Statistica è quella cosa per cui se tu mangi due
polli ed io nessuno, abbiamo mangiato un pollo a testa.
Un po’ di ragione Trilussa l’aveva: la Statistica non si occupa dei casi singoli, ma
cerca di descrivere che cosa succeda in generale.
In quasi ogni attività umana si tratta di:
•
raccogliere dati o informazioni,
•
cercare di organizzarli, per capire come funziona ciò che stiamo esaminando,
•
al fine di servircene per formulare leggi, fare previsioni, e poter acquisire più
conoscenza, guadagnare più denaro o spenderne di meno, ottenere più benessere ,
salute o potere.
Ogni Scienza può essere usata per fini positivi, di progresso globale, ma anche per fini negativi,
subdoli. La Statistica non fa eccezione. Spesso le statistiche sono manipolate per fini propagandistici,
elettorali, o per far compiere ai cittadini azioni che normalmente non si sognerebbero di fare.
Chi raccoglie i dati e li organizza può influenzare, consapevolmente o no, i risultati
ottenuti. Vediamo due esempi per chiarire questo punto delicato:
a)
In Fisica si riflette su come si possano
misurare certe grandezze, e come sia
necessario ripetere più volte una misura, per ovviare agli errori casuali. In
qualche caso, l’atto del misurare può modificare il fenomeno: una barretta di
metallo afferrata per confrontarla col metro un po’ si allunga a causa del calore
della nostra mano, o si incurva, ecc.
b)
Il nostro Corso di Laurea invia un questionario ai suoi laureati, chiedendo loro
se sono stati soddisfatti degli studi e del loro esito. Risponde un certo numero
di ex allievi, l’80% dei quali afferma di essere soddisfatto. Si può essere
contenti? La quasi totalità delle risposte è positiva! O no? Non è che hanno
risposto soprattutto quelli soddisfatti? Il campione è davvero significativo?
2
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Scopo di questo corso non è l’analisi del modo con cui i dati sono raccolti. Qui i dati
sono arrivati, ed ora che ce ne facciamo? Come li organizziamo? Come li rappresentiamo?
Neppure questa è un’attività “neutra”, oggettiva: il modo di rappresentare i dati può
essere usato per fuorviare il giudizio dei destinatari delle informazioni.
ES E MPI O 1. Nei due grafici qui sotto, quale delle due rette è più “ripida”?
In realtà, si tratta della stessa retta, di equazione y = x , ma nel primo caso l’unità di
misura nei due assi è la stessa, mentre nel secondo caso l’unità di misura sull’asse x è
doppia di quella sull’asse y e la retta sembra avere
! una pendenza inferiore.
L’effetto visivo è ben diverso nei due grafici.
ES E MPI O 2 : rappresentazione a istogramma della tabella:
x
0
1
2
3
4
5
6
7
8
y 100 102 100 98 96 94 96 100 98
!
Potrebbe essere il valore di una quota di un’obbligazione nei vari mesi dopo
l’acquisto.
• Nel primo grafico, la scala sull’asse verticale va da 0 a 110;
• Nel secondo, il tratto continuo va da 93 a 104, ossia è mostrata solo la parte alta delle
colonne.
L’impressione nel primo caso è di lievi fluttuazioni, mentre nel secondo è di grande
instabilità.
3
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
§1. LE RAPPR ESE NTAZIONI GR AFICHE DE I D ATI.
Ce ne sono di vario tipo, e basta aprire un giornale economico o un atlante per rendersene
conto.
A)
I diagrammi a canne d’organo e istogrammi. Sono grafici in cui compaiono rettangoli
appoggiati sulla stessa retta e con altezze differenti.
• Nel primo caso, le basi sono tutte uguali e sono le altezze a rappresentare i dati.
• Nel secondo, le basi possono essere diverse e i dati sono rappresentati dalle aree.
Esempio di diagramma a canne d’organo separate:
I 35 anni dal 1975 al 2010 sono qui indicati col loro numero progressivo. In ordinata i
metri cubi consumati.
L’asse delle x può riferirsi anche ad insiemi di dati non numerici, quindi collocati in
ordine arbitrario.
ESEMPIO tratto da un bilancio preventivo condominiale:
Spese
Spese
Spese
Spese
Spese
Spese
Spese
amministrative
di manutenzione
comuni
di riscaldamento
per gli ascensori
individuali
straordinarie
3.000,00
14.600,00
39.200,00
203.000,00
14.000,00
3.040,00
79.000,00
4
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
NOTA. Quando le grandezze x cui si riferiscono i dati y sono di tipo numerico, l’uso di istogrammi in cui i
rettangoli hanno basi diverse può servire per conglobare lunghe serie di dati x con valori molto bassi della y.
In tal caso, i dati y sono espressi dalle aree e non dalle altezze.
B) Diagrammi a settori o “a torta”. Si usano soprattutto per evidenziare i rapporti
percentuali fra un numero limitato di dati positivi rispetto al totale. L’esempio del
preventivo condominiale si presta bene allo scopo:
•
Le percentuali sono qui arrotondate agli interi.
•
La loro somma è 100 (o dovrebbe esserlo).
•
Il vantaggio di questo diagramma è evidenziare i dati con l’incidenza maggiore,
ossia, in questo caso, le voci “riscaldamento” e “straordinarie”.
5
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
C) Diagrammi cartesiani. Si usano quando i dati x ed y sono numerici. Rispetto ai
diagrammi a colonna, è possibile interpolare i punti (x,y) congiungendoli con segmenti,
ammesso che ciò abbia qualche senso.
Es e mp io: andamento del costo al metro cubo dell’acqua dagli anni 1975 al 2010 (con costi
tradotti in euro).
Gli anni sono numerati da 1 a 35, ed il costo unitario medio annuo (ottenuto dividendo la
spesa per il consumo) è rappresentato dai rombi. La variazione da un anno all’altro è
mostrata dai segmenti che uniscono punti consecutivi.
Alcuni software, tra cui Excel, mettono a disposizione altri tipi di grafici, anche
personalizzati.
Es e mp io: un istogramma 3D rappresenta due serie di dati, riferiti ad una fattoria che negli
anni ha variato il numero di tipi di animali in suo possesso.
1975
1976
1977
1978
1979
1980
1981
1982
cavalli
2
3
4
2
3
3
2
1
mucche
8
10
8
12
10
9
8
6
pecore
20
23
25
22
26
20
22
15
6
conigli
26
20
26
24
25
20
22
15
galline
30
28
32
35
30
24
24
20
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
C’è il rischio di non vedere dati nascosti da altri più alti.
D)
Ideogrammi. Un modo più buffo di rappresentare dati è usare degli ideogrammi, uno
per ogni unità.
Ma se i dati non sono interi, come si fa a rappresentarli? Inoltre, poiché ad occhio si
distinguono solo tre o quattro oggetti, se non si va a contarli una valutazione quantitativa
può essere difficoltosa.
Es e mp io: ecco un ideogramma, che mostra il numero di aerei posseduti da una compagnia
negli anni indicati.
1990
11
✈
1995
14
✈✈
2000
15
✈✈
2005
8

Senza la tabella della seconda colonna, il diagramma suggerirebbe un andamento di
massima del numero di aerei.
7
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Dal 2009
al 2010
un
allevamento
ha
raddoppiato la sua produzione di conigli e lo
mostra col seguente ideogramma. Lo fa
correttamente?
NO.
Le
dimensioni
del
coniglio
sono
raddoppiate, ma l’area è quadruplicata e
l’impressione visiva è falsata.
ESERCIZIO: La seguente tabella riporta il saldo medio del conto corrente di un condominio,
alla fine di ogni mese:
mese
avanzo
Gen.
mese
avanzo
63.000
Feb.
39.000
Mar.
11.000
Apr.
34.000
Mag.
2.000
Giu.
-20.000
Lu.
34.000
Ago.
21.000
Sett.
7.000
Ott.
69.000
Nov.
56.000
Dic.
19.000
Quale tipo di rappresentazione grafica scegliereste per rappresentare questa tabella di dati?
Risposta:
tipo
Istogramma
risposta
cSÌc
Torta
cNOc
Grafico
cartesiano
Con
ideogrammi
Perché no?
Alcuni dati negativi e
dati non simultanei
cSÌc
cNOc
I dati non sono oggetti
concreti
Ecco due possibili rappresentazioni:
un diagramma a canne d’organo separate e un
grafico cartesiano coi punti congiunti da segmenti.
8
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
PR OB LE MA: consideriamo tutti i numeri decimali compresi tra 0 ed 1, con un numero
prefissato n di cifre decimali (zeri compresi). Di questi, quanti ne possiamo scrivere senza
usare la cifra 1? Quasi tutti? La maggior parte?
Con una cifra decimale abbiamo 10 numeri:
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
Di questi, ben nove su dieci si scrivono senza la cifra 1, il 90% del totale.
Con due cifre decimali, da 0,00 a 0,99 ci sono 100 numeri: esclusa la cifra 1, abbiamo nove
cifre disponibili per i decimi e altrettante per i centesimi: perciò 9 " 9 = 81 numeri senza la
cifra 1. Elenchiamo gli altri 19:
0,01
0,10
0,11
0,12
0,13
0,14
0,15
!
0,16
0,17
0,10
0,21
0,31
0,41
0,51
0,61
0,71
0,81
0,91
0,18
Poiché abbiamo 81 numeri su cento senza l’1, la percentuale è 81%.
Con tre cifre decimali: 1000 numeri, di cui 9 " 9 " 9 = 93 = 729 senza la cifra 1. Dunque, siamo
scesi al 72,9% senza la cifra 1.
Per una formula generale, ragioniamo
! così:
• 9 casi su 10 sono rappresentabili con la frazione
" 9 %2
81
= $$ '' ;
100 #10 &
!
" 9 %3
729
= $$ '' .
• 729 casi su 1000 con la frazione
1000 #10 &
!
9
10
;
• 81 casi su 100 con la frazione
" 9 %n
Si può intuire che i numeri con n ≥ 1 cifre decimali senza nessun 1 siano $$ '' = 0, 9n .
#10 &
!
La tabella seguente ne illustra alcuni valori in percentuale
n
%
1
90,0%
2
81,0%
3
72,9%
4
65,6%
5
59,0%
6
53,1%
7
47,8%
8
!
43,0%
9
38,7%
10
34,9%
I valor i so no arroto nda t i a lla
prima cifr a d ecimale. Co n se tte
cifre dec imali i n u mer i s enza
la c ifra 1 sono g ià meno de lla
me tà.
9
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Dal
diagramma
a
colonne
al
grafico
di
una
funzione.
Per
rappresentare
più
convenientemente i dati è utile descriverli mediante una funzione “matematica” scelta
opportunamente. Un passaggio intermedio è l’uso di un diagramma cartesiano per
rappresentare gli stessi dati. Vediamo l’esempio precedente:
" 9 %x
Di qui si può passare al grafico della funzione esponenziale y = $$ '' , che collega i dati in
#10 &
modo “naturale”.
!Il grafico è qui eseguito con la
calcolatrice TI-92 Plus, ed è
dimetrico per comodità, con
0 " x " 40 . Esso suggerisce che il
numero di numeri decimali senza
!
la cifra 1 tende a zero al tendere
all’infinito del numero x delle cifre
decimali.
Vediamo un altro esempio, di carattere combinatorio: il trian golo arit me t ico (o di
Tart ag lia )
"n %
n!
• Contiene i coefficienti binomiali $$ '' =
, che sono tutti numeri naturali.
#k & k!( n ) k !
(
)
• La prima colonna (k = 0) è sempre 1.
• Se k > n viene sempre 0. !
"n %
• Ogni termine con n, k > 0 è somma dei due che lo sovrastano: $$ '' =
#k &
• La somma di ogni riga è una potenza di 2.
• Fornisce i coefficienti dello sviluppo delle potenze di a+b.
!
10
"n - 1% "n - 1%
$$
'' + $$
'' .
#k - 1& # k &
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
n\k
0
1
2
3
4
5
6
7
8
0
1
0
0
0
0
0
0
0
0
1
1
1
0
0
0
0
0
0
0
2
1
2
1
0
0
0
0
0
0
3
1
3
3
1
0
0
0
0
0
4
1
4
6
4
1
0
0
0
0
5
1
5
10
10
5
1
0
0
0
6
1
6
15
20
15
6
1
0
0
7
1
7
21
35
35
21
7
1
0
8
1
8
28
56
70
56
28
8
1
(gli zeri non li ho messi per comodità). Per n = 5 si ha:
5
(a + b)
= a5 + 5a 4 b + 10a3b2 + 10a 2b3 + 5ab4 + b5
Ecco una traduzione visiva del triangolo di Tartaglia al variare dell’esponente da 0 a 6, con
!
grafici 3D e cartesiano:
11
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Sovrapponiamo ora i grafici per n = 6, eseguiti con la TI−92 Plus, insieme con un modello di
quei dati:
Istogramma a canne unite
Diagramma cartesiano, ottenuto unendo i
punti
medi
delle
basi
superiori
rettangoli
La funzione interpolante:
( )
#3" x#3
y = 20 " e
è una campana di Gauss.
!
Qualcosa di simile accade per le altre righe del triangolo di Tartaglia.
Che significato hanno i numeri 20, 3, -3/10 che compaiono in questa funzione?
12
2
10
dei
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
§2. MED IE E INDIC I D I DISPE RSIONE
1
Dati n numeri reali x1, x2, ...., xn , si chiama media aritmetica il numero: µ =
n
n
" xi .
i=1
Esempio II.1. Siano date le tre liste seguenti:
(1)
7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9
(2)
4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9, 10, 10, 11, 11, 12
(3)
32, 0, 0, 0, 0, 15, 0, 15, 17, 0, 17, 0, 0, 32, 0, 0
!
In tutti e tre i casi si ha n = 16 e µ = 8.
Spesso degli n dati solo r sono distinti e molti compaiono più volte. Se il dato xi compare fi
volte, il numero fi si chiama frequenza assoluta (o peso) del dato xi.
Il rapporto
fi
n
si chiama frequenza relativa del dato xi.
r
La somma delle frequenze assolute è
i=1
!
La media µ =
" fi = n .
1
n
r
r $
'
# (f i " x i ) = # && fn " x i ))
i=1
i=1!%
i
è detta media ponderata dei dati.
(
Esempio
II.1 (seguito). Determiniamo le frequenze dei dati nelle tre liste e fabbrichiamo tre
!
tabelle con due righe: nella prima mettiamo i dati distinti e nella seconda le loro frequenze.
Poi rappresentiamo con istogrammi le tre situazioni:
dati
7 8 9
frequenze 5 6 5
5 + 6 + 5 = 16
!
!
µ=
7 "5 + 8 " 6 + 9 "5
=8
5+ 6 +5
!
13
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
4
5
6
7
8
freq.
1
2
2
2
2
dati
9 10 11 12
freq.
2
dati
2
dati
0
freq.
10
2
1
15 17 32
2
2
2
Esempio II.2. In Geometria Analitica ed in Fisica la media aritmetica e la media ponderata
hanno interpretazioni in termini di baricentro di un insieme di punti.
A)
(
Siano A = x1, y1
)
(
)
e B = x2, y2 . Il punto medio dei
"x + x y + y %
2, 1
2 ' , che ha la media
due punti è D = $$ 1
'
2
2
#
&
!
!
aritmetica delle coordinate di A e B.
!
Sia
(
)
C = x3, y3 un
altro
punto.
baricentro
Il
del
triangolo
ABC
è
"x + x + x y + y + y %
2
3, 1
2
3 ' , che ha per coordinate la media aritmetica delle coordinate
G = $$ 1
'
3
3
#
&
!
dei tre punti A, B, C.
!
B)
(
)
Dati r punti distinti A i = x i , y i , 1 " i " r , se in A i è collocata una massa m i , il
( )
baricentro del sistema di punti ha coordinate G = x, y , dove x ed y sono le medie
ponderate delle!coordinate degli r punti:
r
x=
# m i " xi # m i ,
i=1
!
r
!
i=1
!
!
r
y=
14
r !
# m i " yi # m i
i=1
!
!
i=1
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
APRIAMO UNA PARENTESI. I punti nel piano cartesiano si rappresentano come coppie
ordinate (ossia liste di lunghezza 2) di numeri reali: per questo il piano cartesiano si indica
anche con R×R, o meglio con R2 .
Nello spazio ordinario, per individuare un punto occorrono tre numeri. Ossia, ogni punto P
dello spazio si rappresenta
come una terna ordinata (ossia una lista di lunghezza 3):
!
P = x, y, z . Lo spazio cartesiano si indica allora con R3.
(
!
)
Nulla vieta di considerare più in generale l’insieme Rn delle liste di lunghezza n o n-uple
!
ordinate. I suoi elementi sono detti anche punti o vettori ed hanno la forma
(
)
A = a1, a 2, K, a n .
!
Su questi punti possiamo eseguire delle operazioni:
!
(
)
Somma di punti: se B = b1, b2, K, bn , allora:
A + B = a1 + b1, a 2 + b2, K, a n + bn " Rn
(
)
Prodotto di un
! numero k per un punto:
k " A = k " a1, k " a 2, K, k " a n # Rn
(
!
)
Prodotto scalare di punti:
(
)
A " B = a1 # b1 + a 2 # b2 + K + a n # bn $ R
!
Il prodotto scalare di due punti è un numero e non un punto
!
Perché i punti di Rn li chiamiamo vettori?
(
)
Per cominciare, il punto O = 0, 0, K, 0 lo chiameremo origine o vettore nullo.
!
Il punto A = a1, a 2, K, a n ≠ O lo identificheremo col
!
"
(
)
vettore OA
!
!
D = A+B corrisponde alla somma
"
" "
OD = OA + OB con la
legge del parallelogramma:
!
15
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
E = k⋅A corrisponde al prodotto
"
"
OE = k # OA :
E è sulla retta OA;
!
OE = k " OA .
!
Il teorema del coseno assicura che il numero A " B è proprio il prodotto scalare:
" "
OA#OB = OA $OB $cos(AÔB)
!
!
Che ce ne facciamo di questi vettori di Rn ?
Queste operazioni consentono di estendere la Geometria anche a dimensioni maggiori di 3,
che non riusciamo ad immaginare.
!
L’idea risolutiva è che, aumentando il numero di coordinate, basta allungare le formule.
(
)
(
)
Siano A = a1, a 2, K, a n , B = b1, b2, K, bn . Vediamo la distanza AB tra di essi per n = 1, 2,
3, …
!
a)
n = 1: AB = a1 " b1 =
!
(a1 " b1)
2
!
2
2
2
2
b)
n = 2: AB =
!
(a1 " b1) + (a 2 " b2)
c)
n = 3: AB =
!
(a1 " b1) + (a 2 " b2) + (a3 " b3)
n
d) n ≥ 1: AB =
!
# (a i " b i )
2
2
i=1
ES E MPI O I I.3 Dati A = 5, 4, "1, 0 , B = -5,1, "3, 4 # R4 , si ha:
(
!
A + B = 0, 5, "4, 4 ;
(
!
!
)
(
)
)
(
)
3 " A = 15,12, #3, 0 ;
!
!
A " B = 5 # $5 + 4 #1 + $1 # $3 + 0 # 4 = $18 ; AB =
!
( )
2
2
2
(5 + 5) + (4 " 1) + ("1 + 3) + (0 " 4)
( )( )
2
= 129
!
Ciò posto, possiamo reinterpretare
in modo diverso alcuni fatti già visti:
1
" A +B
2
(
)
a)
Il punto medio di AB è D =
b)
Il baricentro di ABC è G =
c)
!
La media ponderata è il prodotto scalare X×F del vettore X = x1, x2, K, x r
1
" A +B+C
3
(
)
(
!
"f f
f %
dati distinti per il vettore F = $$ 1 , 2 , K, r '' delle loro frequenze relative.
n&
#n n
!
16
!
)
dei
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Che vantaggio c’è?
•
Il vedere un concetto da diversi punti di vista aumenta la difficoltà, ma anche la sua
comprensione.
•
Certi concetti appaiono oscuri se visti in un modo, ma chiari se visti in modo diverso.
•
Per qualcuno di noi un concetto è più facile da capire se visto in un certo modo; per
un altro di noi è preferibile una strada diversa.
•
In realtà, lo scopo di introdurre i vettori in questo corso si vedrà nel capitolo sui
modelli statistici, perché mediante semplici considerazioni geometriche, note dallo
spazio ordinario, ma trasferite in ambiente n-dimensionale, si potranno giustificare
certe formule.
:Altr i ind ic i di med ia: :
- La mediana di dati ordinati in senso non decrescente, è il dato che occupa il posto
centrale (se n è dispari) o la media aritmetica dei due centrali (se n è pari).c Non è
influenzata da un dato troppo piccolo o troppo grande rispetto agli altri.
- La media geometrica di n dati positivi è la radice n− esima del prodotto dei dati:
n x " x " L x . Rispetto alla media aritmetica, è talora preferibile se i dati crescono in
1 2
n
modo esponenziale.
!
- La moda è ogni dato con la frequenza maggiore. Si usa anche per dati non numerici.
Questo termine è di uso corrente anche nella vita quotidiana.
- La media armonica di n dati positivi è il reciproco h del numero
1 1
= "
h n
n
# x1k , ossia della
k=1
media aritmetica dei reciproci dei dati. Si usa raramente; esempi si trovano in
Elettrotecnica.
!
ES E MPI O I I.4. Immaginiamo di voler determinare lo stipendio medio annuo netto dei
dipendenti di un maglificio.Il direttore guadagna 150.000
l’anno; i tre impiegati
20.000 , i trenta operai 15.000 , i quattro fattorini solo 10.000 .
La media aritmetica (ponderata) è:
1 "150.000 + 3 "20.000 + 30 "15.000 + 4 "10.000
# 18.421
1 + 3 + 30 + 4
17
!
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
La moda e la mediana sono invece uguali a 15.000 .
Rispetto alla media aritmetica, forse quest’ultima media rappresenta meglio la situazione
degli stipendi.
ES E MPI O I I.5 . Per dati a crescita rapida, il dato più alto sposta la media aritmetica troppo
verso l’alto. Vediamo un esempio con i seguenti 7 dati a crescita esponenziale.
dati
Log
6
0,77815
12
1,07918
24
1,38021
48
1,68124
96
1,98227
192
2,28330
384
2,58433
La media aritmetica è circa 108,85, la mediana e la media geometrica valgono 48.
NOTA. In mancanza di strumenti di calcolo, si preferiva un tempo calcolare i Logaritmi dei
dati, farne la media aritmetica m = 1,68124 e poi calcolare 10m = 48 .
!
.INDI CI DI DIS P ERS I ONE.
Nelle tre liste dell’Esempio II.1 i dati sono disposti in modo diverso intorno alla loro media
aritmetica: nel primo caso sono più “uniformi”, nel terzo sono molto “sparpagliati”. Ci sono
vari modi per misurare la loro dispersione.
Il primo che viene in mente è l'intervallo di variazione d, cioè la differenza fra il massimo
ed il minimo dei dati.
Spesso non è significativo, perché influenzato da un eventuale dato troppo grande o troppo
piccolo rispetto agli altri.
Si usa quando interessa l'ampiezza massima assoluta di oscillazione dei dati.
ES E MPI O I I.6. Nel 1975 un metro cubo di acqua costava a Bologna 98,56 lire ( 0,0509);
nel 2007 è costato
1,6048 (3.107,32 lire). La variazione è stata di 1,5539
in più in 32
anni; un aumento, quindi di oltre 30 volte (il 3052,85% in più) in 32 anni.
In generale, però non è questo l’indice che interessa, ma serve sapere come i dati si
distribuiscano rispetto alla loro media.
Se calcoliamo semplicemente la somma delle differenze x i " µ troviamo come risultato 0
(basta fare il conto).
!
18
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Potremmo in alternativa calcolare
1
n
n
# x i " µ , media dei valori assoluti delle differenze dei
i=1
dati rispetto alla media aritmetica. Questo è un indice ragionevole, ma poco usato.
n
!
$ (x i # µ)
L’indice di dispersione usato di solito è lo scarto quadratico medio " =
i=1
n
2
,
chiamato anche deviazione standard.
Spesso
il
n
# (x i " µ)
2
quadrato
di
viene
σ
varianza
chiamata
!
(globale),
ed
il
numeratore
= n $ % 2 è detto talora devianza.
i=1
!
(
NOTE : a) Sia X = x1, x2, K, xn
) il vettore dei dati e sia M = (µ, µ,K, µ) = µ " (1,1,K,1) il vettore
con le n coordinate uguali alla media aritmetica µ. Allora " =
!
!
1
n
# XM .
Ossia, σ misura la distanza geometrica dei dati rispetto alla media, resa indipendente dal
numero dei dati mediante la divisione per
n.
!
b) Lo scarto quadratico medio si calcola anche in un altro modo: sviluppiamo i quadrati,
!
1
ricordiamo che µ =
n
ottiene: " =
!
1
n
n
" x i e che
i=1
1
n
n
" µ2 = n1 # n # µ2 = µ2 . Allora, con qualche
passaggio si
i=1
n
# x i 2 $ µ2 . !
i=1
c) Quando si ha solo un campione dei dati e a partire da quello si vogliono fare delle stime
sull'insieme
di tutti i dati, come indice di dispersione si usa la varianza stimata, ossia la
!
n
# (x i " µ)
devianza divisa per n-1: v = k=1
n "1
2
.
Riprendiamo i tre
! esempi iniziali, ossia:
(1)
7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9
(2)
4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9, 10, 10, 11, 11, 12
(3)
32, 0, 0, 0, 0, 15, 0, 15, 17, 0, 17, 0, 0, 32, 0, 0
Riassumiamo nella tabella seguente i parametri principali: medie e indici di dispersione.
19
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
tipo
n
µ
d
σ
v
(1)
16
8
2
0,79
0,666
(2)
16
8
8
2,345
5,866
(3)
16
8
32
11,325
136,8
OSSERVAZIONE. A) In molte situazioni che interessano la biometria, si trovano liste di dati (per esempio i pesi di
maschi adulti di una specie animale, o le lunghezze dei loro femori), nelle quali la media aritmetica, la mediana e la
moda approssimativamente sono uguali. In questo caso, il modello matematico che descrive le frequenze rappresentate
negli istogrammi è una curva a campana detta “gaussiana”, che ritroveremo più oltre. La media corrisponde al punto di
massimo del suo grafico, mentre σ indica quanto sia “bassa e larga” oppure “alta e stretta” la curva: ne riparleremo.
In altri casi, che interessano soprattutto il campo medico, ma anche quello ecologico, si confrontano la media aritmetica
e la varianza, per valutare se sono circa uguali, ossia se il loro rapporto è prossimo ad 1 oppure no. Anche di questo
riparleremo più oltre.
B) Alcuni software, per esempio il Data/Matrix Editor della calcolatrice TI-92 Plus, forniscono per una lista di dati
numerici: il minimo e il massimo (ossia l’intervallo di variazione), la media aritmetica, la varianza stimata (o la
deviazione standard), la somma dei dati, la somma dei loro quadrati, la mediana, il primo ed il terzo quartile, ossia le
mediane dei dati minori o rispettivamente maggiori della mediana. Anche questi ultimi sono utili per comprendere la
dispersione, soprattutto quando i dati sono tanti. In compenso, di solito non è agevole avere la lista delle frequenze
assolute o relative dei dati.
Nelle figure qui accanto vediamo la lista n° 2 dell’esempio
precedente, memorizzata nella colonna c1 di un documento
sulla TI-92 Plus. L’apposita funzione fornisce la media
aritmetica x , la somma dei dati, la somma dei loro
quadrati, il numero Sx =
v , il numero totale dei dati, il
minimo,
il primo quartile, la mediana o secondo quartile, il
!
terzo quartile, il massimo dei dati.
!
Osserviamo che dal dato Sx, per ricavare σ occorre moltiplicare per
!
20
n "1
15
=
# 0, 968.
n
16
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
§3. CORRELAZIONI FRA SERIE DI DATI
Spesso accade di confrontare fra di loro due o più serie di dati, al fine di stabilire se vi sia
una qualche correlazione fra di essi. Ma attenzione ad interpretare correttamente il
risultato del confronto!
Per esempio, se si esaminano dal 1950 al 1970:
A)
l’andamento delle vendite di lavatrici
B)
l’immatricolazione di automobili,
C)
il numero delle vittime in incidenti stradali,
si nota che tutti e tre i dati aumentano.
Ossa, il legame fra le grandezze A e B è una funzione crescente; lo stesso fra A e C; lo stesso
fra B e C.
Possiamo concludere che vi sia un qualche legame di causa-effetto? Ossia,
Più lavatrici causano più automobili? O viceversa?
Più lavatrici causano più vittime della strada? O viceversa?
Più automobili causano più vittime della strada? O viceversa?
Sembra poco ragionevole soprattutto la seconda implicazione, in entrambi i versi. La terza
sì che potrebbe mostrare un legame causa – effetto.
Qui non studiamo come interpretare i dati di due grandezze variabili x ed y, ma come
determinare una funzione y = f(x) che descriva al meglio la loro compresenza, ossia
fornisca un modello matematico semplice per le coppie (x, y) di dati.
Sia dato un certo fenomeno, che coinvolge due grandezze variabili x ed y o l'una in
dipendenza dell'altra o misurate contemporaneamente.
Eseguendo n esperimenti con le modalità
opportune,
(
si
ottengono
) (
n
coppie
)
ordinate x1, y1 ,K, xn , yn .
Ordiniamo le coppie in modo che sia
x1
! " x2 " K " xn .
!
x
x1
x2
L
xn
y
y1
y2
L
yn
Ciascuna di esse corrisponde ad un punto del piano cartesiano, ed è quindi possibile
!
visualizzare graficamente i dati ottenuti.
21
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Quando i dati x sono tutti diversi, è utile e spesso necessario, cercare di
rappresentare i punti (x, y) con una formula del tipo y = f(x), cioè con una funzione definita
in un intervallo contenente tutti i dati x1, x2,K, xn e tale che per ogni i, 1 " i " n , si abbia
f(xi ) ≈ yi.
! sarà un polinomio. Il
Si cerca cioè un modello matematico
dei dati, che, quando possibile,
!
criterio che si segue è quello della semplicità, per cui raramente si usa il "polinomio
interpolatore", ossia il polinomio di grado minimo p x = a 0 + a1x + a 2x2 + K + a n"1xn"1, tale
()
( )
che p x i = y i per ogni i, a causa del suo grado elevato.
! i ) per poter usare polinomi di grado assai più
Si rinuncia quindi all'uguaglianza tra yi ed f(x
!
basso.
Ecco un esempio eseguito con
x y
0 1
1 2
2
3
4
5
6
la
calcolatrice
TI-92 Plus.
2
3
5
5
7
Qui
sotto
polinomio
interpolatore,
assai poco ma-
7 6
neggevole,
!
Come
il
nell’esempio,
può
accadere che gli n punti si
dispongano
vamente
approssimatisecondo
retta. Può quindi
una
essere
utile trovare “la retta che
approssima meglio i dati”.
Si va quindi a cercare un
modello lineare
y = m "x+q
y = 0, 845 " x + 0, 9167
del fenomeno in esame.
!
Come
si fa?
!
22
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
In generale si ha n > 2, per cui gli n punti non sono allineati e quindi il sistema seguente è
impossibile:
#m "x +q = y
1
1
%
% m " x 2 + q = y2
$
L
%
%&m " x + q = y
n
n
Si cercheranno allora n nuovi valori
(1)
y'1 , y'2 , ..., y'n, tali che, sostituiti al posto degli yi,
(
)
rendano possibile il sistema! allineando i punti x i , y"i .
Si
cercherà
inoltre
commettere
di
l'errore
"minimo possibile", cioè i
nuovi
valori
dovranno
qualche
di
y
essere
modo
in
" più
i
vicini possibile" ai vecchi
x
y"
0 0, 917
1 1,762
2
3
4
5
6
!
2, 607
3, 452
4,298
5,143
5, 988
7 6,833
Inoltre dovremo avere, insieme con i valori di m e q, un indice che ci permetta di valutare
!
se il nostro modello lineare sia adeguato oppure no a descrivere il fenomeno in esame.
La retta che troveremo sarà detta retta di regressione, e l'indice che valuta l'adeguatezza
del modello lineare sarà chiamato coefficiente di correlazione.
Come trovare la retta di regressione
Data la nostra tabella con i valori di x ed y, siano:
x=
1
n
n
"
xi ,
i=1
y=
1
n
n
" yi
i=1
le medie aritmetiche dei dati x e dei dati y.
Siano " x =
1
n
n
# xi
2
$ x2
!
e "y =
i=1
1
n
n !
# y i2 $ y2
le deviazioni standard dei dati x ed y.
i=1
n
!
Poniamo poi c xy =
1
xi yi # x $ y .
n!
"
i=1
Indichiamo ora con X il vettore di Rn avente per coordinate x1, x2,K, xn , con Y il
! degli y1, y2,K, yn e con U il vettore avente tutte le coordinate uguali ad 1.
vettore
23
!
!
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Li scriveremo tutti come colonne, anziché come righe, per comodità, ma non cambia nulla.
Il sistema (1) si riscrive, in forma vettoriale, mX+qU = Y ed è di solito impossibile.
NOTA. Al variare dei coefficienti m e q, il vettore mX+qU, detto combinazione lineare di X
ed U, riempie il piano Π passante per i tre punti O, X, U.
Infatti,
vettori
su
quel
OX
determinano
piano,
i
e
OU
gli
assi
cartesiani;
le lunghezze
dei
!
!
due vettori sono le unità di
misura; le coordinate di un
punto di quel piano sono
allora i coefficienti m e q
Siamo abituati a coordinate cartesiane con assi perpendicolari, ma non è sempre possibile.
Basta che i due assi non siano paralleli, ma si incontrino in un punto, che sarà l’origine O.
Da ogni punto del piano si mandano le parallele agli assi, per trovarne le coordinate.
Sia Y' il vettore di Rn avente per coordinate i numeri y'1 , y'2 , ..., y'n cercati. Allora il
sistema:
mX + qU = Y'
(2)
deve avere soluzione, cioè il punto Y' deve appartenere al piano Π di Rn costituito da tutte
le combinazioni lineari di X ed U.
Il punto Y invece non appartiene a tale piano, perché il sistema (1) è impossibile.
Occorre dunque scegliere un punto Y'∈Π, e sceglierlo in modo che si discosti il meno
possibile dal punto Y, per commettere l'errore minimo possibile.
A
tal
fine,
come
suggerisce
Geometria,
la
scegliamo
come Y' il piede della
perpendicolare
condotta da Y a Π.
24
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Si tratta ora di tradurre algebricamente il procedimento. Il vettore Y-Y'
è
perpendicolare a Π, quindi lo è ad ogni vettore di Π, ed in particolare è perpendicolare ad X
e ad U, che appartengono a Π.
Pertanto i prodotti scalari devono essere nulli:
% X " Y # Y$ = 0
'
)
&
'( U " Y # Y$ = 0
(
(
)
)
% X " Y = X " Y$
.
&
( U " Y = U " Y$
Sostituiamo ad Y' la sua espressione mX+qU.
Con qualche passaggio!si ottiene:
# X " Y = X " mX + qU
#m X " X + q X " U = X " Y
%
%
'$
$
%& U " Y = U " mX + qU
%&m X " U + q U " U = U " Y
(
(
)
)
(
(
) (
) (
)
)
Questo è un sistema di due equazioni nelle incognite m, q.
n
!
Ricordiamo che:
X"X =
# yi = n $ y
X"Y =
i=1
!
n
2
X"U=
i=1
n
n
Y"U=
#
xi
Allora il sistema diventa:
i=1
# xi yi
U"U = n
i=1
!
# xi = n $ x
!
!
*
$n
'
n
,
2)
&
xi ) + q " n " x =
xi yi
,m " &
+
&
)
i=1
% i=1
(
,
,
m
"
n
"
x
+
q
"
n
=
n
"y
-
!
(
#
(
) #
)
Per determinare le incognite m e q, semplifichiamo la seconda equazione per n e ricaviamo:
q = y " m # x.
!
Sostituiamo nella prima equazione, ed otteniamo:
n
m"
n
2
# x i + ( y $ m " x) " n " x = #
i=1
!
i=1
!
xi yi % m
%n
(
n
2
'
*
2
"'
xi $ n " x * =
xi yi $ n " x " y +
'
*
& i=1
) i=1
#
#
% n
(
n
2
2
'1
* 1
2
m "'
xi $ x * =
x i y i $ x " y + m " , x = c xy . Pertanto:
'n
* n
!
i=1
& i=1
)
#
#
%
2
'
c &m = c xy " x
'( q = y # m $ x
!
(3)
Le formule (3) possono essere
! applicate direttamente ai dati e forniscono la retta di regressione y = mx + q.
Il guaio è che se i dati sono molti, i calcoli (3) sono complessi, ma per fortuna ci sono i
computer.
25
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
( )
Notiamo che la retta di regressione passa per il punto di coordinate x, y , “baricentro” dei
(
)
dati x i , y i .
!
!
La retta l’abbiamo, ma sarà significativa?
Determiniamo per questo ora il coefficiente di correlazione.
La distanza di Y da Π, ossia la distanza YY" di Y da Y' è un primo indice della “bontà” del
nostro modello lineare: più è piccola e meglio è.
Tuttavia questo numero dipende!dalle unità di misura, e dalle dimensioni delle grandezze
in gioco. Come sempre, è preferibile usare un rapporto.
Sia Y = y " U il vettore con tutte le coordinate uguali ad y .
Si ha Y ∈Π, poiché è un vettore multiplo di U ed appartiene alla retta OU.
!
Pertanto Y'- Y è perpendicolare ad Y'-Y, cioè il triangolo
di vertici Y, Y', Y è rettangolo in Y'.
!
! Sia α l'angolo tra l'ipotenusa Y Y' e il cateto Y' Y .
!
!
YY#
Il numero R = cos " =
si chiama coefficiente di correlazione assoluto. Il punto Y è tanto
YY#
!
più vicino a Π quanto più α è prossimo all'angolo nullo, e quindi R è prossimo ad 1.
()
Il calcolo
di R è però complicato dalla necessità di trovare prima il vettore Y', le cui
!
coordinate si calcolano con la formula:
y'i = m⋅xi + q , 1 ≤ i ≤ n
Percorriamo allora un’altra strada.
Il prodotto scalare di due vettori non nulli P,Q∈Rn si trova mediante la formula
ˆQ .
P " Q = OP # OQ # cos $ , dove " = PO
()
Allora, posto P = Y -Y' e Q = Y -Y, da questa formula ricaviamo il coefficiente di correlazione
!
P!# Q
, il cui valore assoluto è R.
OP $OQ
!
!
Con qualche passaggio, si ricava per r la seguente espressione:
relativo r = cos(") =
!
cr =
c xy
"x #"y
c (5)
Ricordiamo che comunque r è un coseno, quindi -1 ≤ r ≤ 1. Il modello lineare sarà tanto più
accettabile quanto più r sarà prossimo
ad 1 o a -1.
!
Si ritiene accettabile se 0,75 ≤ r ≤ 1 oppure -1 ≤ r ≤ -0,75, (ossia 0,75 ≤ ⏐r⏐≤ 1)
26
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
RI ASS UNTO: data una lista di n dati ( x i , y i ) , riportati come punti del piano cartesiano, la
retta che mediamente passa più vicino a tutti i punti, detta retta di regressione, ha
equazione y = m " x + q , dove: m!= c xy " x 2 , q = y " m # x
c xy
Il coefficiente di correlazione relativo è r =
, con "1 # r # 1
"x #"y
!
!
!
!
!
Gli esempi che seguono presentano alcuni casi in cui si può applicare il metodo dei
minimi quadrati o direttamente o con alcune varianti preliminari.
Distinguiamo alcuni casi:
a) Abbiamo già il modello teorico che descrive il fenomeno, e dobbiamo solo trovarne i
coefficienti m e q. In questo caso, il coefficiente di correlazione R sarà prossimo ad 1
e il modello sarà adeguato anche per fare interpolazioni, ossia per trovare valori y
corrispondenti a degli x intermedi ai dati x i , oppure previsioni, cioè valori y
corrispondenti a degli x maggiori o minori di tutti gli x i .
b)
Non abbiamo un modello teorico, forse
perché non può esistere, ma cerchiamo
!
comunque una funzione che approssimi i dati
! al meglio, per fare interpolazioni o
previsioni. In questo caso, però, più modelli anche molto diversi potrebbero essere
discretamente adeguati (ossia con R ≈1), quindi le previsioni potrebbero non essere
attendibili.
c) Non
abbiamo
un
modello
teorico,
ma
lo
stiamo
cercando,
ossia
vogliamo
determinare una eventuale legge che colleghi i dati x agli y. In tal caso, dobbiamo
cercare quale sia il modello preferibile: retta, parabola, cubica, esponenziale,
logaritmo, potenza, funzioni circolari, e poi cercare di spiegare teoricamente perché
il modello è adeguato, se lo è.
OSSERVAZIONE. Capita spesso di cercare modelli non lineari. In tal caso, si manipolano i
dati in modo adeguato per ricondursi al caso lineare.
Per esempio, nel caso del modello del tipo esponenziale y = b "a x , con a, b > 0, applichiamo
dapprima i logaritmi ad entrambi i membri:
ln( y) = ln( b) + x
!"ln(a )
Poniamo ora y" = ln y , q = ln b , m = ln a .
()
()
()
!
Otteniamo il diagramma semilogaritmico y" = m # x + q .
! retta, !
!
A questo,
che è una
possiamo applicare il metodo dei minimi quadrati per trovare m
m
e q. Otterremo infine b = eq , a = e!
.
27
!
!
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
ES ER CI ZI O 3.1. – Il censimento periodico di una cittadina ha fornito i seguenti valori:
anno
1950
1960
1970
1980
1990
abitanti
5.220
7.832
11.834
17.021
30.517
Vogliamo stimare l'anno in cui essa raggiungerà i 50.000 abitanti.
Sappiamo che l'accrescimento di una popolazione ha un modello esponenziale del tipo
y = b⋅er⋅t, con b > 0.
Poniamo y* = ln(y), m = r, q = ln(b), x =
t " 1940
.
10
Si ottiene la retta y* = m⋅x + q (diagramma semilogaritmico).
Per trovare m e q si può ora
! usare il metodo dei minimi quadrati, previa sostituzione dei
dati y con i loro logaritmi.
x
y* ≈ ln(y)
1
8,560
2
8,966
3
9,379
4
9,742
5
10,326
Si ha allora: x = 3, y = 9,395, " x = 1, 414 , " y = 0, 606 , c xy = 0,860
Applichiamo le formule del metodo dei minimi quadrati:
!
!
m = c xy " x
2
#
!
0,86
0,1, 4142
# 0, 430
!
!q = y " m # x $ 8,102
R = 0,9965…
Si ha così la ragionevole retta: y* = 0,43!x + 8,102.
!
Per rispondere al problema, non serve trovare il modello esponenziale. Basta risolvere
l’equazione di I grado:
ln(50.000) = 0,43 x + 8,102
e
ricavare
x = 6,308....
Di
qui,
t = 10x + 1940 " 2003.
Pertanto,
l'anno
in
cui
presumibilmente la cittadina raggiungerà i 50.000 abitanti sarà il 2003.
Per confronto, vediamo i diagrammi esponenziale
e semilogaritmico del modello eseguiti con la calcolatrice
!
TI-Voyage 200, che in automatico sceglie la finestra ottimale del grafico: in entrambi i casi, l’unità di misura
sull’asse y è assai minore di quella dell’asse x, ed inoltre si vede di ogni asse solo il tratto corrispondente
all’intervallo dei dati corrispondenti. Altrimenti, i grafici non sarebbero stati visibili.
y = 3302 "1,538x
y* = 0,43 x + 8,102
28
!
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Ora per finire confrontiamo la tabella dei valori
anno
reali y con i valori calcolati con la funzione
1950
1960
1970
1980
1990
1
2
3
4
5
abitanti
5.220
7.832
11.834
17.021
30.517
f(x)
5.080
7.815
12.024
18.498
28.458
x
esponenziale:
In molti casi che interessano per esempio la Biometria e la Fisica, si hanno modelli
matematici di tipo gaussiano. Matematicamente, una funzione gaussiana è una funzione
esponenziale che ha all’esponente un polinomio di secondo grado:
2
y = ea"x +b"x+c , con a < 0.
La funzione y = a " x2 + b " x + c , con a < 0, ha per grafico una parabola il cui vertice
!
#
&
b 4ac " b2 (
b
V = %"
,
corrisponde al punto di massimo assoluto, e la retta x = "
è asse di
% !
(
4a
2a
$ 2a
'
simmetria. Notiamo che, con qualche passaggio, si ottiene:
!
!
2
#
b&
4ac ) b2
y = a " x2 + b " x + c = a " %% x +
(( +
2a '
$
4a
Poiché la funzione esponenziale y = ex è crescente, la funzione gaussiana rispecchia lo
!
b
stesso andamento: la retta x = "
2a
!
#
&
%4ac"b2 ( 4a
$
'
è asse di simmetria, il massimo è e
, ma è
( )
positiva e per x →±∞ ha limite 0. Pertanto, ha la forma di una campana.
!
!
#
&
%4ac"b2 ( 4a
a" x#x
b
$
'
Se poniamo h = e
, x="
, allora la funzione diventa: y = h " e
( )
(
2a
Nel caso
! della figura si ottiene:
!
( )
y = e"e
# x#2
2
.
!
29
!
)
2
, con a < 0.
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
In molti casi, il numero x è noto, perché è la media aritmetica dei dati x.
Allora, applicando i logaritmi si ottiene:
!
()
()
(
ln y = ln h + a " x # x
)
2
Possiamo allora porre:
2
y!" = ln y , q = ln h , m = a , x" = x # x
()
(
()
)
e ottenere la retta y" = m # x" + q , i cui coefficienti si possono trovare col metodo dei minimi
!
!
!
!
quadrati.
!
ES ER CI ZI O 3.2. Consideriamo i coefficienti dello sviluppo della sesta potenza del binomio
a+b. Dal triangolo di Tartaglia (o dalla formula di Newton) sappiamo che il coefficiente di
"6 %
a k b6-k è il coefficiente binomiale $$ '' , 0 ≤ k ≤ 6.
#k &
Allora abbiamo la tabella seguente:
!
x=k
"6 %
y = $$ ''
#k &
!
!
0
1 !
2
3
4
5
6
1
6
15
20
15
6
1
La media dei dati k è x =
21
7
= 3 . I dati x ed y sono simmetrici rispetto alla media aritmetica,
pertanto sarà sufficiente supporre x ≥ 3.
2
Ora calcoliamo! i numeri x" = x # 3 e i numeri y" = ln y :
(
x*
y*
0
2,996
!
1
2,708
()
)
4
1,792
!
9
0,000
Col metodo dei minimi quadrati si ricava ora la retta:
y = −0,336⋅x + 3,058,
r = -0,999 (ottimo!)
Si ha h " e3,058 " 21, 2849 , quindi la funzione finale è:
( )
#0,336" x#3
y = 21, 28 " e
2
,
! frutto di approssimazioni. Confrontiamo i valori reali e quelli calcolati con la gaussiana:
k
0
y
f(k)
1
1,03
!1
6
5,55
2
3
4
5
6
15
15,21
20
21,28
15
15,21
6
5,55
1
1,03
NOTA. Alla fine del cap. I, il calcolo è stato eseguito in modo semplificato, ponendo h " e3 " 20 ,
( )
#3" x#3
a = m = -0, 3 = -3 10 . La funzione gaussiana ottenuta è stata quindi semplificata in y = 20 " e
!
!
30
!
2
10
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Nei due casi precedenti era noto il modello matematico teorico e si dovevano solo trovare i
coefficienti. Ora vedremo un esempio in cui il modello teorico non è noto, perciò potremo
confrontare due diversi modelli e la loro adeguatezza.
OS SE R VAZI ONE . Con un metodo simile a quello visto per la retta di regressione, anche per
dati y dipendenti da più variabili t1, ... , tr si possono cercare modelli della forma
y = a 0 + a1t1 + K + a r t r . Occorre allora considerare gli r+1 vettori U, T1, K , Tr . Insieme al
vettore nullo O, essi individuano uno spazio Σ a r+1 dimensioni, a cui Y non appartiene.
!
In forma vettoriale il sistema (impossibile) è:
!
Y = a 0 U + a1T1 + K + a r Tr
Il vettore Y’ dei dati modificati sarà scelto in Σ in modo che il vettore Y-Y’ sia
perpendicolare agli r+1 vettori
U, T1, K , Tr : si otterrà allora un sistema lineare in r+1
!
equazioni ed r+1 incognite a0, a1, ... ar, che ci fornirà il modello cercato.
Infine, per dati y dipendenti
da una variabile x ma per i quali è adeguato un modello
!
polinomiale del tipo
p x = a 0 + a1x + a 2x2 + K + a r x r
()
ci si riconduce al caso precedente ponendo:
ti = xi per ogni i = 1, ..., r.
!
Il problema è che i calcoli sono ancora più complicati, ed è più difficile scegliere un coefficiente di
correlazione.
ES E MPI O 3. 3. Sia data la
x
y
"3 "3
"1 "2
tabella seguente:
Cerchiamo dapprima un
modello lineare, ossia la retta
0 "1
1 0
3 3
di regressione:
!
x=
!
!
(
2
2
"3 " 1 + 0 + 1 + 3
"3 " 2 " 1 + 0 + 3
3
1 %
= 0, y =
= " , "x =
# '' $3 + $1 + 02 + 12 + 32 ** $ 02 = 2,
5
5
5
5 &
)
"y =
c xy =
( ) ( )
( % 3 (2
2
2
2
1 %
# '' $3 +! $2 + $1 + 02 + 32 ** $ ''$ ** =
5 &
) & !5 )
23 9
106
$
=
5 25
5
( ) ( ) ( )
("3) # ("3) + ("1) # ("2) + 0 # ("1) + 1 # 0 + 3 #3 " 0 # $&" 3 ') = 4
5
& )
% 5(
31
!
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Allora: m =
c xy
"x
c xy
r=
=
2
=
4
22
= 1,
q="
3 50
3
"
# 0 = " = "0, 6 ,
5 53
5
4
10
10
=
$
$ 0, 97, buono.
2 # 106 5! 106 10, 295
"x # "y
!
La retta è quindi: c y = x " 0, 6 .
!
Ecco il confronto tra i valori reali e quelli calcolati sulla retta di regressione:
x
-3
-1
0
1
3
!
y
-3
-2
-1
0
3
y'
-3,6
-1,6
-0,6
0,4
2,4
Ora per confronto, con l’uso di un software della TI-92 Plus, calcoliamo la
regressione quadratica, ossia la parabola “migliore possibile”. Risulta: y = 0,12 " x2 + x # 1 .
Si ha poi un coefficiente di correlazione ≈ 0,999, ottimo, migliore del precedente!
x
-3
-1
0
1
3
y
-3
-2
-1
0
3
y'
-3,1
-1,9
-1,0
0,1
2,9
!
Il modello quadratico sembra assai migliore dell’altro per rappresentare questi 5 punti.
Nell’esempio precedente, poco significativo perché i dati sono solo cinque ed i calcoli per la retta di
regressione sono eseguiti a mano, manca un modello teorico e si è proceduto a caso a cercare di descrivere
matematicamente i dati.
Perciò nel caso si usi la funzione matematica trovata per interpolare i dati, per esempio per sapere che cosa
potrebbe valere y per x = 2, il modello lineare dà 1,4, mentre quello quadratico dà 1,48, con poca differenza,
solo il 4% della x.
Invece, per le previsioni, per esempio per x = 4, si ha rispettivamente 3,4 e 4,92, con una differenza elevata,
il 38% della x. Il dato di previsione non è attendibile.
32
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Infine, un esempio del terzo tipo: cerchiamo un modello matematico per la tabella
seguente, contenente i risultati di una complessa ricerca sulle funzioni tra un insieme e se
stesso, raggruppate in classi secondo certi criteri: x è il numero di elementi dell’insieme ed
y il numero di questi raggruppamenti. Il diagramma mostra un andamento di tipo
esponenziale, pertanto calcoliamo il logaritmo dei dati y e cerchiamo la retta di regressione:
y
y
ln(y)
1
1
0
2
3
1,099
3
7
1,946
4
19
2,944
5
47
3,850
6
130
4,868
7
343
5,838
8
951
6,858
9
2616
7,869
10
7319
8,898
11
20589
9,933
12
57280
10,956
Ecco il grafico semilogaritmico: i lati superiori dei rettangoli sembrano delineare una retta.
Applicando il metodo dei minimi quadrati si ottiene la retta di regressione
y = 0,99… x – 1,017…, con r = 0,999…
Allora si ricava la funzione esponenziale y = 0, 3616 " e0,99"x .
!
Notiamo tuttavia che per x = 12 si ha f(x) ≈ 52.553, un po’ inferiore al dato reale 57.280.
La congettura è che il modello migliore sia y = ex-1, almeno per gli x “grandi”.
!
33
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
ES ER CI ZI O 3.5:
a) Si riportino sul grafico cartesiano qui a
lato i sei punti
(x, y)
indicati qui sotto:
x 0 1 2 3 4 5
y 0 5 9 12 14 18
!
b) Si calcolino la retta di regressione ed il
coefficiente
di
!
correlazione relative a
quei sei punti. Si tracci anche la retta sul
grafico.
c) Il modello lineare è adeguato?
Risposta:
Media degli x: x " 2,5
Media degli y: y " 9, 67
Scarto degli
x: " x # 1,71
!
Scarto degli
y: " y # 5, 91
!
Inoltre:!c xy = 10 . Allora:
! , q " 1,1
m " 3, 43
Infine,
r = 0, 991
!
!
Il modello
lineare è adeguato. Si vede anche
!
!dal grafico.
Ecco i grafici realizzati con la TI-92 (o con la TI-Voyage200):
34
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
§4. PROBABILITÀ E STATISTICA
In questa sezione colleghiamo una teoria matematica, ossia il Calcolo delle Probabilità, con
la Statistica. Un punto di collegamento è il concetto di frequenza.
La Teoria della Probabilità si può pensare inizialmente come una reinterpretazione della
teoria degli insiemi con una terminologia diversa. Si esegue un esperimento, che può avere
un certo insieme di esiti, detto spazio campionario Ω.
Probabilità
Insiemistica
Spazio campionario Ω
Insieme Ω
Esito x
Elemento x∈Ω
Evento E
Sottoinsieme E⊆Ω
Evento impossibile
Sottoinsieme vuoto ∅
Evento certo
L’insieme Ω
Evento elementare
{x}, x∈Ω
Eventi incompatibili A e B
A∩B = ∅
L’evento A implica l’evento B
A⊆B
Si verifica almeno uno dei due eventi A o B
A∪B
La probabilità è una funzione p che associa ad ogni evento E un numero reale p(E)∈R, con
le proprietà seguenti:
a) p(Ω) = 1, p(∅) = 0,
b) Se l’evento A implica l’evento B allora p(A) ≤ p(B)
c)
Se gli eventi A e B sono incompatibili, p(A∪B) = p(A)+p(B).
Come conseguenza, per ogni evento E si ha 0 ≤ p(E) ≤ 1.
NOTA. Si può anche moltiplicare per 100 ed esprimere la probabilità in percentuale.
La trattazione è diversa nel caso di spazi campionari finiti o infiniti.
Ne l ca so
fin ito, in cui lo spazio campionario è costituito da n ≥ 1 esiti, posto
{
}
" = x i 1 # i # n , basta assegnare ad ogni evento elementare
{x i }
( )
un numero p x i " 0 , in
n
modo che risulti
!
" p(x i ) = 1,
i=1
e allora la probabilità di un evento E è la somma delle
!
!
probabilità degli eventi elementari contenuti in E.
!
35
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
ES E MPI O 4.1. Nel lancio di un dado non truccato, la probabilità di uscita di ogni numero è
la stessa, quindi una su sei. Ossia, ogni evento elementare ha probabilità 1/6. La probabilità
dell’evento: “esce un numero di tre lettere”, ossia dell’evento E = 1, 2, 3, 6 è quindi di 4/6,
{
}
ossia 2/3.
!
L’esempio precedente è un caso di equiprobabilità, ossia ogni evento elementare ha la
stessa probabilità degli altri.
{
Ne segue che se " = x i
}
1
.
n
( )
1 # i # n , si ha p x i =
k
Se l’evento E ha k esiti, si ha p E = .
n
!
!
()
ES E MPI O 4. 2. Nel lancio
di due dadi (non truccati) si sommano i punteggi. Gli esiti sono i
!
numeri da 2 a 12.
Poiché i dadi sono due, e ciascuno mostra una di sei facce, ci sono 36 coppie (x,y) di
numeri. Sommiamo: s = x+y.
Ora, s = 2 si ottiene solo dalla coppia (1, 1), mentre s = 3 si ottiene da (1, 2) e da (2, 1), ecc.
Riassumendo:
s
p(s)
2
1
3
2
4
3
5
4
6
5
7
6
8
5
9
4
10
3
11
2
12
1
36
36
36
36
36
36
36
36
36
36
36
Pertanto, l’evento E = “esce un numero primo”, ossia E = 2, 3, 5, 7,11 ha probabilità:
!
!
!
!
!
!
!
!
!
!
!
{
() () () () () ( )
p E = p 2 + p 3 + p 5 + p 7 + p 11 =
!
}
1 + 2 + 4 + 6 + 2 15
5
=
=
36
36 12
L’evento complementare E’ di E è costituito dagli esiti non in E, quindi è incompatibile con
!
E ed ogni esito di Ω è o in E o in E’. Ne segue p(E)+p(E’) = p(Ω) = 1. Ossia, p( E’) = 1 -p( E).
Nell’esempio
precedente,
l’evento
complementare
“ esce
un
numero
composto”
ha
probabilità 1-5/12 = 7/12.
La teoria della probabilità nasce storicamente dalla passione per i giochi d’azzardo. Sembra
naturale allora fare un esercizio tratto dal gioco del lotto:
ES ER CI ZI O 4.3.
Nel gioco del lotto in ogni “ruota” (ossia in ciascuna delle 10 sedi
italiane) sono estratti 5 numeri su 90. Giocare un terno secco significa indicare tre numeri
36
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
sui 90 di una ruota fissata, nella speranza che facciano parte della cinquina estratta.
Sperando che il gioco non sia truccato, qual è la probabilità di vincere?
"90%
Rispo sta. Lo spazio campionario è costituito dalle $$ '' cinquine distinte, che possono
#5&
essere estratte. Si vince se i nostri tre numeri fanno parte della cinquina estratta. Quante
sono le cinquine che li contengono? Oltre ai nostri
tre numeri, contengono due degli altri
!
"87%
87 numeri, quindi sono $$ '' . La probabilità di vincere è allora:
#2&
"87%
$$ ''
2
!# &
"90% 87 (86
1 (2 (3 ( 4 (5
3 ( 4 (5
1
(
=
=
$$ '' =
1 (2 90 (89 (88 (87 (86 90 (89 (88 11.748
#5&
NOTA. In caso di vincita, la Società che gestisce il gioco del lotto paga poco più di 4.000 volte la cifra che
abbiamo giocato.
Chi vince realmente?
!
La Teoria della Probabilità si applica spesso in situazioni nelle quali in prove ripetute ci
sono sempre solo due alternative, ossia un evento A ed il suo complementare. Posto
( )
( )
p = p A si ha q = p A " = 1 # p .
Il problema è allora il seguente: che probabilità c’è che in n prove indipendenti l’evento A
!
si sia verificato
k volte?
!
Prove indipendenti significa intuitivamente che l’esito di una prova non ha influenza sull’esito delle altre.
ES E MPI O 4. 4. In una famiglia ci sono cinque figli. Qual è la probabilità che tre siano
maschi e due siano femmine?
Presupponiamo che la probabilità della nascita di un maschio o di una femmina sia la stessa ogni volta:
p=q=
1
(ossia il 50%).
2
Inoltre, ipotizziamo che la nascita di un bimbo di un dato sesso non influenzi il sesso dei successivi.
!
Possiamo assimilare la fila dei cinque figli ad una parola con tre M e due F. In ciascuna
parola ci sono cinque lettere: ogni lettera ha due alternative, quindi 25 = 32 “parole”
distinte. Quelle che ci servono hanno tre M e due F, che si ottengono anagrammando la
parola MMMFF in tutti i modi possibili. Otteniamo
#5& !
#5& 5 " 4
5!
= %% (( = %% (( =
= 10 di questi
3!"2! $3' $2' 1 "2
anagrammi.
Ne segue che la probabilità di avere tre maschi e !
due femmine (o viceversa) è:
10/32 = 5/16,
pari al 31,25%.
37
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Possiamo indicare con E l’evento: tre maschi e due femmine. Allora abbiamo trovato.
"5%
p E = $$ '' ( p3 ( q 2. Più in generale vale la seguente for mu la di Bernou lli:
#3&
()
"n %
p E = $$ '' ( p k ( q n -k
#k &
()
!
NOT A. Così come in Geometria si fa ricorso al disegno delle figure per illustrare la teoria,
!
in Probabilità si fa spesso ricorso al modello dell’urna che contiene palline di vari colori.
La probabilità di estrarre una pallina di dato colore è il rapporto tra il numero k di palline
di quel colore ed il numero totale di palline nell’urna.
ES ER CI ZI O 4.5.
Supponiamo che nella famiglia precedente la nascita di una femmina
abbia probabilità doppia della nascita di un maschio. Quale sarebbe la probabilità di avere
tre maschi e due femmine?
Possiamo assimilare ogni nascita all’estrazione di una pallina di colore Marrone o Fuscsia da
un’urna in cui ci sono il doppio di palline fucsia rispetto alle marrone. Detto h il numero
delle palline marrone, le fucsia sono 2h, quindi in tutto 3h palline. Ci sono cinque urne,
tutte con la stessa situazione.
Allora p =
1
3
, q=
2
3
. Gli anagrammi di MMMFF sono sempre 10, ma stavolta ogni M vale 1/3
ed ogni F vale 2/3, quindi la probabilità del nostro evento è:
"5%
"1 %3 " 2 %2
40
p E = $$ '' ( p3 ( q 2 = 10 ( $$ '' ( $$ '' =
) 16, 46%
243
#3&
#3 & #3 &
!
()
!
Che re laz io ne c’ è tra S tat ist ica e Proba bilità?
•
Nella realtà non sappiamo a priori se il dado che lanciamo sia regolare o no: l’usura
o il dolo potrebbero avere modificato la probabilità di uscita dei sei numeri.
•
Può accadere che la pallina di una roulette contenga del ferro e una calamita posta
sotto il piatto in corrispondenza di uno dei 37 numeri (da 0 a 36) aumenti la
probabilità che quel numero esca (si veda il film “I quattro dell’Ave Maria”).
•
Un gestore disonesto potrebbe rendere ruvide o gelide o più pesanti alcune palline
dell’urna, in modo che la mano della persona bendata che le sceglie le possa
comunque riconoscere ed estrarre (è successo a Milano, nel lotto).
•
Oppure, possiamo avere la convinzione che in caso di esperimenti ripetuti l’esito di
uno di essi influenzi in qualche modo i successivi.
38
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
•
Possiamo dover cercare se i dati ottenuti da esperimenti ripetuti siano casuali
oppure se ci sia una qualche regolarità.
•
Assai spesso non abbiamo a disposizione l’intero spazio campionario, e quindi non
conosciamo la probabilità dei singoli eventi, ma possiamo cercare di ricavarla in
qualche modo.
ES E MPI O 4.8. Cerchiamo famiglie vere con cinque figli per valutare la frequenza con cui si
ritrovano tre maschi e due femmine.
Poiché si è calcolato che la probabilità p(E) dell’evento E = “tre maschi e due femmine” è
5/16 (il 31,25%), ci si attende che su un campione di 100 famiglie con 5 figli, ce ne siano
mediamente 31 con 3 maschi e due femmine.
In pratica non sarà così.
A seconda del campione scelto, il numero di quelle del tipo cercato può essere assai
variabile. Avremo cioè certamente una fluttuazione statistica.
Facciamo allora la seguente indagine: ciascuno dei 400 allievi del corso cerchi negli archivi
e nelle banche dati in giro per il mondo, un campione di 32 famiglie con 5 figli (per
()
facilitare i calcoli) e valuti la frequenza f i E , 1 ≤ i ≤ 400, dell’evento E = “tre figli maschi e
due femmine”.
Il valore atteso in ciascuna ricerca
! è 32⋅p(E) = 10.
()
Quello che accade, però, è che al variare delle campionature, i valori di f i E si distribuiscono intorno al
valore atteso 10.
!
()
Gli scarti d i = f i E " 10 dal valore atteso sara nno ta nto più rar i qua nto p iù sono
gran di in va lore as so luto .
Ossia,
! sarà più facile trovare un campione di 32 famiglie con 12 del tipo richiesto (scarto
uguale a 2), piuttosto che 32 famiglie con 18 famiglie del tipo richiesto (scarto = 8) o 6
famiglie del tipo richiesto (scarto = - 4).
Lo scarto massimo è 22 (tutte le 32 famiglie esaminate hanno tre maschi e due femmine); il
minimo è -10 (nessuna delle 32 famiglie ha tre maschi e due femmine)
()
( )
Ad ogni scarto d i = f i E " 10 associamo la sua frequenza relativa f d i
400 sulle 400
rilevazioni, e riportiamo su una tabella gli scarti e le loro frequenze, nell’intervallo
["10,22] . !La frequenza massima dovrebbe averla lo scarto nullo.!
La media aritmetica, la moda e la mediana degli scarti sono in tal caso uguali a zero.
!
39
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Detta σ la deviazione standard degli scarti, la maggior parte di essi è nell’intervallo [-σ,σ].
Che curva si delinea allora per le fluttuazioni statistiche, ossia per gli scarti? Una campana
di Gauss.
()
Lo stesso accade se valutiamo la frequenza dei valori di f i E da 0 a 32: il valore massimo
()
si ha per f i E = 10 .
!
Se le ipotesi iniziali sono corrette e se il numero r di rilevazioni
è sufficientemente alto e i campioni
di n famiglie con cinque figli sono scelti in modo casuale, la media m delle frequenze relative
!
1
f i E n , ossia m =
r
()
!
r f E
i
"
i=1
( ) , è circa uguale a p(E) = 5/16.
n
Ecco un possibile riassunto della nostra indagine: su 400 campioni di 32 famiglie con 5
!
figli, l’evento E = tre maschi e 2 femmine potrebbe avere il risultato seguente:
E/32
su 400
3
0
4
0
5
1
6
6
7
23
8
50
9
75
10
87
11
72
12
58
13
19
14
7
15
2
16
0
17
0
Il massimo della frequenza si ha proprio in corrispondenza a 10 su 32, che è anche la
moda, la media aritmetica e la mediana dei dati non nulli. La maggioranza dei dati si
addensa intorno alla media. Si ha m = 31,33% ≈ p(E).
CONS E G UE NZE:
A) Spesso si può rovesciare il discorso: se non c’è a monte il calcolo teorico della
probabilità p(E) di un certo evento E, una indagine statistica basata sull’esame di un
numero r di campioni, ciascuno con n elementi, conduce a determinare la media
1
m=
r
!
r f E
i
"
i=1
()
n
ed assumere questa come probabilità p(E) dell’evento E.
40
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
B) In presenza del calcolo di p(E) sotto certe ipotesi, qualora la media m =
1
r
r f E
i
"
i=1
()
n
si
discosti significativamente da p(E) occorre ripensare la correttezza di quelle ipotesi.
!
Occorre però chiarire quel “significativamente”.
UNA CURIOSITÀ. La tabella mostrata poco fa non è frutto di una vera indagine su 400 campioni di 32
famiglie con 5 figli ciascuna, ma è stata ricavata con un procedimento ed una formula dovuti a Poisson, che
vedremo qui di seguito.
Il te st di Pois son. Ha applicazioni naturalistiche e mediche, e si applica a dati che siano
numeri non negativi e non tutti nulli. In tal caso, la media aritmetica è m > 0 e possiamo
calcolare il rapporto v/m tra la varianza stimata e la media.
ES E MPI O 4.8. Eseguiamo una indagine su un roseto infestato dai "ragnetti rossi",
contando quanti ce ne sono su un campione di n foglie. Possiamo assimilare il conteggio su
ogni foglia ad un "esperimento". A questo punto è naturale usare il termine distribuzione a
proposito dei dati raccolti. Abbiamo alcune possibilità:
a) Su ogni foglia ci sono all'incirca lo stesso numero di parassiti. In tal caso la distribuzione
è detta uniforme, i dati coincidono (più o meno) con la loro media aritmetica m e v " 0 . In
questo caso, presa una foglia qualsiasi, si ha p ≈ 100% di probabilità di trovarvi m parassiti.
!
b) Se v/m >> 1, in modo rilevante, la distribuzione è detta aggregata o contagiosa: i dati si
addensano intorno ad uno o più valori.
c) Se infine v/m ≈ 1, la distribuzione è considerata casuale.
Nei primi due casi, si è portati ad esaminare meglio i motivi di queste distribuzioni: il caso
a) potrebbe suggerire una territorialità, che impone una distanza minima tra due individui;
il secondo, la presenza in certe zone di sostanze chimiche che attirano o allontanano i
parassiti.
Sia ora x il numero di parassiti su una foglia.
Se la distribuzione è casuale, cioè se v/m ≈ 1, la probabilità che su una foglia generica ci
siano h parassiti, cioè che si abbia x = h, è data dalla formula di Poisson :
(
)
px=h =
41
!
m h " e#m
.
h!
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
& $
)
m h " e#m (
m h + #m
=(
"e
= em " e#m = 1 .
Si osservi che
+
h!
h! +
(
h=0
'h=0
*
$
%
%
Ossia, la somma delle probabilità al variare di h∈N è uguale ad 1, come deve essere.
(
)
Si può !poi porre fh = p x = h " n , dove n è il numero totale delle foglie: il numero fh sarà il
numero atteso di foglie con h parassiti, ossia la frequenza attesa del dato h.
!
!
ES ER CI ZI O 4 .9. Per una distribuzione di Poisson di media m = 8 , qual è la probabilità per
la variabile x di assumere il valore h = 5 ? Se i dati sono 1000 in tutto, qual è il valore atteso
di dati uguali ad h?
(
)
Rispo sta : p x = 5 =
!
85 " e#8! 4096 " e#8
=
$ 0, 0916 , quindi su 1000 dati il valore atteso di
5!
15
dati uguali a 5 è f " 0, 0916 #1000 = 91, 6 " 92.
!
ES E MPI O! 4.10. Nel caso di individui distribuiti su un'area continua si può suddividere la
zona in porzioni equivalenti fra loro e contare gli individui su ogni porzione. Si ottengono
tabelle assimilabili alle liste precedenti.
Lo stesso procedimento si usa anche per distribuzioni spaziali, da suddividere in
parallelogrammi con lo stesso volume.
Negli esempi della pagina seguente, con l’uso di un antico software si sono distribuiti 500
punti su un rettangolo suddiviso in 25 sottorettangoli uguali. Il numero dei punti di
ciascuno di essi è contato elettronicamente e, per comodità, i dati anziché in riga sono
disposti in matrici che riproducono le posizioni dei rettangolini corrispondenti.
•
Nel primo di essi la distribuzione è casuale, cioè v/m ≈ 1.
•
Il secondo esempio presenta una distribuzione uniforme, con v/m ≈ 0.
•
Il terzo è un esempio di distribuzione aggregata, con v/m molto maggiore di 1.
Esempi come questi hanno importanza nel campo della ricerca medica ed in ambito
naturalistico.
42
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
a) 500 dati distribuiti casualmente in 25 rettangoli uguali:
punti: 500
media: 20
varianza: 19,29
v/m: 0,9645
b) 500 dati distribuiti uniformemente:
punti: 500
media: 20
varianza: 3,54
v/m: 0,177
c) 500 dati distribuiti in modo aggregato:
punti: 500
media: 20
varianza: 573,33
v/m: 28,66
43
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
IL T ES T " 2 DI PE ARS ON.
!
Si tratta di un test di largo uso per confrontare una serie di dati con una loro
interpretazione. Si usa per liste di dati, ma anche per tabelle (ossia matrici) di contingenza
ES E MPI O 4.11. Lanciamo un dado. Sappiamo che se non è truccato o irregolare, la
probabilità di uscita di ogni numero da 1 a 6 è 1/6.
Eseguiamo 600 lanci: ci attendiamo che ogni numero esca 100 volte. In realtà, i risultati
reali sono un po’ diversi.
Per ogni numero riportiamo la sua frequenza, la differenza rispetto al valore atteso elevata
al quadrato e divisa per il valore atteso 100. Sommiamo ogni colonna:
esito
1
2
3
4
5
6
Somma:
frequenza
99
113
84
101
113
90
600
val. atteso
100
100
100
100
100
100
600
scarto
-1
13
-16
1
13
-10
0
scarto^2
1
169
256
1
169
100
696
/val. att.
0,01
1,69
2,56
0,01
1,69
1
6,96
Il numero 696, uguale alla somma dei quadrati degli scarti dalla media, è la devianza, vista
a suo tempo. Il numero 6,96 è detto " 2.
Abbiamo eseguito 600 lanci: se conosciamo le frequenze dei primi cinque esiti, possiamo
dedurne il sesto, perciò solo! cinque frequenze sono indipendenti: diremo che in questo
caso ci sono 5 grad i di lib ertà .
Il numero finale " 2 = 6,96 va ora confrontato con apposite tabelle, ottenute attraverso
integrali fuori della nostra portata.
L’ipotesi di! partenza è che il dado sia regolare (detta ipo te si nu lla ), cioè che il risultato
dei 600 lanci rientri nelle fluttuazioni statistiche casuali.
Il test di Pearson dice che con 5 gradi di libertà in caso di dado regolare si ha
$
'
p& " 2 # 6, 63) * 0,25. Qui si ha " 2 = 6,96. Ci sono quindi forti dubbi che il dado sia regolare,
%
(
!
ma non possiamo escluderlo.
!
Per escludere la regolarità del dado, la soglia è 0,05, ossia il 5%: se la probabilità corrispondente al nostro
" 2 e ai gradi di libertà fosse risultata minore, avremmo potuto concludere che il dado non è regolare.
!
44
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
ESEMPIO 4.12. Se applichiamo il test di Pearson all’indagine sulle famiglie con cinque figli
di cui abbiamo parlato a suo tempo, su 400 * 32 = 12.800 famiglie esaminate ne abbiamo
trovate 4010 con 3 maschi e due femmine (cfr pag. 40).
famiglia
E
non E
Somma:
frequenza
4010
8790
12800
val. atteso
!
4000
8800
12800
scarto
10
-10
0
scarto^2
100
100
200
/valore atteso
0,025
0,011364
0,036364
Qui abbiamo un solo grado di libertà. Dalle tabelle si ha:
p( " 2 ≤ 0,039) ≥ 0,95. Qui, " 2 ≈ 0,036. Perfetto: la piccola differenza dai valori attesi rientra
nella casualità e l’ipotesi nulla è confermata da questa campionatura: la probabilità che
!
l’ipotesi nulla sia vera
! è infatti superiore al 95%.
Per semplificare molto la teoria, se la probabilità corrispondente al valore trovato di " 2 è minore
del 5% l’ipotesi nulla è respinta. Se è superiore al 95% è confermata.
!
Il test " 2 di Pearson è influenzato sia dal numero di gradi di libertà, sia dal numero di
prove realmente effettuate. All’aumentare di queste ultime il valore di " 2 tende ad
!aumentare, ma per contro, se l’ipotesi nulla è vera, si suppone che le frequenze si
avvicinino sempre più ai valori attesi calcolati teoricamente sulla base
! della Teoria della
Probabilità.
Se i valori attesi sono numeri minori di 50, occorre fare attenzione: occorrerebbe modificare un poco la
procedura introducendo coefficienti correttivi. Se i dati sono troppo pochi, il test non è applicabile.
ES ER CI ZI O 4.13. Lanciamo per 200 volte una moneta, ottenendo testa per 115 volte e
croce per 85 volte. L’ipotesi nulla è che la moneta sia regolare, quindi ogni faccia è attesa
per 100 volte. I dati sono però i seguenti:
faccia
testa
croce
somme:
frequenza
115
85
200
val. att.
100
100
200
scarto
15
-15
0
scarto^2
225
225
450
/ 100
2,25
2,25
4,5
Anche qui c’è un solo grado di libertà. Dalle tabelle si ricava:
p( " 2 ≥ 3,84) ≤ 0,05 = 5%.
Qui si ha " 2 = 4,5. Alllora, la probabilità che la moneta sia regolare è inferiore al 5%.
!
L’ipotesi nulla è da respingere.
!
45
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
TABELLE DI CONTI NGENZA
Abbiamo visto finora il test di Pearson per stimare la casualità o la sistematicità delle
fluttuazioni delle frequenze di una lista di dati rispetto ai valori calcolati mediante la
Teoria della Probabilità. Si tratta in quel test di calcolare il valore di " 2, che dipende sia dal
valore degli scarti, sia dal numero dei gradi di libertà. Si tratta cioè di una funzione di due
variabili. Vediamo allora qualche nozione, che poi servirà
anche per le tabelle di
!
contingenza.
Siano A e B due insiemi non vuoti; una funzione f : A " B # R è un caso particolare di
( )
funzione di due variabili, z = f a, b , con a∈A, b∈B.
! finiti,
Consideriamo il caso particolare di A e B insiemi
{
}
{
}
A = a i 1 " i " m , B = bj 1 " j " n .
!
Possiamo descrivere f mediante una matrice Hf di tipo m×n, tale che nella casella di posto
(
)
(i,j) c’è f a i , b j .
!
!
!
Le operazioni aritmetiche tra due funzioni
f, g : A " B # R si traducono allora in operazioni
“casella per casella” o “dirette” tra le loro matrici Hf e Hg .
!
!
Se uno dei due insiemi è infinito, non si possono descrivere le funzioni tramite matrici, ma
!
!
occorre una formula che permetta di calcolarne i valori.
Tuttavia, talvolta i valori sono ottenuti solo attraverso calcolo numerico di integrali, ed
allora si riportano i valori di f per alcuni particolari valori delle due variabili, ottenendo
una tabella che, se necessario, può essere migliorata per interpolazione lineare, esattamente
come si fa per la funzione di Gauss (che dipende da ben tre variabili, µ, σ, x), o, appunto,
per la funzione di Pearson , che dipende da una variabile discreta ed una continua:
" 2 = " 2 gl, p .
(
)
La prima è il numero dei gradi di libertà gl∈ N + .
La seconda è la probabilità p∈[0,!1].
!
Per o gn i valor e d i g l, la f unz ion e è de cr esce nt e :
p1 > p2 " # 2 gl, p1 < # 2 gl, p2
(
)
(
)
La tabella allegata contiene valori della funzione " 2 per gl da 1 a 45, e alcuni valori di p da
!
0,995 a 0,001.
Si usa di solito per risolvere l’equazione k!= " 2 gl, p nell’incognita p, conoscendo il numero
(
gl dei gradi di libertà e il valore k di " 2.
!
!
46
)
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
G.L.\ P
0.995
0.990
0.975
0.950
0.900
0.75
0.50 0.25 0.10 0.05 0.025 0.01 0.005
1
0.39E-4 0.00016 0.00098 0.0039 0.0158 0.102 0.455 1.32 2.71 3.84 5.02
6.63 7.88
2
0.0100 0.0201
0.0506
0.103
0.211
0.575 1.39
2.77 4.61 5.99 7.38
9.21 10.6
3
0.0717 0.115
0.216
0.352
0.584
1.21
2.37
4.11 6.25 7.81 9.35
11.3 12.8
4
0.207
0.297
0.484
0.711
1.06
1.92
3.36
5.39 7.78 9.49 11.1
13.3 14.9
5
0.412
0.554
0.831
1.15
1.61
2.67
4.35
6.63 9.24 11.1 12.8
15.1 16.7
6
0.676
0.872
1.24
1.64
2.20
3.45
5.35
7.84 10.6 12.6 14.4
16.8 18.5
7
0.989
1.24
1.69
2.17
2.83
4.25
6.35
9.04 12.0 14.1 16.0
18.5 20.3
8
1.34
1.65
2.18
2.73
3.49
5.07
7.34
10.2 13.4 15.5 17.5
20.1 22.0
9
1.73
2.09
2.70
3.33
4.17
5.9
8.34
11.4 14.7 16.9 19.0
21.7 23.6
10
2.16
2.56
3.25
3.94
4.87
6.74
9.34
12.5 16.0 18.3 20.5
23.2 25.2
11
2.60
3.05
3.82
4.57
5.58
7.58
10.3
13.7 17.3 19.7 21.9
24.7 26.8
12
3.07
3.57
4.40
5.23
6.30
8.44
11.3
14.8 18.5 21.0 23.3
26.2 28.3
13
3.57
4.11
5.01
5.89
7.04
9.3
12.3
16.0 19.8 22.4 24.7
27.7 29.8
14
4.07
4.66
5.63
6.57
7.79
10.2
13.3
17.1 21.1 23.7 26.1
29.1 31.3
15
4.60
5.23
6.26
7.26
8.55
11.0
14.3
18.2 22.3 25.0 27.5
30.6 32.8
16
5.14
5.81
6.91
7.96
9.31
11.9
15.3
19.4 23.5 26.3 28.8
32.0 34.3
17
5.70
6.41
7.56
8.67
10.1
12.8
16.3
20.5 24.8 27.6 30.2
33.4 35.7
18
6.26
7.01
8.23
9.39
10.9
13.7
17.3
21.6 26.0 28.9 31.5
34.8 37.2
19
6.84
7.63
8.91
10.1
11.7
14.6
18.3
22.7 27.2 30.1 32.9
36.2 38.6
20
7.43
8.26
9.59
10.9
12.4
15.5
19.3
23.8 28.4 31.4 34.2
37.6 40.0
21
8.03
8.90
10.3
11.6
13.2
16.3
20.3
24.9 29.6 32.7 35.5
38.9 41.4
22
8.64
9.54
11.0
12.3
14.0
17.2
21.3
26.0 30.8 33.9 36.8
40.3 42.8
23
9.26
10.2
11.7
13.1
14.8
18.1
22.3
27.1 32.0 35.2 38.1
41.6 44.2
24
9.89
10.9
12.4
13.8
15.7
19.0
23.3
28.2 33.2 36.4 39.4
43.0 45.6
25
10.5
11.5
13.1
14.6
16.5
19.9
24.3
29.3 34.4 37.7 40.6
44.3 46.9
26
11.2
12.2
13.8
15.4
17.3
20.8
25.3
30.4 35.6 38.9 41.9
45.6 48.3
27
11.8
12.9
14.6
16.2
18.1
21.7
26.3
31.5 36.7 40.1 43.2
47.0 49.6
28
12.5
13.6
15.3
16.9
18.9
22.7
27.3
32.6 37.9 41.3 44.5
48.3 51.0
29
13.1
14.3
16.0
17.7
19.8
23.6
28.3
33.7 39.1 42.6 45.7
49.6 52.3
30
13.8
15.0
16.8
18.5
20.6
24.5
29.3
34.8 40.3 43.8 47.0
50.9 53.7
31
14.5
15.7
17.5
19.3
21.4
25.4
30.3
35.9 41.4 45.0 48.2
52.2 55.0
32
15.1
16.4
18.3
20.1
22.3
26.3
31.3
37.0 42.6 46.2 49.5
53.5 56.3
33
15.8
17.1
19.0
20.9
23.1
27.2
32.3
38.1 43.7 47.4 50.7
54.8 57.6
34
16.5
17.8
19.8
21.7
24.0
28.1
33.3
39.1 44.9 48.6 52.0
56.1 59.0
35
17.2
18.5
20.6
22.5
24.8
29.1
34.3
40.2 46.1 49.8 53.2
57.3 60.3
36
17.9
19.2
21.3
23.3
25.6
30.0
35.3
41.3 47.2 51.0 54.4
58.6 61.6
37
18.6
20.0
22.1
24.1
26.5
30.9
36.3
42.4 48.4 52.2 55.7
59.9 62.9
38
19.3
20.7
22.9
24.9
27.3
31.8
37.3
43.5 49.5 53.4 56.9
61.2 64.2
39
20.0
21.4
23.7
25.7
28.2
32.7
38.3
44.5 50.7 54.6 58.1
62.4 65.5
40
20.7
22.2
24.4
26.5
29.1
33.7
39.3
45.6 51.8 55.8 59.3
63.7 66.8
41
21.4
22.9
25.2
27.3
29.9
34.6
40.3
46.7 52.9 56.9 60.6
65.0 68.1
42
22.1
23.7
26.0
28.1
30.8
35.5
41.3
47.8 54.1 58.1 61.8
66.2 69.3
43
22.9
24.4
26.8
29.0
31.6
36.4
42.3
48.8 55.2 59.3 63.0
67.5 70.6
44
23.6
25.1
27.6
29.8
32.5
37.4
43.3
49.9 56.4 60.5 64.2
68.7 71.9
45
24.3
25.9
28.4
30.6
33.4
38.3
44.3
51.0 57.5 61.7 65.4
70.0 73.2
47
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Veniamo ora alle tabelle di contingenza. Sono matrici Hf associate a funzioni f : A " B # R
tra due insiemi finiti A e B, contenenti di solito le frequenze
)
di coppie
!
!
(a i , b j) " A # B , ricavate sperimentalmente.
(
f a i, bj
! tipo m×n, ricavata da un
Questa tabella Hf va poi confrontata con un’altra, H0 , dello stesso
!
possibile modello ideale, che può derivare dal calcolo delle probabilità, ove possibile,
oppure!da opportune ipotesi di lavoro (ipotesi
! nulla o ipotesi zero). Ecco il procedimento:
-
Si determina la matrice Hf
$
m "1
se
n =1
&
n "1
se m = 1
Si pone gl = %
& m!
"
1
#
n
"
1
se m, n > 1
'
Si calcola la matrice H0 (che ha gli elementi ≠ 0)
(
-
)(
)
-
Si calcola Hf " H0
2
!
Si eleva al quadrato ogni suo elemento: Hf " H0
!
2
Si !
divide per H0 : Hf " H0
H0
-
!
Si sommano gli elementi di quest’ultima
matrice e si ottiene il numero k = " 2 gl, p ,
-
(
(
)
)
(
)
!
con p!incognito,
da ricavare sulla tabella.
-
Se p < 0,05, l’ipotesi nulla è da respingere.
!
ES E MPI O 4.1 4. Vogliamo verificare se ci sono differenze significative negli effetti di 3
antiparassitari su 80 rosai
affetti dai ragnetti rossi. L’insieme A è costituito dai tre
antiparassitari, che chiameremo a, b, c. L’insieme B è costituito dalle due categorie di rosai,
sottoposti in tre gruppi ai tre prodotti: i migliorati (m) e i non migliorati (nm).
La matrice Hf , di tipo 3×2, ricavata dagli esperimenti, sia:
!
m
nm
totali
18
20
12
10
12
8
28
32
20
totali 50
30
80
a
b
c
#18
%
$
&
(
'
10
" Hf = 20 12
12 8
L’ipotesi nulla sia la seguente: i tre farmaci hanno circa gli stessi effetti sul miglioramento
!
50 5
dei rosai. Allora la probabilità di miglioramento sarà ipotizzabile in p =
= = 0, 625.
80 8
Quella di non miglioramento sarà q = 1 " p =
3
= 0, 475.
8
!
Nei tre casi, i valori attesi di migliorati o no si ottengono moltiplicando per p e per q il
totale dei rosai testati: per !
il farmaco a si ha p⋅28 = 35/2 = 17,5; q⋅28 = 21/2 = 10,5.
48
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
a
b
E così via:
c
totali
m
nm totali
17, 5 10, 5
17, 5 10, 5
28
(i valori attesi sono minori di 50, ma per
12
20
12
32 " H0 = 20
12, 5 7, 5
12, 5 7, 5
20
50
30
#
%
$
80
&
(
'
esercizio procediamo ugualmente).
!
#18
Hf " H0 = 20
%
$12
&#
(%
'$
#0,5
&
2
H
"
H
=
( ( f 0) % 0
$0,5
'
& #
( %
' $
10
17,5 10,5
0,5 "0,5
12 " 20
12 = 0
0 ,
8
12,5 7,5
0,5 "0,5
(
Hf " H0
!
)
2
&#
(%
'$
& #
( %
' $
&
(
'
"0,5
0,5 "0,5
0,25 0,25
0 ) 0
0
=
0
0
"0,5
0,5 "0,5
0,25 0,25
#0, 25 0, 25& #17, 5 10, 5&
0, 014 0, 024
%
( %
(
: H0 = % 0
0 ( : % 20
12 ( = 0, 000 0, 000 .
!
%0, 25 0, 25( %12, 5 7, 5 (
0, 020 0, 033
$
' $
'
#
%
$
&
(
'
I gradi di libertà sono (3-1)⋅(2-1) = 2. La somma dei sei numeri della matrice finale è 0,091.
Pertanto: " 2!2, p = 0, 091 .
( )
Nella seconda riga della tabella troviamo che 0,091 è compreso tra 0,0506 e 0,103, quindi
0,975
! > p > 0,950.
G.L.\ P
0.995
0.990
1
…
…
2
0.975 0.950 0.900
…
…
…
0.0100 0.0201 0.0506 0.103
…
Se si vuole stimare meglio il valore di p si può usare l’interpolazione lineare: si calcola la retta passante per i
due punti (0.0506; 0.975 ) e (0.103; 0.950), mediante la solita formula:
y " 0, 975
0, 950 " 0, 975
=
x " 0, 0506
0,103 " 0, 0506
, che
dà, per x = 0,091, il valore di p = y ≈ 0,956.
!
Ma non è necessario: per respingere l’ipotesi nulla doveva risultare p ≤ 0,05. Qui
addirittura è quasi certo che i tre antiparassitari hanno effetti simili sui rosai (anche se,
ripeto, i valori attesi minori di 50 avrebbero richiesto un correttivo).
49
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
§ 5. IL CAS O C ONTINUO
Dobbiamo porci ora in un’ottica diversa: considerare un esperimento aleatorio che abbia
come esito una variabile x, che possa assumere tutti i valori da −∞ a +∞.
Ossia, Ω = R = ]−∞, +∞[.
Ciascun esito x abbia una densità di probabilità p(x) di uscire.
La probabilità di un evento E, che supponiamo sia un insieme di esiti x costituenti per
b
( ) " p(x)dx .
esempio un intervallo [a, b], sarà allora data da p E =
a
+#
( ) $ p(x)dx ,
La probabilità dell’evento certo deve essere 1, quindi deve essere 1 = p " =
!
e
-#
k
questo è un integrale generalizzato. Ossia lim
k"#
$ p(x)dx = 1.
-k
!
Ci sono poi altre complicazioni, che avvicinano il calcolo delle probabilità continuo a quello
della misura di un’area sul piano. !
Pertanto, non di tutti gli eventi è possibile calcolare la loro probabilità, così come non per
tutte le figure piane si può calcolare l’area.
In numerosi casi, che si ritrovano in quasi tutte le discipline scientifiche, la funzione che
descrive p(x) è una Gaussiana. Le funzioni gaussiane sono state presentate nel terzo
2
capitolo, come funzioni del tipo y = ea"x +b"x+c , con a < 0 , per descrivere grafici con una
forma a campana.
Sia x il suo punto di massimo
assoluto. Poiché
! la curva è simmetrica rispetto ad x , ed ha
!
due punti di flesso, denotiamo con " x la distanza di questi due punti da x . Ossia, le ascisse
!
dei flessi sono x " # x e x + " x .
!
Naturalmente, non è possibile
un esperimento aleatorio,
! calcolare tutti gli esiti possibili di !
soprattutto
nel caso
continuo; pertanto come visto nell’esempio delle famiglie, si eseguono
!
!
m campionature, per ciascuna si calcolano la media e la deviazione standard, e si calcolano
infine la media x delle medie e come " x si esegue la somma delle deviazioni standard
divisa per
!
!
m.
!
50
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Dal punto di vista statistico, x e " x rappresentano rispettivamente la media aritmetica e la
deviazione standard dell’insieme dei valori assunti dalla variabile aleatoria x, ossia degli
! !
esiti del nostro campionamento.
2
La funzione di Gauss più semplice è y = e"x . Il suo massimo si ha per x = 0 , i punti di
2
%
(
1
flesso si calcolano annullando la derivata seconda y" = 2 # '2x2 $ 1* # e$x , perciò " x =
.
&
)
2
!
!
+#
Infine,
$ e"x
2
dx =
% & 1, 77245 .
!
-#
!
Ne segue che occorre adattare i coefficienti a, b, c in modo che sia una funzione di
!probabilità con media x e deviazione standard " = " x , e l’area della parte di piano
compresa tra la curva e l’asse x sia 1.
!
Si ottiene: c y =
1
" # 2$
2
1 & x%x )
% #((
++
2 " *
#e '
c.
!
Una distribuzione di esiti x con una frequenza relativa (assunta come densità di
!
probabilità)
che abbia questo andamento è detta distribuzione normale o gaussiana.
{
}
Si noti che l’evento E = x x " # $ x $ x + # ha probabilità:
x +"
() ,
pE =
!
x -"
1
" # 2$
2
1 & x%x )
% #((
++
2 " *
#e '
dx - 0, 682689
{
}
()
qualunque siano x e σ. Invece, per l’intervallo E = x x " 2# $ x $ x + 2# si ha p E " 0, 95
!
!
Ecco tre grafici
sovrapposti, con m = x
il variare dei due
!
! e σ differenti, per vedere come
parametri possa cambiare la distribuzione.
!
Per ottenere poi la frequenza di un campione di r esiti x con media m e scarto quadratico
medio σ occorre moltiplicare ogni p(x) per r.
51
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
ES E MPI O 5. 1. Per una distribuzione di dati con media m = x = 10 e scarto quadratico
6
# 1, 89737 si ottiene la funzione gaussiana:
medio " =
10
!
2
2
y=
!
1 & x%x )
% #((
++
2 " *
#e '
1
" # 2$
=
5
6# $
%
#e
5
(
36
)
# x%10
%
2
(x%10)
#
7,2
e
,
4, 75599
Moltiplichiamo per 400 i valori di questa funzione e arrotondiamo agli interi:
x
!
p(x)*400
3
0
4
1
5
3
6
9
7
24
8
48
9
73
10
84
11
73
12
48
13
24
14
9
15
3
16
1
17
0
La tabella è simile a quella della pag. 40 della sezione precedente.
Una grandezza (o variabile aleatoria continua) x ha densità di probabilità
ES E MPI O 5.2 .
()
(o frequenza relativa) y = p x con distribuzione normale, ossia gaussiana, di media x = 6 e
deviazione standard " x = 1. Si scriva l’equazione della gaussiana normalizzata con questi
!
due parametri !
e se ne indichi il massimo. Si dica poi quale probabilità abbiamo di trovare
per x
!
a) un valore compreso tra 5 e 6;
b) un valore compreso tra 6 ed 8;
c) un valore minore di 5.
Rispo sta : La funzione è y =
1
vale
2"
1
" # 2$
2
1 & x%x )
% #((
++
2 " *
#e '
=
1
2$
1
% # x%6
#e 2
(
)
([ ])
2
. Il massimo si ha per x = 6 e
([ ])
# 0,16 . Inoltre, ricordando che p 5,7 " 0, 6826 e p 4,8 " 0, 954 , e che la
!
curva è simmetrica rispetto ad x = 6, si ha:
([ ])
0, 6826
= 0,3413
2
([ ])
0, 954
= 0, 477
2
a) !p 5, 6 "
b) p 6,8 "
!
!
([
])
c) p "#,5 =
!
!
( [ ]) $ 1 " 0, 6826 = 0,1587
p R \ 5,7
2
2
NOTA: Nel misurare una caratteristica (per esempio il peso) di animali adulti della stessa specie, può
!
accadere che si trovi una curva delle frequenze non gaussiana: in particolare, essa può presentare due
massimi relativi diversi. Ciò può significare che c’è dimorfismo sessuale oppure ci sono due popolazioni
diverse, in ciascuna delle quali, se valutata separatamente, troveremmo una gaussiana. Non entriamo però
in questo argomento, che pure è di primaria importanza naturalistica.
52
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
CAMPIONAMENTI
Se si ha a disposizione la totalità dei dati, si possono calcolare la media aritmetica e la
deviazione standard direttamente, come abbiamo visto in esempi ed esercizi.
Nella gran parte delle applicazioni della statistica però non si ha a disposizione la gamma
completa dei dati, o perché sono troppi per essere valutati, o perché è difficile procurarseli
per qualche impedimento.
ES E MPI O: su una enciclopedia naturalistica si legge una scheda relativa alla specie Gnu
azzurro, che popola numerosa le savane dell’Africa centrale e compie grandi migrazioni
stagionali. Si leggono dati quali il peso medio di un adulto, l’altezza al garrese, ecc. Poiché
nel solo parco del Serengeti ci sono (o c’erano negli anni ’70) un milione circa (?) di gnu,
come avranno fatto i naturalisti a indicare questi dati? Semplice: hanno catturato tutti gli
gnu, hanno controllato la loro data di nascita per sapere se erano adulti, li hanno pesati e
misurati uno per uno e poi li hanno rilasciati; dopodiché hanno calcolato le medie
aritmetiche e le deviazioni standard delle varie grandezze misurate …
Ovviamente non è così. Come hanno fatto? Come nell’esempio della famiglia con cinque
figli vista nel cap. 4: hanno scelto dei campioni. Però c’è una differenza: in quel caso c’era
già un calcolo di Teoria della Probabilità alle spalle, che anticipava il risultato. In questo
caso no. Allora è necessario limitarsi a scegliere dei campioni e, cosa non facile, fare scelte
in modo che siano rappresentative della popolazione intera.
La cosa che aiuta è che se la popolazione sotto esame è omogenea, le grandezze seguono la
distribuzione normale, o altrimenti detta gaussiana, in cui media aritmetica µ, moda e
mediana coincidono.
53
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Operiamo allora in modo di scegliere campioni casuali di equale numerosità, ossia con lo
stesso numero n di individui. Per ciascun campione misuriamo la grandezza che ci
interessa, per esempio il peso, di ogni individuo e calcoliamo la media m e la deviazione
standard del campione. Poi calcoliamo la media M delle medie. Che cosa otteniamo?
• Se avessimo un solo campione comprendente tutta la popolazione avremmo una sola
media M coincidente con la media µ della popolazione.
• Se avessimo tanti campioni, di un solo individuo ciascuno, quanti sono gli individui,
allora ogni media m coinciderebbe con l’unico dato e la media M delle medie sarebbe
uguale alla media µ della popolazione.
• Più in generale, se potessimo ripartire l’intera popolazione in k campioni di n individui
ciascuno, un semplice calcolo aritmetico mostra che la media M delle medie è uguale alla
media µ della popolazione.
In generale non è così, perché i campioni non sono a due a due disgiunti e non coinvolgono
l’intera popolazione, ma quasi: il teor e ma de l limite c en tra le afferma infatti che:
Le med ie de i ca mp ion i sono d is tribu it e “ nor malmen te ” (o s sia s u u na gau ss ia na)
con me dia M u gua le alla med ia µ d i po p olaz ione .
Nei testi di Statistica si legge inoltre che la varianza delle medie è direttamente
proporzionale alla varianza di popolazione e inversamente proporzionale al numero delle
osservazioni con cui ogni media è stata costruita.
In altri termini, la maggior parte dei dati giace attorno alla media; se una popolazione ha
bassa varianza, il campionamento sarà costituito da osservazioni poco distanti l’una dalle
altre; viceversa nel caso opposto; analogamente, si ha bassa varianza se il numero di
osservazioni in ogni campione è sufficientemente elevato (e in tal caso, la varianza v, di
peso n-1, e la varianza " 2, di peso n, sostanzialmente coincidono).
Ria ss u me ndo : siano µ e σ la media e la deviazione standard della popolazione; n il
!
numero dei dati in ogni campione, M la media delle medie dei singoli campioni, " M la
deviazione standard delle medie. Allora, se n è “grande”:
µ ≈ M,
" # "M $ n .
!
NOTE. a) La media delle varianze dei vari campioni e la varianza delle medie si possono ritenere
!
coincidenti.
b) Un ostacolo è l’applicare al caso discreto modelli continui, con ovvie necessità di approssimazioni.
54
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
§6. ESERCIZI
Vediamo qui due liste di esercizi. La prima contiene alcuni esempi riassuntivi immediatamente svolti
di uso delle formule e delle metodologie viste nel corso. La seconda parte invece contiene esercizi
non svolti immediatamente, ma con le soluzioni allegate in fondo. L’argomento non sarà di solito a
carattere naturalistico, ma non importa.
6.1. ESEMPI RIASSUNTIVI
6.1.A) Nel mio condominio le letture dei contatori dell’acqua calda e fredda sono eseguite
una volta l’anno in ciascun appartamento dai capi-scala, in modo da poter calcolare per
ciascun condomino il suo consumo ed addebitargli in bilancio consuntivo il costo
corrispondente.
Per agevolare il lavoro dei capi-scala, per ogni condomino e per ogni contatore sono
calcolati il consumo medio µ e la deviazione standard σ degli ultimi sei anni.
Si fa l’ipotesi che ogni consumo individuale segua una distribuzione gaussiana di media µ e
scarto quadratico medio σ.
Detta L la lettura dell’anno precedente, si fornisce quindi al capo scala l’intervallo [L+µ-σ,
L+µ+σ].
Il valore atteso della lettura è L+µ, ma ci sono ovviamente almeno le fluttuazioni statistiche.
Se nulla è cambiato nel menage familiare (niente nascite, decessi, matrimoni, divorzi, figli
che se ne vanno, lavatrici più efficienti, perdite, lavastoviglie ecc.), c’è il 68% di probabilità
che la nuova lettura sia entro quell’intervallo.
Se ciò non accade, si controlla che il nuovo consumo sia entro l’intervallo [µ-2σ, µ+2σ]: in
assenza di novità, c’è il 95% di probabilità che sia così.
Se è al di fuori, si rilegge il contatore o si cercano informazioni per giustificare un dato così
lontano dalle attese. Ciò posto, ecco i dati dei consumi di acqua calda per la cucina di tre
illustri condomini dal 2003 al 2009:
nomi
CESARE
POMPEO
CRASSO
Cons. Cons. Cons. Cons. Cons. Cons.
letture
min. max. letture Cons.
2003 2004 2005 2006 2007 2008 medie scarti 2008 lettura lettura 2009 2009
9
7
9
5
3
5
6
2
16
20
24
21
5
18
16
15
19
13
15
16
2
55
69
73
67
12
9
10
10
12
12
7
10
2
52
60
64
82
30
55
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Che cosa ci va nelle caselle bianche? Il consumo è “normale”, oppure è poco o molto fuori
norma? Vediamo:
Per Cesare si ha: µ =
"=
9 + 7 + 9 + 5 + 3 + 5 38 19
=
=
" 6, 3 ;
6
6
3
1
381
381
81 + 49 + 81 + 25 + 9 + 25 #
= 45 #
=
6 !
9
9
(
)
24 2
=
6 $ 1, 6
9
3
Quindi:
µ-σ = 6,3-1,6 = 4,7; µ+σ = 6,3+1,6 = 7,9.
!
Poiché però i dati sono numeri interi, arrotondiamo tutto a zero cifre decimali: µ=6, σ=2,
quindi µ-σ = 4, µ+σ = 8.
[
]
La lettura 2008 era 16, quindi la lettura 2009 era attesa entro l’intervallo 20, 24 .
La lettura 2009 in effetti fu 21 ed il consumo 5, entro i limiti, (nonostante un trend al
ribasso dei consumi negli ultimi quattro anni.)
!
Si procede analogamente con gli altri due condomini:
nomi
CESARE
POMPEO
CRASSO
Cons. Cons. Cons. Cons. Cons. Cons.
letture
min. max. letture Cons.
2003 2004 2005 2006 2007 2008 medie scarti 2008 lettura lettura 2009 2009
9
7
9
5
3
5
6
2
16
20
24
21
5
18
16
15
19
13
15
16
2
55
69
73
67
12
9
10
10
12
12
7
10
2
52
60
64
82
30
Si noti che Pompeo è leggermente più basso, ma rientra nell’intervallo [µ-2σ, µ+2σ] e
potrebbe ancora essere una fluttuazione statistica.
Invece Crasso è proprio fuori: qualcosa che non va c’è e merita una ulteriore indagine.
(In effetti, risultò che Crasso abitava quell’appartamento solo dal 2009. I dati dei sei anni
precedenti si riferivano alla famiglia che vi abitava prima di lui).
6.1.B) Vorremmo pesare con una certa accuratezza un oggetto. Una bilancia da cucina può
fornire una stima del peso, ma con un intervallo di 10 grammi: il risultato è compreso fra
100 e 110 grammi. Se assumiamo come peso dell’oggetto la media aritmetica, 105 grammi,
commettiamo un errore massimo di 5 grammi, pari a un po’ meno del 5%.
Abbiamo anche una bilancia a due bracci. Non abbiamo
dei pesi a disposizione, ma solo delle palline di un
qualche
metallo,
contenerle.
(La
tutte
uguali,
scatola
è
ed
una
necessaria,
scatola
per
altrimenti
ruzzolerebbero via).
Se potessimo valutare il peso di ogni pallina e quello del recipiente, potremmo usarli per
pesare l’oggetto. Come fare?
56
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Siano m il peso di una pallina e q il peso della scatola.
Allora, x palline nella scatola pesano y = m " x + q grammi. Possiamo fare alcune pesate sulla
bilancia da cucina, mettendo nella scatola numeri diversi di palline e ricavando ogni volta il
peso y arrotondato alla decina !di grammi più prossima. Ecco la tabella ed il grafico:
x
y
20 90
25 110
30 130
35 150
40 160
Per trovare m e q applichiamo il metodo dei minimi quadrati (si veda il cap. III):
x = 30
! , y = 128 ; " x = 50 = 5 2 , " y = 656 = 4 41 , c xy = 180 .
!
c xy 180
Allora: m =
=
= 3,5 è il peso di ogni pallina.
50
!
! " 2
!
!
x
Infine, q = y " m # x = 128 " 3,5 # 30 = 23 è il peso della scatola.
c xy
!
Si ha poi r =
=
"
#
"
x
y
!
180
50 # 656
=
9 82
$ 0, 994 , assai buono.
82
Posto su un piatto della bilancia a bracci l’oggetto da pesare e sull’altro la scatola con le
palline,
si vede che 37 palline sono poche e 38 sono troppe. Perciò il peso dell’oggetto è
!
compreso tra 3, 5 "37 # 23 = 106, 5 e 3, 5 "38 # 23 = 110 grammi.
La media è di 108,25 grammi, che possiamo assumere come stima del peso dell’oggetto.
!
L’errore
3,5:2 = 1,75 grammi, pari all’1,61%. Questa misura è più
! compiuto è al massimo
accurata dell’altra.
6.1.C) Se si ha a disposizione la totalità dei dati si possono calcolare la media aritmetica e la
deviazione
standard
direttamente.
Per
quel
che
riguarda
i
consumi
dell’acqua,
l’amministratore può farlo per l’intero insediamento: per l’acqua calda in cucina nel 2010
la somma dei consumi individuali fu C = 1232 m 3 ; divisa per 162 condomini diede la media
µ = 7, 6 m 3 , con deviazione standard " = 6,1 m 3 .
! appartamenti.
Le scale sono 9, ciascuna con 18
!
scale
consumi
medie indiv.
1
132
7,3
2
121
6,7
!3
127
7,1
4
113
6,3
5
170
9,4
6
80
4,4
7
168
9,3
8
116
6,4
9
205
11,4
Media:
136,9
7,6
Guardando la seconda riga, la dispersione appare notevole: basta valutare l’intervallo di
variazione d e la deviazione standard di quei dati (vedi cap. II).
57
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Eseguito il calcolo per le due caselle blu, la media dei consumi per ogni scala è 136, 9 m 3 ,
mentre la media M delle medie individuali per scala è 7, 6 m 3 , pari alla media individuale µ
dell’intero condominio.
!
!
Nel nostro caso questa coincidenza è ovvio dal punto di vista aritmetico. Infatti, abbiamo 9
campioni disgiunti di 18 individui, quindi detto c i il consumo di una scala, si ha
m i = c i /18 , ed allora:
1
"
9
!
9
#
i=1
mi =
1
"
9
9
#
i=1
!9
ci
1
C
1232
=
"
ci =
=
= 7, 6
18 162
162
162
#
i=1
Ossia, la media M delle medie è uguale alla media generale µ (arrotondamenti a parte), in
accordo col teorema
del limite centrale.
!
6.1.D) In una scatola ci sono molte palline di colori Bianco, Giallo, Rosso, Verde. Estraiamo
per 160 volte una pallina, controlliamo il colore e la reimmettiamo nella scatola. Otteniamo
la seguente tabella:
col. freq.
B
42
G
37
R
47
V
34
!
Può essere ragionevole pensare che nella scatola ci sia lo stesso numero di palline di
ciascun colore?
L’ipotesi nulla è che siano fluttuazioni statistiche. Perciò ogni colore ha ¼ di probabilità di
uscire. Il valore atteso è allora 160⋅1/4 = 40 per ciascun colore. La matrice degli scarti è
[
] (
quindi H " H0 = 2 "3 7 "6 # H " H0
)
2
$ 4
: H0 = &
% 40
Poiché qui gl = 4-1 = 3, ne segue " 2 3, p =
( )
9
40
49
40
36 '
).
40 (
98
= 2, 45.
40
!
Dalla tabella si ottiene 2,37 < 2,45 < 4,11, quindi 0,5 > p > 0,25.
Poiché non è p < 0,05, l’ipotesi
nulla non si può respingere.
!
Si noti però che qui i valori attesi sono minori di 50, quindi il valore di " 2 andrebbe corretto.
!
58
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
6.1.E). Da un’urna che contiene palline Blu, Gialle e Blu estraiamo per 10 volte 20 palline,
poi reimmettiamo le palline nell’urna dopo averne contato i colori.
B
R
G
tot.
I
7
7
6
20
II
10
6
4
20
III
9
8
3
20
IV
9
6
5
20
V
10
4
6
20
VI
11
5
4
20
VII
8
7
5
20
VIII
9
5
6
20
IX
8
6
6
20
X
9
6
5
20
totale
90
60
50
200
media
9
6
5
20
Dev. std
1,2
1,2
1,0
Riportiamo su un istogramma le frequenze di uscita dei vari colori:
B
R
G
G
3
0
0
11
4
0
1
22
5
0
2
33
6
0
4
44
7
1
2
00
8
2
1
00
9
4
0
00
10
2
0
00
11
1
0
00
totale
10
10
1100
moda
9
6
66
Notiamo che nonostante lo scarto nel caso del giallo sia il minore, è l’unico in cui la moda,
6, non uguagli la media 5. Del resto, il numero dei campioni è basso, solo 10.
Se assumiamo il rapporto media/20 come probabilità di ogni colore, e nell’urna ci sono 500
palline, il valore atteso di palline blu è 500⋅9/20 = 225, quello di palline rosse è
500⋅6/20 = 150 e quello di palline gialle è 500⋅5/20 = 125.
Se supponiamo che la tabella delle uscite sia una tabella di contingenza frutto solo di
fluttuazioni statistiche, possiamo confrontarla con quella in cui i termini di ogni riga sono
uguali alla rispettiva media. Il test di Pearson fornisce allora " 2 = 5,33 . Poiché la matrice è
3×10, ci sono 18 gradi di libertà, quindi 5, 33 = " 2 18, p < 6, 26 # p > 0, 995 . Ciò conferma
(
)
!
questa ipotesi nulla.
Se invece ipotizziamo che ci sia lo !
stesso numero di palline dei tre colori, allora nelle celle
di H0 ci va la media dei 30 dati, cioè 200/30 ≈ 6,7. Il test dà allora 18, 01 = " 2 18, p , valore
(
)
compreso tra 17,3 e 21,6, corrispondenti a 0,5 > p > 0,25 quindi p > 0,05, insufficiente a
!
respingere la nuova ipotesi nulla.
!
59
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Questo dà un’idea della difficoltà di interpretare in modo elementare i dati statistici. Si pensi al problema
della (presunta?) variazione del clima terrestre. Ecco un esempio:
6.1.F). In una località sono stati conteggiati i giorni di sole, di pioggia e di nebbia per un
decennio dal 1950 al 1960 e dal 2000 al 2010. I dati medi annui sono riportati nella
tabella seguente.
Si può affermare che il clima sia
sole
pioggia
nebbia
totali
50-60
160
120
85
cambiato, oppure le variazioni
00-10
180
110
75
possono considerarsi rientrare
nelle fluttuazioni statistiche?
totali
Si tratta di una classica tabella di contingenza. Cominciamo col sommare per righe e
colonne, poi calcoliamo i rapporti tra i totali delle colonne ed il totale generale, ottenendo
per le tre colonne i valori di probabilità: 0,48
0,30
0,22. Moltiplichiamo questa terna per
i totali delle righe, 365, ed otteniamo la matrice H0
Hf
!
1950-60
sole
160
pioggia
120
nebbia
85
totale
365
2000-10
190
100
75
365
totale
350
Calcoliamo ora
220
(Hf " H0 )
H0
160
H0
sole pioggia nebbia totale
1950-60 175,00 110,00
80
365,00
!
730
2000-10 175,00 110,00
totale 350,00
220
!
2
80
160
365,00
730
2
1,29 0,91 0,31 " = 5, 01
e sommiamo:
1,29 0,91 0,31
I gradi di libertà sono 2. La tabella ci dà:
!
probabilità
!
0,995
0,990
0,975
0,950
0,900
0,750
0,500
0,250
0,100
0,050
0,025
0,010
0,005
gr=2
0,01
0,0201
0,0506
0,103
0,211
0,575
1,39
2,77
4,61
5,99
7,38
9,21
10,6
Allora, l’ipotesi nulla non può essere respinta, perché la probabilità corrispondente a
" 2 = 5, 01 è compresa tra il 5% ed il 10%, quindi non inferiore alla soglia del 5%.
!
60
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
6.2. ESERCIZI DI PROBABILITÀ E STATISTICA.
NOTA: gli esercizi seguenti sono da svolgere in preparazione dell'esame del modulo di Statistica, ma alcuni
sono pensati da svolgere con l'ausilio di strumenti di calcolo o di software superiori a quelli richiesti
per la prova scritta.
1. Se in una specie animale le nascite di maschi e femmine hanno la stessa probabilità e se
ogni nascita non influenza le altre, qual è la probabilità che di otto figli, cinque siano
femmine e tre maschi? E quella che le femmine siano almeno cinque?
{ }
dalla probabilità di vincere giocando l'ambo {31, 49 } ?
2. Qual è la probabilità di vincere giocando l'ambo 1,2
sulla ruota di Milano? E' diversa
3. Se si gioca un ambo su tutte e dieci le ruote del lotto, si vince se esce in almeno una di
esse. Qual è la probabilità di vincere? (Suggerimento: si calcoli prima la probabilità di
non vincere).
4. Un mazzo di carte piacentine da briscola è composto da quattro "semi" di 10 carte
ciascuna: asso, due, tre, quattro, cinque, sei, sette, fante, cavallo, re. I semi sono: denari,
coppe, spade e bastoni. Ad un giocatore sono date tre carte. Che probabilità c'è che
siano tre re? E che siano un re, un fante ed un asso? O che siano di tre semi diversi?
5. La densità di probabilità di una grandezza è una gaussiana di media µ = 6 e deviazione
standard ! = 1 . Qual è la probabilità di trovare una grandezza di misura inferiore a 4?
6. In un pollaio ci sono 12 anatre, 15 galline faraone, 16 galline e 9 tacchini. Si traccino
diagrammi a colonne, a torta e a ideogrammi per illustrare questi dati.
7. Secondo la formula di Poisson, se la media delle misure di una grandezza è m = 9, che
probabilità c'è di trovare una misura uguale a 7?
8. Mediante
alcuni
esperimenti
sono
state
ricavate
le
seguenti
coppie
di
dati:
x !2 !1 0 1 2
3
. Si provi dapprima a calcolarne il polinomio interpolatore,
y 3 4 5 6, 5 8 10, 5
(di 5° grado). Si trovi poi la retta di regressione ed il coefficiente di correlazione. Infine,
passando per un diagramma semilogaritmico, si trovi la regressione esponenziale
61
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
y = a ! em!x ed il coefficiente di correlazione. Quale dei tre modelli sembra "migliore" per
rappresentare matematicamente i dati?
9. Mediante
alcuni
esperimenti
sono
state
ricavate
le
seguenti
coppie
di
dati:
x !2 !1 0 1 2 3
. Si trovi la retta di regressione ed il coefficiente di correlazione.
y !5 !2 0 2 3 4
Seguendo poi il procedimento geometrico illustrato negli appunti, si provi a trovare
anche la regressione quadratica y = a ! x2 + b ! x + c . Si riporti poi il tutto su un grafico
cartesiano.
10. A due gruppi di volontari malati di una stessa patologia sono stati somministrati un
farmaco ed un placebo (ossia uno pseudo-farmaco senza principio attivo). Il farmaco è
stato somministrato a 60 pazienti e ne sono migliorati 42. Il placebo invece è stato
somministrato a 54 pazienti e ne sono migliorati 20. Qual è la probabilità che l'effetto
sia lo stesso, ossia che il farmaco sia inutile?
11. Un conteggio di ragnatele in una vecchia ala di 10 aule di una scuola ha dato il risultato
seguente. La distribuzione è da considerarsi casuale?
aula
1
2
3
4
5
6
7
8
9
10
ragnatele 78 18 64 24 30 70 59 10 15 22
.
12. Decidiamo di "investire" denaro giocando al lotto su un numero fisso (il 30) sulla ruota
!
di Genova. Il "budget" a disposizione è 50.000 euro. In caso di uscita del nostro numero
(a proposito, che probabilità ha?) la Sisal paga 11,2 volte l'importo che abbiamo giocato:
se puntiamo un euro, ne vinceremmo 11,20, quindi il guadagno netto è 10,20 euro.
Decidiamo però di non volere guadagnare, ma solo di non rimetterci, perciò
cominciamo con un euro e, se non esce per 11 volte, la dodicesima aumentiamo la
giocata in modo che in caso di vincita recuperiamo per intero la somma spesa fino a
quel momento (12 euro). E così ci comporteremo anche nelle giocate successive finché
non vinceremo o fino a che avremo denaro sufficiente. Se siamo sfortunati, dopo quante
giocate al massimo dovremo interrompere il gioco perché non abbiamo più denaro
sufficiente per la giocata successiva? E se volessimo guadagnare alla fine 10,2 ?
13. Si stabilisca la frequenza delle 21 lettere del nostro alfabeto nella poesia “San Martino”
di G. Carducci (1835-1907) (professore ordinario a Bologna e premio Nobel per la
lettereratura). (Suggerimento: si scriva il testo in Word e una per una si sostituiscano le
21 lettere con il simbolo =; automaticamente Word fornisce il numero di sostituzioni).
62
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Rispo ste
1) Secondo la formula di Bernoulli, la probabilità di cinque femmine e tre maschi è
!8 $ ! 1 $5 ! 1 $3 !8$
# &'# & '# & = # &
# 5& # 2 & # 2 &
#3&
" % " % " %
" %
! 1$ 8
8'7'6
7
' ## && =
=
= 0,21875 ( 21,9% .
3' 2 '1 ' 256 32
" 2%
La
probabilità
che
almeno cinque siano femmine, oltre al caso precedente, comprende anche sei, sette od
! n$ ! n $
& , si ottiene:
otto femmine, quindi, ricordando che ## && = ##
&
" k% " n ' k%
1
256
" "8 % "8% "8% "8% % 56 + 28 + 8 + 1
93
! $$ $$ '' + $$ '' + $$ '' + $$ '' '' =
=
( 36, 3%
256
256
# # 3& #2& #1& #0& &
2) La probabilità di un ambo su una ruota si calcola prendendo come spazio campionario
! 90 $
l'insieme delle cinquine possibili, che sono ## && e considerando come evento l'uscita di
" 5%
una cinquina con i due numeri che abbiamo giocato: queste devono avere oltre ai nostri
!88 $
due numeri, altri tre fra i 90-2 = 88 rimanenti, ossia ce ne sono ## && . Pertanto la
" 3%
probabilità di vincere giocando un qualunque ambo è:
!88 $
# &
# 3&
" %
!90 $
# & = 88 ' 87 ' 86 ' 5' 4 ' 3' 2 '1 = 5' 4 = 10 ( 0,25% .
# 5 & 3 ' 2' 1' 90 '89 ' 88 ' 87 ' 86 90 ' 89 4005
" %
Un ap pr occ io alt er n ativ o: il primo numero deve essere uno dei cinque numeri estratti sui 90
disponibili, quindi ha probabilità 5/90 di uscire; se esce, il secondo deve essere uno degli altri
quattro numeri estratti sui restanti 89, quindi ha probabilità 4/89. Pertanto, la probabilità è:
5 4
10
.
!
=
90 89 4005
3) Calcoliamo la probabilità dell'evento complementare, ossia la non uscita del nostro ambo
su nessuna delle 10 ruote. Dall'esercizio precedente, su ogni ruota la probabilità di non
uscita è 1 !
10
3995
=
" 99,75% . Il risultato su una ruota non influenza quello sulle
4005
4005
! 3995 $ 10
&
' 97,53% . Dunque, la
altre, perciò la probabilità di perdere è pari a ##
&
" 4005 %
(
)
probabilità di vincere è 100 ! 97, 53 % " 2, 47% .
63
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
4) Dal testo appare chiaro che ogni carta estratta non viene rimessa nel mazzo. Ciò posto, la
probabilità che prima carta sia un re è 4/40 = 1/10; se la prima è un re, la probabilità
che lo sia anche la seconda è 3/39 = 1/13; se le prime due sono dei re, la probabilità
che lo sia anche la terza è 2/38 = 1/19. Dunque, la terna di tre re ha probabilità
1 1 1
1
!
!
=
" 0, 04% .
10 13 19 2470
! 40 $
(Un a p pr occ io alte r nativ o : le terne possibili sono ## && ; quelle formate da tre re sono
" 3%
! 4$ ! 4$
! $
4'6
1
# & = # & = 4 ; allora la probabilità di tre re è 4 # 40 & =
# 3& # 1&
# 3 & 40 ' 39 '38 = 2470 ).
" % " %
" %
Ragionando come sopra, se l'ordine di estrazione è (re, fante, asso) il re ha probabilità
4/40, il fante 4/39 e l'asso 4/38, quindi
4 !4!4
4
=
" 0,1% .
40 ! 39 !38 3705
Se invece l'ordine di estrazione non ha importanza, ma contano le tre carte che il
giocatore
ha
in
mano,
4
8
!6 =
" 0, 65% .
3705
1235
allora
occorre
moltiplicare
per
3! = 6,
ottenendo
3
(U n a pp r occi o a lter nativ o: ci sono 4 = 64 terne ordinate
! 40 $
costituite ciascuna da un re, un fante ed un asso; le terne non ordinate di carte sono ## && e
" 3%
! 40$
64 ' 6
8
=
quindi abbiamo, come sopra, 64 ## && =
).
40 '39 ' 38 1235
" 3%
Nell'ultimo caso, la prima carta è indifferente (probabilità = 1), la seconda deve essere
una delle 30 su 39, di seme diverso dalla prima (30/39 = 10/13), e la terza una delle 20
su
1!
38,
di
seme
diverso
dalle
prime
due
(20/38
=
10/19);
ne
segue
10 10 100
!
=
" 40,5% .
13 19 247
(Un ap pr occ io alt er nat ivo : una terna con tre semi diversi, quindi uno escluso, ha 10
3
possibili scelte; poiché le scelte del seme escluso sono 4, ci sono 4000 terne possibili con tre
! 40 $
4000 ' 6
100
=
semi diversi. Ne segue 4000 ## && =
).
" 3 % 40 ' 39 '38 247
5) La funzione gaussiana di media µ = 6 e scarto quadratico medio σ = 1 ha equazione:
y=
1
2!
# 1 x#6
"e
2
(
)
2
[
] [
]
. E' noto che nell'intervallo µ ! 2", µ + 2" = 4, 8 è racchiuso circa il
95% dell'area tra la gaussiana e l'asse x, (più precisamente, il 95,45%) che in totale vale
]
1; pertanto, per simmetria, nell'intervallo !", 4
64
]
è racchiusa metà dell'area residua,
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
ossia
1
1 ! 0, 95 = 0,025 ; allora la probabilità dell'evento !", 4 , ossia di trovare un
2
(
]
)
]
dato di misura minore di 4 è del 2,5%. (Più precisamente, la probabilità è p(E) ≈ 2,275%).
6) Per rappresentare 12 anatre, 15 faraone, 16 galline e 9 tacchini del pollaio mediante
istogrammi possiamo servirci di carta millimetrata o di un banale software da disegno o
Excel. Per un diagramma a torta occorre calcolare il totale del pollame, ossia 52, poi (se
si lavora in gradi) fare le 4 proporzioni: per le anatre, 12:52 = x:360, da cui x ! 83° ;
idem per gli altri tre tipi di animali da cortile (o ne bastano altri due?) ed infine col
goniometro o con software apposito tracciare un cerchio e i quattro angoli al centro
trovati. Oppure, con Excel si fa in automatico ed è calcolata la percentuale di ogni
categoria sul totale. Per gli ideogrammi, occorrerebbe trovare una figurina per ciascuno
dei quattro tipi di pollame e ripeterla tante volte quant'è il numero di capi. Potete
provare per divertimento!
7) La formula di Poisson , dice che la probabilità che una variabile aleatoria x di media m sia
(
)
uguale ad un valore h è p x = h =
m h #m
97 #9
" e . Allora, p x = 7 =
"e
$ 0,117 .
h!
7!
(
!
!
65
)
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
8) Il
polinomio
interpolatore
della
tabella
x !2 !1 0 1 2
3
y 3 4 5 6, 5 8 10, 5
è
del
tipo
y = a5 " x5 + a 4 " x4 + a3 " x3 + a 2 " x2 + a1 " x + a 0 . Si impone il passaggio di questa curva per
(
)
(
)
i sei punti "2, 3 , K , 3, 10.5 , ottenendo un sistema lineare di sei equazioni nelle sei
!
incognite a 0,K, a5 . Chi, come me, preferisce i calcoli in forma simbolica, al posto di 6,5
si scriva
13/2, e al posto di 10,5 si scriva 21/2.
!
!
!
# "32a + 16a " 8a + 4a " 2a + a
5
4
3
2
1
0
%
"a5 + a 4 " a3 + a 2 " a1 + a 0
%
%
a0
$
a
+
a
a
+
a
+
a
+
%
5
4 3
2
1 a0
% 32a + 16a + 8a + 4a + 2a + a
5
4
3
2
1
0
%
&243a5 + 81a 4 + 27a3 + 9a 2 + 3a1 + a 0
$#32 16 #8 4 #2 1
=3
3 '
&
)
=4
4 )
& #1 1 #1 1 #1 1
& 0
=5
0 0 0 0 1
5 )
"C=&
)
= 13 2
1 1 1 1 1 13 2)
& 1
& 32 16 8 4 2 1
=8
8 )
&
)
= 21 2
%243 81 27 9 3 1 21 2(
Il sistema si risolve applicando alla matrice C l’algoritmo di Gauss-Jordan (conviene
!
prima scambiare di posto la prima e la quarta riga e poi portare la terza riga all’ultimo
posto)(1). Alla fine si ottiene il polinomio y =
1
48
x5 "
1
24
x4 "
5
48
x3 +
7
24
x2 +
4
3
x + 5.
La retta di regressione si ottiene invece come indicato nel cap. 3:
"x =
!
19 1
105
# =
$ 1,7078 $ 1,7 . Poi, y = 37 6 " 6,17 e " y =
6 4
6
Infine, c xy =
44
6
"
37
12
=
17
4
= 4,25.
!
230
# 2,5276 # 2,53 .
6
!
!
&
2 17 36
51
#
=
$ 1, 457
(( m = c xy " x =
4 105 35
* y = 1, 457x + 5, 438 .
Allora la retta è: '
!
(q = y % m # x = 37 % 51 # 1 = 571 $ 5, 438
()
6 35 2 105
!
Il coefficiente di correlazione è
!
r=
c xy
"x # "y
=
17
6
6
#
#
$ 0, 9845 .
4
105 230
!
(1)
Esiste però una formula di Lagrange per calcolarlo.
66
x = 1 2 = 0,5 ;
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Infine,
per
calcolare
la
regressione
esponenziale, facciamo uso di un diagramma
semilogaritmico, sostituendo ai dati y i loro
logaritmi:
x
"2
y# = ln y
()
"1
0
1
2
3
1,10 1,38 1, 61 1,87 2, 08 2,35
.
Allora y" # 1,73, " y# $ 0,5 e c xy" # 0,72 . Ne
!
segue y" = 0,246x + 1, 61, con
r " 0, 999 .
!
!
!
Allora, y = e1,61 " e0,246x # 5 " e0,246x .
!
!
I grafici sono eseguiti con Geogebra
: in rosa il
polinomio interpolatore; in nero la retta e in
!
blu l’esponenziale. Quest’ultima approssima
meglio i dati rispetto alla retta.
9) Nella tabella
pertanto
"y =
x !2 !1 0 1 2 3
i dati x sono gli stessi dell’esercizio precedente,
y !5 !2 0 2 3 4
x = 1 2 = 0,5 ;
58 1
# =
! 6 9
"x =
19 1
105
# =
$ 1,7078 $ 1,7 .
6 4
6
Poi,
y=
1
3
" 0,33,
31
86
" 5,17. La retta di regressione ha quindi
$ 3, 09 . Infine, c xy =
3
6
!
!
31 36
62
1 62 1
58
"
=
# 1,77 , q = "
# ="
$ "0,55 , ed il coefficiente di correlazione è
6 105 35
3 35 2
105
!
31
6
3
r=
"
"
# 0, 979 . Per trovare la parabola di regressione, poniamo:
6
105 86!
m=
!
!
!
!
#"2&
"4%
#"5&
"1%
% (
$ '
% (
$ '
%"1(
$ 1'
%"2(
$1'
% 0(
$
'
%
(
$1'
0
0
X = % ( , T = X 2 = $ ' , Y = % ( , U = $ ' , Y" = a # T + b # X + c # U .
% 1(
$ 1'
% 2(
$1'
% 2(
$4'
% 3(
$1'
% (
$ '
% (
$ '
$ 3'
#9&
$ 4' ! #1&
Imponiamo ora che il vettore Y’-Y sia perpendicolare ai vettori T, X, U, ponendo = 0 il
!
!
!
loro prodotto scalare.
67
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Otteniamo il sistema:
% T " Y# $ Y = 0
'
'
& X " Y# $ Y = 0 )
'
'( U " Y# $ Y = 0
(
(
(
)
)
)
% T " Y# = T " Y
'
& X " Y# = X " Y .
' U " Y# = U " Y
(
Sostituiamo Y" = a # T + b # X + c # U :
$ T " T #a + T " X # b+ T " U #c = T " Y
&
&
" T #a + X " X # b+ X " U #c = X " Y .
% X!
&
&' U " T # a + U " X # b + U " U # c = U " Y
(
(
(
!
)
)
)
(
(
(
)
)
)
(
(
(
)
)
)
Ora eseguiamo quei prodotti scalari:
"115a + 27b + 19c = 28
$
# 27a + 19b + 3c = 32 &
$
19a + 3b + 6c = 2
%
!
" a = '1 4
$
# b = 283 140 .
$ c = 4 35
%
Pertanto, in forma approssimata abbiamo
la retta y = 1,77x " 0,55 e la parabola
!
y = "0,25x2 + 2, 02x + 0,114 .
!
!
10) Dei due gruppi di volontari malati, col farmaco sono migliorati 42 e non migliorati 6042 = 18; col placebo sono migliorati 20 e non migliorati 54-20 = 34. Abbiamo allora la
farmaco
seguente tabella di contingenza:
placebo
totali
migliorati non m. totali
42
18
60
. Se il farmaco ha
20
34
54
62
52
114
circa lo stesso effetto del placebo, la probabilità di miglioramento è 62/114, mentre
quella di non miglioramento
è 52/114. Allora, i numeri attesi nei due casi sono:
!
migliorati non m. totali
farmaco
32, 63
27,37
60
placebo
totali
29,37
62
24, 63
52
54
114
.
La
matrice
differenze
è
# 9,37 "9,37&
2 $87,80 87,80'
H " H0 = %
( ; eleviamo al quadrato: H " H0 # &
) , poi dividiamo
$"9,37 9,37 '
%87,80 87,80(
(
!
(
per H0 : H " H0
!
!
)
2
)
$2, 69 3,21'
: H0 # &
) e poi sommiamo: " 2 = 12, 45. C’è un solo grado di
2,
99
3,56
%
(
!
libertà, perciò dalla prima riga della tavola troviamo che la probabilità di avere
!
2 = 12, 45 è fuori tabella, ossia minore dello 0,005. Allora, come del resto era intuibile,
"!
l’ipotesi nulla è respinta ed il farmaco è efficace.
!
delle
68
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
11) Valutiamo la distribuzione col test di Poisson calcolando il rapporto v/m tra varianza e
media:
m=
!
v=
!
1
" 78 + 18 + ... + 22 = 39 ;
10
(
)
$
2
2
1
# && 78 " 38 + 18 " 38 + K + 22 " 38
10 " 1 %
Allora
!
aula
1 2 3
4
5 6 7 8 9 10
. Si ha:
ragnatele 78 18 64 24 30 70 59 10 15 22
(
) (
)
(
)
2'
)) =
(
5960
* 662.
9
v
" 16, 97 >> 1 , e quindi la distribuzione è di tipo aggregato.
m
12) Questo non è un esercizio di Probabilità e neppure di Statistica, ma lo vediamo
!
ugualmente, perché qualche attinenza ce l’ha e come esempio di creazione di un
modello matematico per affrontare un problema. Per cominciare, osserviamo che la
probabilità di uscita di un numero è 5/90 = 1/18, ma la Sisal paga 11,2 volte l'importo
che abbiamo giocato. Ciò posto, poiché stabiliamo di uscirne alla pari, vediamo che cosa
succede: fino alla undicesima giocata la vincita è superiore alla somma spesa fino a quel
momento. Dalla dodicesima in poi dobbiamo aumentare man mano la quota. Infatti, la
spesa totale di 12 euro sarebbe superiore alla eventuale vincita di 11,2 euro. Sia x la
somma giocata alla dodicesima giocata: la spesa è 11+x, la vincita eventuale 11,2x,
quindi abbiamo l’equazione 11 + x = 11,2 " x # x =
11
$ 1, 07843 . Per ottenere una
10,2
formula generale, sia sn , n " 11 , la somma complessivamente giocata alla n-esima
puntata.
Allora
alla!
successiva,
detta
x
la
somma
puntata,
si
ha
s
sn + x = 11,2 " x #!x = n , quindi:
10,2
sn +1 = sn +
!
#
sn
1 &
11,2
= sn " %%1 +
) 1, 098 " sn
(( = sn "
10,2
10,2
$ 10,2 '
Poiché s11 = 11 , allora s11+k = 11 "1, 098k . Supponiamo che il nostro numero non esca per
varie volte; a!che punto finiremo i 50.000 euro? Risolviamo l’equazione
!
(
)
ln 4545, 45
!
50000
50000 = 11 "1, 098 k # 1, 098k =
$ 4545, 45 # k =
$ 90 .
11
ln 1, 098
(
)
Pertanto, se il numero non esce per 90+11 = 101 estrazioni, avremo speso circa 49614
euro,
! ossia quasi tutto, e non avremo abbastanza denaro per un’ulteriore giocata.
Per curiosità, se fossimo partiti con 115.000 , li avremmo finiti dopo 110 giocate...
Si può generalizzare ipotizzando di voler vincere qualcosa di più di quanto speso, diciamo
m " sn + q , con m ≥ 1 e q ≥ 0. Sia s1 la somma giocata alla prima puntata.
69
!
!
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Alla n+1-esima si ha l’equazione: m " sn + q + x = 11,2 " x # x =
" sn +1 = m # sn + q +
m " sn + q
,
10,2
m # sn + q
11,2
= m # sn + q #
" sn +1 = 1, 098 # m # sn + q .
10,2
10,2
(
)
(
)
!
Ipotizziamo ora s1 = 1, m = 1, q = 10,2 . Poniamo poi r = 1, 098 . Allora s2 = r " 1 + q , poi:
(
2
s!
3 = r " s2 + q = r " r " 1 + q + q = r + q " r " 1 + r ,
#
&
#!
&
s4 = r " s3 !
+ q = r " %r 2 + q " r " 1 + r + q ( = r3 + q " r " %1
+ r + r2 ( … ,
$
'
$
'
(
(
!
( (
)
)
sn +1 = r n + q " r "
(
)
!
n#1
$
i=0
!
) )
( )
)
rn # 1
r i = rn + q " r "
= 11,2 "1, 098n + 0, 9955
r #1
L’equazione 11,2 "1, 098 x + 0, 9955 = 50.000 ha per soluzione x = 89,89. Per voler vincere
!
appena 10,2 i 50.000 finiscono dopo solo 90 giocate.
!
Ne segue che il denaro finisce tanto più in fretta quanto più m o q sono grandi, ossia quanto più
siamo avidi …
13. Per stabilire la frequenza delle 21 lettere del nostro alfabeto nella poesia “San Martino”
di G. Carducci, 4 strofe di 4 versi ciascuna, seguiamo il suggerimento. Intanto vediamo il
testo della poesia:
La nebbia a gl’irti colli
ma per le vie del borgo
piovigginando sale,
dal ribollir de’ tini
e sotto il maestrale
va l’aspro odor de i vini
urla e biancheggia il mar;
l’anime a rallegrar.
Gira su’ ceppi accesi
tra le rossastre nubi
lo spiedo scoppiettando:
stormi d’uccelli neri,
sta il cacciator fischiando
com’esuli pensieri,
sull’uscio a rimirar
nel vespero migrar.
Ecco il risultato, escluso il titolo:
a
31
b
6
c
14
d
10
e
29
f
1
g
9
h
2
i
40
l
27
m
8
Ecco qualche elaborazione e qualche grafico:
70
n
13
o
22
p
10
q
0
r
27
s
19
t
12
u
7
v
5
z
0
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
Si contano 292
lettere (escluso
il titolo), delle
quali 129 sono
vocali, il 44%
del totale.
La moda è la
vocale
“i”,
seguita
dalla
“a” e dalla “e”.
vocale frequenza
a
31
e
29
i
40
o
22
u
7
Le
consonanti
più usate sono
la “l” e la “r”.
La “q” e la “z”
non ci sono.
NOTA:
ci
anche
ben
apostrofi.
71
sono
8
L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12
BIBLIOGRAFIA
[1]. G.C. Barozzi, C. Corradi, Matematica per le scienze economiche e statistiche, Il Mulino,
1977
[2]. M. Battelli, U. Moretti, Elementi di Statistica e di calcolo delle probabilità per scuole
superiori, Le Monnier, 1988
[3]. S. Cavicchi, Dispense ed esercizi di Statistica per Scienze Naturali
[4]. B.V. Gnedenko, Teoria della probabilità, Editori Riuniti, 1979
[5]. Open University, Probabilità e Statistica, EST Mondadori, 1975
[6]. V. Villani, Matematica per discipline biomediche, Mc Graw-Hill, 1991
Inoltre:
[7]. Archivio dati Commissione Amministrativa Insediamento CA2, Bologna.
[8]. Enciclopedia “Gli animali e la loro vita” vol. 1, Africa, regione etiopica, Istituto
Geografico De Agostini, Novara, 1970
[9]. Texas Instruments, Manuale d’uso della calcolatrice TI-58.
72