appunti di statistica

Università degli Studi di Sassari
Facoltà di Agraria
DIPARTIMENTO DI SCIENZE ZOOTECNICHE
Corso di laurea in Scienze Zootecniche
APPUNTI DI STATISTICA
Prof. Giuseppe Pulina
Variabilità e regolarità
sono due leggi di Natura
anno accademico 2003/2004
Caso e Necessità
La vita è breve
ma i conti possono essere
molto, molto lunghi.
J. Barrow
Una fredda mattina di marzo il signor Caso incontrò la signorina Necessità. Appena riconosciutola, egli si
esibì in un perfetto inchino, Buongiorno Signorina, che piacere incontrarla, squillò con un largo sorriso.
Buongiorno a lei, ribatté ella niente affatto sorpresa, A dirle la verità mi aspettavo questo incontro.
Eh, fece con fare ammiccante lui, Da quando la conosco lei ha sempre previsto i nostri incontri che per me
restano, mi lasci dire, così sorprendentemente aleatori. Scusi, aggiunse facendosi serio, Dove starebbe il
piacere della sorpresa nel vedere un conoscente se tutto fosse sempre rigidamente programmato?
La signorina tacque quasi rapita dall'abbigliamento disarmante del suo interlocutore. Per quanto si
sforzasse di ricordare, non l'aveva mai visto conciato con un minimo di raziocinio. Le scarpe spaiate
facevano letteralmente a botte con la cravatta indossata in barba ai più elementari principi di accostamento
dei colori e delle forme. Non solo quest'uomo non ha uno stile ben definito, pensò turbata, Ma
semplicemente non ha uno stile. Sinceramente, mi riuscirebbe difficile formulare gli accostamenti
strampalati che ogni volta gli ho visto indossare.
Da parte sua lei sembrava l'immagine della perfezione. Non un ciuffo fuori posto, non un filo negli abiti, non
un colore che non fosse perfettamente intonato con gli altri. Del modo di essere dell’uomo ciò che lei
sopportava meno era quel suo vizio di giocare perennemente con una monetina, lanciandola per aria e
costernandosi ogni volta per la faccia che questa mostrava nel ricadergli sul palmo della mano. E la smetta
un attimo! sbotto. Le ho detto tante volte che mi innervosisce... Scusi, davvero... rispose il signor Caso,
riponendo velocemente la moneta nelle ampie tasche del soprabito. Ma anche la sua manìa di giocare a
scacchi non appena si trova sotto mano una scacchiera non è meno fastidiosa. Tanto, sa, anche in un gioco
così rigorosamente determinato c’è un minimo di casualità. E quale sarebbe? ribatté piccata. Ma la scelta
del colore con cui giocare, naturalmente, esattamente come per la faccia della mia moneta. La differenza è
che io poi non perdo altro tempo per sapere come va a finire! concluse ridacchiando. La signorina
ammutolì. Era inutile continuare a discutere con costui o sarebbe andata come le altre volte, cioè male.
Due corvi schioccarono l’aria rincorrendosi fra i tetti. Necessità si scosse da questi pensieri e decise di
cambiare discorso, Cosa diceva a proposito dell’incontro? Non ci sarebbe gusto? Lei, nel suo sommo
disordine mentale e materiale che io paragono soltanto a quello di cui è capace suo cugino il signor Caos
che conosco bene, non capisce che questo mondo funziona soltanto perché siamo capaci di formulare
previsioni certe circa il futuro. Cosa succederebbe se dato un appuntamento ci si scordasse
sistematicamente ora e luogo da parte dei convenienti? Sarebbe il caos, appunto, concluse mentre scorgeva
un'ombra sinceramente interrogativa sul volto di lui. Ah, mi scusi, aggiunse, Dimenticavo che lei non
rispetta mai un appuntamento, ma si sa che lei è un gran smemorato...
Il silenzio si impadronì della strada, mentre un grappolo di nuvole nere frastagliava il cielo in sprazzi di
sole e di piovaschi. I due camminarono per un lungo tratto in silenzio riparandosi sotto i balconi per
sfuggire agli improvvisi scrosci di pioggia.
La signorina Necessità prese l'uomo sottobraccio, quasi per proteggersi dalle improvvise intemperie, e lui la
vide per la prima volta, bellissima nella sua perfezione e, quasi, si vergognò del suo aspetto vagamente
trasandato. Gli vennero in mente le parole della madre Alea, Figlio mio, tu hai bisogno di una donna
ordinata. Cercala subito, altrimenti finirai come tuo cugino che è tanto disordinato che non gli si avvicina
più nessuna ragazza per bene. Avrei bisogno di una donna, sussurrò quasi fra se, e lei, che lo aveva già
scelto, gli strinse l'avambraccio.
Finirono in un caffè, a raccontarsi due vite diversissime e a capire come potesse vivere uno senza aspettarsi
nulla dal futuro e l'altra sapendo esattamente quello che sarebbe successo comunque, ma l'amore unisce gli
impossibili e finirono per sposarsi, non senza che lei producesse uno sforzo straordinario anche per averlo
all'altare il giorno convenuto.
Ebbero una figlia bellissima, alla quale misero il nome di Statistica .
2
LEZIONE n. 1
LA STATISTICA
1. Cosa é la statistica e a cosa serve.
Uno degli aspetti più rilevanti di un corso di statistica di base é quello di definire in modo
comprensibile l’oggetto dello studio e l’utilizzo dello strumento che si va ad acquisire.
La mancata o imprecisa risposta a queste due domande porta ineluttabilmente da un lato a costruire
una disciplina su un terreno paludoso (la non comprensione dei fondamenti della statistica) e
dall’altro alla disaffezione degli studenti (la non finalizzazione dello studio).
In questo nostro corso dedicheremo molto spazio alla discussione su cosa sia e a cosa serva la
statistica. Innanzitutto cerchiamo di non confondere le due cose: non é sufficiente sapere a cosa
serve un oggetto per sapere che cosa é l’oggetto.
Per questo motivo iniziamo da capo (proprio da capo).
Gli oggetti fondamentali di cui si occupa la statistica sono le entità. Queste sono le cose che
popolano il mondo esterno e il mondo esterno é ciò che é fuori di noi e che possiamo osservare. Di
solito non facciamo distinzioni fra entità che popolano il mondo esterno e quello interno, ma le
entità della nostra mente di solito ci servono per riconoscere quelle del mondo esterno. Il concetto
di entità é appreso di solito nella prima infanzia quando organizziamo gli stimoli che entrano dal
mondo esterno nella nostra testa classificandoli in differenti tipi. Ad esempio, il bambino impara
molto precocemente a conoscere entità che hanno due occhi, un naso, una bocca, dei capelli e che le
entità “madre”, “padre”, “fratello” e altre simili hanno le stesse caratteristiche. Il bambino classifica
così tutte le entità simili per queste caratteristiche nel tipo “persone” e questa capacità di classificare
(riconoscere) entità con tali caratteristiche non lo abbandonerà per tutta la vita. Questo processo é
analogo per tutte le entità e rappresenta il livello più profondo della capacità di apprendimento
dell’uomo (e in parte anche degli animali superiori). Raggruppare le entità entro tipi, infatti,
semplifica enormemente la vita in quanto siamo capaci di riconoscere che tutte le entità
appartenenti allo stesso tipo hanno molte cose (proprietà) in comune.
Le entità non sono solo oggetti (o soggetti) materiali. Possono essere anche manifestazioni di
fenomeni (febbre, file di internet, tempo metereologico, ecc) oppure qualsiasi altra cosa a cui possa
essere attribuito un “nome”.
L’insieme delle entità classificate entro lo stesso “tipo” prende il nome di popolazione. Questo
termine é molto importante: la statistica infatti si occupa non della singola entità, ma dell’insieme
delle entità raggruppate per tipo, cioè della popolazione.
3
Ma come facciamo a classificare le entità entro le popolazioni?
A ciascuna entità é associato un insieme di proprietà. Ad esempio, a ciascuna persona sono
associate migliaia di proprietà, due delle quali sono “il peso” e “l’altezza”.
Per ogni particolare entità, ciascuna delle sue proprietà ha un valore. Ad esempio, all’entità
Giuseppe Pulina, della popolazione uomini italiani, sono, tra le molte, associati i valori di 176 cm
per la proprietà altezza e di 74 kg per la proprietà peso corporeo. Il valore di una proprietà può
essere espresso in numeri, in parole oppure in simboli. Ad esempio, l’entità succitata G.P. presenta i
valori delle seguenti proprietà: 43 per la misura di scarpe, Sardo per l’appartenenza regionale,
0RH+ per il gruppo sanguigno. Noi possiamo individuare una entità mediante i valori delle sue
proprietà: maggiore é la popolazione per ciascuna proprietà, maggiori sono le proprietà che
dovremo considerare nel processo di individualizzazione di una entità.
I valori delle proprietà delle entità di solito variano da una entità all’altra, ma a volte anche nella
stessa entità con il passare del tempo. Se una proprietà non presenta valori che variano (sono
costanti) essa non é di alcun aiuto nel processo di individualizzazione dell’entità.
Un esempio (semiserio): una monaca si reca a trovare un monaco in un monastero, ma non ricorda
il nome. Il padre portinaio le chiede di descrivere il soggetto per poterlo individuare. La monaca ci
pensa e risponde che veste una tonaca bruna, ma il padre replica che “tutti “ i monaci vestono una
tonaca bruna (proprietà costante)! Allora la monaca aggiunge che il monaco ha una cintura di
corda, ma anche in questo caso non é possibile individuarlo perché tutti i monaci portano cinture
di corda. Anche le altre proprietà via via riportate dalla monaca (capelli tagliati con la chierica,
breviario in mano, barbetta rada sotto il mento) non sono utili, in quanto tutto i monaci presentano
gli stessi valori di queste proprietà. Alla fine, spazientita, la monaca sbotta “ha 28 nei sulla
schiena!!”. A quel punto il padre portinaio si illumina: “Ma é padre Febbraio! Con 28 ce n’é uno,
tutti gli altri ne hanno 31!”.
Questa storiella dimostra che ai fini delle conoscenza (in tal caso anche biblica) é importante che le
proprietà delle entità oggetto di studio siano variabili.
La determinazione del valore delle proprietà viene eseguita mediante rilevazione empirica con gli
“strumenti di misura”. Se lo strumento funziona correttamente, esso ci darà una stima del valore
della proprietà di una determinata entità al tempo della misurazione. Ad esempio se noi volessimo
conoscere il (valore del) peso (proprietà) di una persona (entità), noi applichiamo alla persona uno
strumento di misura del peso (bilancia) e lo strumento ci restituisce il valore che (in kg) rappresenta
la stima del peso della persona. Anche nel caso di proprietà esprimibile come categorie (proprietà
categoriali) si applica uno strumento per ottenere una stima del valore. Ad esempio, nella
“misurazione” del genere di una persona, si applica lo strumento “vista” e, dall’insieme delle
4
caratteristiche osservabili, si ottiene la risposta “maschio” o “femmina”. Ma anche in questo caso vi
può essere un (seppure remoto) errore, come dimostra una sterminata aneddotica sui travestiti.
La conoscenza scientifica del mondo e la sua applicazione tecnologica, sono basate sulla ricerca
empirica.
La ricerca empirica é ciascuna attività in cui i valori delle proprietà delle entità oggetto di studio,
sono raccolti mediante l’esperienza (esperimento) e le cui conclusioni sono tratte esclusivamente
dai dati raccolti in quell’area di esperienza.
La ricerca empirica usa gli strumenti per determinare i valori delle proprietà. L’insieme dei valori
raccolti per ciascuna proprietà, chiamati anche dati (ossia ciò che é prima di qualsiasi
manipolazione), appartiene ad una variabile.
Una variabile é allora definibile come la
rappresentazione formale di una proprietà di entità.
Ad esempio, la proprietà “altezza” delle persone é una variabile detta appunto “variabile altezza”; la
proprietà “genere” di una parte degli esseri viventi é la “variabile genere” (anche se assume solo 2
valori, maschio o femmina); la proprietà “colore della facciata” delle case é la “variabile colore
della facciata delle case” che può assumere infiniti valori nominali (tanti quanti sono i colori e le
loro sfumature).
Le variabili sono costituite da valori: esse sono definite “continue” se possono assumere qualsiasi
valore nel campo della loro esistenza, discrete se possono assumere solo valori discontinui. Ad
esempio, la variabile “altezza di una persona adulta” può assumere qualsiasi valore nel campo della
sua esistenza (da 50 ai 250 cm), ma non il valore di 1000 cm! La variabile “appartenenza regionale
di un italiano” può assumere solo uno dei 20 valori corrispondenti alle regioni d’Italia, ma nessun
valore intermedio. Gli statistici amano denominare variante il “singolo valore” di una variabile: il
dato 176 cm di (misura della ) altezza (proprietà) di Giuseppe Pulina (entità) é una variante della
variabile “altezza”.
Ogni ricerca sperimentale produce dati. I dati possono essere utilizzabili se sono organizzati in
tabelle. Ciascuna riga della tabella é associata con una entità del tipo che stiamo studiando.
Ciascuna colonna della tabella é associata a una proprietà delle entità costituenti la popolazione.
Ad esempio, se stiamo studiando la produzione giornaliera di latte e il contenuto di grasso e
proteine allo scadere del terzo mese di lattazione delle pecore di compare Bastiano (ovini di razza
Sarda), possiamo programmare un esperimento in cui andiamo a rilevare la produzione individuale
di ciascuna mungitura (raccogliamo il latte di ciascuna pecora in un contenitore a tara nota e lo
pesiamo) e preleviamo un campione di latte su cui eseguiamo le analisi chimiche in laboratorio.
5
variabili = valori delle proprietà
della popolazione
Popolazione
di entità
Pecora
Latte g
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
1015
1105
1365
1085
840
960
1130
1185
1270
1385
1545
1475
1350
1145
1195
1185
1000
795
1105
1560
1340
1005
1260
1035
1300
Grasso %
Proteine %
6,54
5,18
7,44
5,75
7,62
5,69
8,55
5,42
7,57
5,77
5,81
5,26
8,34
5,78
7,11
6,09
6,46
5,16
6,59
5,23
7,53
5,24
6,97
5,34
5,98
4,82
6,39
5,3
7,49
6,04
7,4
5,24
7,16
6,11
7,41
6,24
8,56
5,69
7,76
5,73
6,41
5,45
8,05
5,04
6,43
5,03
6,99
5,66
7,17
5,46
Valori delle
proprietà
della entità n.
1
Possiamo facilmente notare che la popolazione di 25 pecore (il gregge di compare Bastiano) e
definita dalle proprietà produzione di latte, grasso e proteine in % al terzo mese di parto degli
animali.
La tabella ci da una prima visione del fenomeno, ma ci informa anche sul “piano sperimentale”
usato: il piano sperimentale, in questo caso, é consistito nel rilevare le produzioni di latte, grasso e
proteine di ciascuna pecora (vi sembrerà banale, ma vedremo in seguito che non lo é affatto).
A questo punto possiamo dare una risposta alla domanda “a che cosa serva la statistica?”
Lo scopo principale di una ricerca empirica é quello di predire e controllare il valore delle variabili
di determinate entità. Ad esempio, uno degli scopi dell’alimentazione animale é prevedere e
controllare l’ingestione alimentare di una determinata specie e categoria per poter formulare la più
idonea razione alimentare. Ora, l’ingestione, per ciascuna popolazione animale, riflette un insieme
di proprietà (variabili) zootecniche quali il peso corporeo dell’animale, il livello produttivo, la
qualità delle produzioni e altre misure dello stato degli animali. Se si capisce come prevedere e
controllare lo stato degli animali che influenza l’ingestione alimentare, allora possiamo anche
6
formulare razioni alimentari corrette (con risultati notevoli in termini di economia gestione
dell’allevamento e di benessere degli animali allevati).
Una volta giunti al controllo e alla possibilità di prevedere un fenomeno possiamo anche capirlo e
spiegarlo: il primo scopo é proprio della tecnologia, il secondo é proprio della scienza.
Ma, come recita la frase di Peter Van Soest (uno dei massimi esponenti dell’alimentazione animale)
riportata nel sito del nostro Dipartimento, utilizzare senza capire é un’eresia..
La statistica allora é uno strumento per capire, spiegare, controllare e prevedere un fenomeno.
In altri, e definitivi, termini, il principale scopo di una ricerca empirica é quello di scoprire come
prevedere e controllare (con la massima accuratezza possibile) i valori delle variabili (proprietà) di
entità di una popolazione ed essere in grado di spiegare e capire il fenomeno che esse
rappresentano.
2. La relazione fra variabili é la chiave per la previsione ed il controllo di un fenomeno.
Una volta stabilito che il principale scopo della ricerca empirica é quello di controllare e prevedere
il valore delle variabili, dobbiamo ora capire come fare ciò. La risposta é: noi possiamo controllare
e prevedere i valori delle variabili studiando le relazioni fra le variabili.
Nella relazione fra variabili una (detta variabile risposta) dipende da una o da più altre variabili
(dette variabili predittrici). Tutta la statistica “gira” intorno a questa semplice idea: trovare (se
esistono) le relazioni fra le variabili che stiamo studiando.
Ma cosa significa “relazione fra variabili?”. Una semplice risposta è: esiste una relazione se la
variabile dipendente si muove in accordo (cresce o decresce al crescere o decrescere) con la (le)
variabile(i) predittrice(i). La variabile predittrice é anche chiamata “variabile indipendente” mentre
quella risposta é anche detta variabile dipendente. In matematica la prima é anche contrassegnata
con la lettera y, e le seconde con la lettera x (x1, x2,x3, ecc..).
Riprendiamo l’esempio delle pecore di compare Bastiano. Esiste una relazione fra produzione di
latte e contenuto in grasso o in proteine del latte?
Per capirlo iniziamo a disporre i dati su un piano cartesiano. La variabile “grasso” e quella
“proteina” sono entrambi “risposta” e il latte é “predittrice”. In questo caso, ciascuna coppia di dati
(latte/grasso e latte/proteine) ha una coppia di valori associati a ciascuna entità. Ogni pecora, infatti
é identificata da due valori di tale coppia (la pecora 1, ad esempio, ha prodotto 1015 g/d di latte con
il 6,54% di grasso ed il 5,18% di proteine).
Vediamo ora i grafici che ne derivano.
7
Contenuto di grasso (%)
Relazione fra produzione e grasso delle pecore di
Bustiano
9
8,5
8
7,5
7
6,5
6
5,5
5
500
700
900
1100
1300
1500
1700
Produzione di latte (g/d)
Contenuto di proteine (%)
Relazione fra produzione e proteine delle pecore di
Bustiano
6,5
6
5,5
5
4,5
4
500
700
900
1100
1300
1500
1700
Produzione di latte (g/d)
Vediamo subito che per il grasso non c’é una “tendenza” evidente, mentre per le proteine possiamo
scorgere una leggera tendenza di queste a diminuire quando il latte aumenta.
Quando siamo interessati allo studio delle relazioni fra le variabili di solito non tendiamo a
sottoporre a misura tutte le entità della popolazione perché ciò può essere impossibile o comportare
8
enormi spese (ricordiamo SEMPRE che la rilevazione di un dato ha un costo e più dati raccogliamo
più spese sosteniamo). Per questo motivo i ricercatori sottopongono a studio una porzione della
popolazione chiamata campione che varia in entità da un minimo di 6 ad un massimo di 2000 unità.
Tuttavia, per quanto riguarda la variabile altezza della popolazione di italiani, esiste una notevole
eccezione. Infatti l’altezza dei maschi italiani é nota per (quasi) tutta la popolazione attraverso la
misurazione effettuata con la visita della leva militare, mentre per le donne questa variabile può
essere rilevata solo su un (per quanto ampio) campione. Lo scopo dei ricercatori é allora quello di
generalizzare quanto osservato sul campione alla popolazione a cui il campione appartiene
(popolazione target).
Affinché la generalizzazione sia valida, cioè perché il controllo e la predizione del comportamento
della variabile studiata possa essere esteso all’intera popolazione, il campione impiegato per
eseguire le misure deve essere rappresentativo della popolazione stessa.
Per assicurasi che il campione sia rappresentativo occorre tenere presenti due aspetti: esso deve
essere casuale (esso può potenzialmente contenere “ogni” entità della popolazione) e deve essere
numericamente consistente.
Esportare alla popolazione le conclusioni che traiamo su un campione é detto, in linguaggio
statistico, compiere una inferenza dal campione alla popolazione. Ad esempio, se tentassimo di
generalizzare le osservazioni compiute sulle pecore di compare Bastiano all’intera popolazione
delle pecore di razza Sarda (4 milioni di capi) dovremo tenere conto che si tratta innanzitutto di un
campione non casuale (nel campione non possono capitare per caso le pecore di zio Pasquale, o di
cugino Giacomo) e numericamente molto ridotto (solo 25 pecore).
Quando non sono osservate queste due condizioni, il campione é detto non rappresentativo e le
stime che si fanno su esso sono distorte, valgono cioè solo per il campione e non possono essere
estese, se non con molta cautela, alla popolazione. Le tecniche statistiche, se applicate
correttamente (cioé ad un campione “buono” della popolazione) ci rivelano con quale “fiducia”
possiamo estendere le stime ottenute sul campione (stime campionarie) alla popolazione a cui il
campione appartiene: questo aspetto é denominato dagli statistici accuratezza della stima e può
essere misurato. La gran parte del nostro corso sarà impiegata ai problemi della stima e della sua
accuratezza.
In definitiva, la statistica ci aiuta a studiare una variabile e i suoi rapporti con altre variabili in un
campione
di una popolazione al fine di estendere i risultati ottenuti dal campione (stime
campionarie) all’intera popolazione con un certo grado di accuratezza.
Arrivati a questo punto, tentiamo di riassumere: se qualche passaggio non vi é chiaro, tornate
indietro e cercate di capirlo prima di proseguire.
9
Dunque: la statistica si occupa di entità, in buona sostanza di tutto ciò le cui proprietà possono
essere misurabili in qualche modo. Le misure delle proprietà sono i valori i quali, se variano fra una
entità ed un’altra, costituiscono una variabile. La statistica studia le variabili per controllare e
predire il loro comportamento e per spiegare e capire il fenomeno rappresentato dalle entità
studiate. Lo scopo della ricerca empirica é ottenere delle informazioni da una variabile (stime) e
studiare le relazioni fra le variabili. Normalmente i dati sono raccolti su una parte della
popolazione che é detta campione. Le stime ottenute sul campione possono essere estese alla
popolazione con il procedimento dell’inferenza. Esse sono affidabili solo se il campione é
rappresentativo della popolazione target, altrimenti sono distorte.
Siamo giunti ,infine, a poter formulare una risposta alla seconda: cosa é la statistica?
La Statistica é un set di tecniche generali ottimali che aiutano i ricercatori empirici nello studio
delle variabili e delle relazioni fra variabili di campioni di entità, principalmente come mezzo per
prevedere accuratamente e controllare i valori delle variabili (proprietà) nelle entità delle
popolazioni (D. Macnaughton).
10
Lezione n. 2
PROBABILITA’
1. Perché ci interessa la probabilità
In ogni corso di statistica che si rispetti, ad un certo punto compare la probabilità. In molti casi é un
argomento che é trattato all’inizio del corso come propedeutico agli altri, in altri costituisce uno dei
capitoli principali di studio. Quale aspetto lega il calcolo delle probabilità con lo studio delle
variabili così come descritte nella lezione precedente?
Diamo subito una prima risposta: poiché una variabile (insieme di dati della proprietà di una
entità) può assumere diversi valori, tali valori possono essere raggruppati in classi di frequenza
relativa (le volte che i valori della variabile ricadono in quella classe) e la frequenza con cui una
determinata classe di valori compare nella variabile segnala la probabilità con cui posso trovare tale
valore nel campione (o nella popolazione) che ho in studio.
Il calcolo delle probabilità nacque circa tre secoli fa per analizzare certe situazioni inerenti al gioco
d’azzardo.
Attualmente è una delle discipline più diffuse negli insegnamenti universitari e trova molte
applicazioni nelle scienze biologiche, mediche, fisiche, sociali. Tra le applicazioni a noi più vicine
possiamo ricordare la valutazione dei risultati di esperimenti condotti su un campione di animali (
esperimenti di alimentazione, di tecnica di allevamento, ecc..); la previsione dell’andamento di un
fenomeno legato alla biologia degli animali quale la curva di lattazione o la curva di accrescimento,
lo studio delle relazioni fra i caratteri misurabili direttamente sugli animali (fenotipi) ed il loro
determinismo genetico (genotipi), lo studio delle modalità con cui si diffonde una infezione o una
parassitosi fra gli animali (epidemiologia).
In genere, il calcolo delle probabilità rappresenta lo strumento che consente di rendere razionale il
comportamento dell’uomo di fronte all’incertezza. Esso viene infatti applicato in tutte quelle
situazioni in cui gli sviluppi di un dato fenomeno non sono euristicamente prevedibili oppure
quando occorre prendere decisioni in base ad ipotesi riguardanti eventi futuri.
11
2. La definizione classica di probabilità
Se mescoliamo un mazzo da 52 carte e ne estraiamo 1, stiamo facendo una scelta casuale. Nessuna
delle 52 carte ha (teoricamente = secondo un ragionamento) una probabilità maggiore rispetto alle
altre di essere scelta. Un esperimento casuale dà origine a più risultati e quindi a più eventi casuali.
Un evento casuale può essere:
♦ Certo: è il caso dell’estrazione da un’urna piena di palline nere una pallina nera
♦ Impossibile: è il caso dell’estrazione da un’urna che contiene solo palline nere una pallina
bianca
♦ Possibile: è il caso dell’estrazione da un’urna piena di palline bianche e nere di una pallina
bianca.
Tutti gli eventi possibili costituiscono lo spazio campionario: nel lancio di un dado gli eventi
possibili sono 6, per cui lo spazio campionario è composto da 6 eventi.
La probabilità associata ad un evento esprime il grado di aspettativa circa il suo verificarsi e può
essere espresso da un numero compreso tra zero ed uno:
0 ≤ p ≤1
Ciò porta alla definizione classica di probabilità: la probabilità di un evento è il rapporto tra il
numero di eventi favorevoli e il numero di casi possibili all’evento, purchè tutti i casi siano
equamente possibili: p =
numero di casi favorevoli
numero di casi possibili
Nel caso del lancio di un dado, la probabilità che esca 4 è p =
1
perché in un lancio il 4 può uscire
6
solo una volta ed il numero di casi possibili sono 6.
Esempio: un’urna contiene due palline bianche, tre rosse e due nere. Qual è la probabilità di estrarre
al primo tentativo una pallina bianca?
I casi possibili sono 7 mentre quelli favorevoli sono 2. La probabilità sarà:
p=
2
≈ 0.28 cioè p ≈ 28%
7
12
3. La definizione frequentista di probabilità
Come é possibile osservare, nel caso della definizione classica, la probabilità é definita a priori (=
prima di aver eseguito gli esperimenti) come caso favorevoli sul totale dei casi possibili. Tale
definizione deriva dalla conoscenza delle modalità con cui lavora la machina del caso con cui
stiamo lavorando. Infatti, se utilizziamo come macchina del caso il “dado” e il dado non é truccato,
non vi é alcun motivo razionale per ritenere che ad un lancio una faccia “debba” prevalere sulle
altre: infatti, la definizione di dado truccato é proprio quella di un oggetto “dado” in cui dopo un
grande numero di lanci una faccia “esce” con maggiore frequenza delle altre! Ribadisco questo
concetto: nella probabilità classica gli eventi favorevoli sui totali sono conosciuti “a priori” e
derivano dalle modalità di costruzione della “macchina del caso”.
Tuttavia, nel campo delle scienze empiriche, questa definizione non é impiegabile in quanto non
abbiamo a disposizione una macchina del caso le cui modalità di estrazione siano conosciute a
priori. Possiamo conoscere i modi con cui la nostra macchina lavora se e solo se conduciamo una
serie di esperimenti, analizziamo i dati e associamo a ciascuna modalità di presentazione della
variabile una probabilità. Questa scelta (obbligata) é detta scelta “frequentista” nel senso che noi
associamo la probabilità di un evento alla frequenza con cui tale evento si verifica
sperimentalmente.
La nostra definizione “operativa” di probabilità é allora la seguente:
La probabilità di un evento A, P(A), è il numero di volte in cui si verifica l’evento A (nA) sul
numero totale di volte in cui l’esperimento é ripetuto (n) quando il numero totale tende all’infinito
n( A)
n→∞
n
P(A) = lim
Secondo la nostra definizione empirica allora, definita la frequenza di a f(A) il rapporto fra casi
positivi (A) e casi possibili (N), in un esperimento con un gran numero di casi, probabilità e
frequenza coincidono: in termini tecnici, probabilità e frequenza di un evento coincidono
asintoticamente.
Utilizziamo come esempio, il genere dei nati della specie bovina (é un esempio analogo a quello del
lancio della moneta). Noi sappiamo che la macchina del caso é costituita dalla meiosi che segrega
nelle cellule germinali maschili e demminili la metà del corredo cromosomico (diploide) posseduto
13
dai genitori. Poiché il sesso é determinato dalla presenza del cromosoma Y (in questo caso, il sesso
eterogametico é il maschio con YX, mentre la femmina é omeogametica XX), é la macchina del
caso costituita dalla meiosi paterna necessaria alla produzione dei nemaspermi che determina la
presenza del cromosoma Y. Poiché la separazione dei cromosomi sessuali é casuale, metà dei
nemaspermi possederà il cromosoma Y e metà quello X. Gli oociti materni possiedono solo il
cromosoma X e la loro fecondazione può avvenire indipendentemente con spermi che portano Y o
X. Essendoci numerosissimi spermi in gioco nella fecondazione (alcuni miliardi), la probabilità che
l’oocita sia fecondato con uno spermio portatore Y o X é del 50%, per cui il futuro nato potrà essere
maschio o femmina con una probabilità teorica del 50%. In effetti, se osserviamo la serie delle
nascite avvenute nella popolazione bovina in una annata possiamo verificare che questo
meccanismo effettivamente lavora così.
Prendiamo la carriera riproduttiva di 100 vacche.
vacca n.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
vitello 1 parto
f
f
m
m
m
m
m
m
m
f
f
m
f
m
m
f
f
m
f
m
m
f
m
f
f
m
f
m
f
m
m
f
vitello 2 parto
m
m
m
m
f
f
f
m
m
f
m
m
m
m
f
m
f
f
m
f
f
f
f
f
f
f
m
m
m
m
m
m
vitello 3 parto
m
m
f
f
f
m
f
f
m
f
m
m
m
m
m
f
m
f
m
m
m
m
f
m
m
m
f
m
m
f
m
f
14
vitello 4 parto femmine maschi
f
2
m
1
m
1
m
1
m
2
m
1
f
3
f
2
m
0
f
4
m
1
m
0
f
2
f
1
m
1
f
3
m
2
f
3
m
1
f
2
m
1
f
3
m
2
m
2
m
2
m
1
f
3
f
1
m
1
m
1
m
0
m
2
2
3
3
3
2
3
1
2
4
0
3
4
2
3
3
1
2
1
3
2
3
1
2
2
2
3
1
3
3
3
4
2
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
m
f
m
m
m
m
m
m
m
m
m
m
m
m
m
m
f
m
f
f
f
m
f
m
f
f
f
f
f
f
f
m
f
m
m
m
m
f
m
f
f
f
m
f
f
f
f
m
f
f
f
f
m
m
m
m
f
m
m
m
f
f
f
m
f
m
m
m
m
m
m
f
m
m
f
m
f
f
m
m
f
m
f
f
m
f
m
f
m
f
f
f
f
f
f
f
f
f
f
f
m
f
f
f
m
f
f
f
m
f
m
f
m
f
m
f
m
m
m
f
f
m
f
f
m
f
f
m
m
m
f
f
f
m
m
m
m
m
f
m
m
m
f
f
m
m
m
m
m
m
m
m
f
m
m
f
f
f
m
f
f
m
f
m
m
f
m
m
f
m
f
15
m
m
m
m
m
f
m
f
f
m
m
m
m
m
m
f
f
m
f
f
m
m
f
f
m
m
f
m
m
f
f
f
m
m
f
f
m
f
f
m
f
f
f
m
m
m
m
m
f
m
f
m
f
f
m
m
m
0
2
0
1
1
3
1
2
2
1
0
1
1
0
1
1
3
2
3
3
2
0
2
2
2
2
3
1
3
3
3
1
2
1
2
2
1
3
3
2
3
4
3
2
2
3
3
0
4
2
3
2
2
1
2
0
3
4
2
4
3
3
1
3
2
2
3
4
3
3
4
3
3
1
2
1
1
2
4
2
2
2
2
1
3
1
1
1
3
2
3
2
2
3
1
1
2
1
0
1
2
2
1
1
4
0
2
1
2
2
3
2
4
1
90
91
92
93
94
95
96
97
98
99
100
f
f
f
m
f
m
m
m
m
f
m
m
f
m
f
f
f
m
m
m
f
f
f
f
f
f
f
m
m
m
f
f
m
m
m
m
m
f
f
f
m
f
f
f
2
3
2
2
4
2
1
0
2
4
2
2
1
2
2
0
2
3
4
2
0
2
f=
m=
46
54
53
47
42
58
42
58
183
217
Per ciascun parto (1°, 2°, 3° e 4°) i maschi e le femmine sono risultati circa la metà. Anche nel
complesso il 45,7% del totale sono risultate femmine. Impareremo come testare l’ipotesi che il
valore “vero” del rapporto riproduttivo dei sessi alla nascita sia del 50% in una lezione successiva.
Per ora accontentiamoci di osservare che la frequenza osservata dell’evento “femmina” é
abbastanza vicina a quella teorica dovuta al funzionamento della macchina del caso “riproduzione”.
4. Alcune proprietà delle probabilità.
Abbiamo detto che la probabilità dei un evento é la frequenza con cui tale evento capita su tutti i
possibili. Ne deriva che la somma degli eventi possibili é il 100% per cui la somma delle probabilità
di eventi indipendenti appartenenti allo stesso spazio campionario è =1. Ad esempio, data la
probabilità che in un dado esca una faccia é 1/6, avendo il dado 6 facce (n. eventi possibili) la
somma delle probabilità è (1/6) + (1/6)+(1/6)+(1/6)+(1/6)+(1/6) = 1; in formula
P(A1) + P(A2) + P(A3))+....+ P(An) = 1
infatti, se:
P(A1) =
n( A1)
n ( A2 )
n( A3)
; P(A2) =
; P(A3)=
;
n( A1) + n( A2) + n( A3)
n( A1) + n( A2) + n( A3)
n( A1) + n( A2) + n( A3)
la somma delle probabilità é uguale a 1, anche se le singole probabilità sono diverse.
Da ciò deriva che, con eventi mutuamente escludenti, se P(A1) è la probabilità di A1, la probabilità
che A1 non si verifichi, P(non A1) é data dalla:
16
P(non A1) = 1- P(A1)
Probabilità di eventi indipendenti.
Due (o più) eventi sono detti indipendenti se il verificarsi di uno non influenza in nessun modo il
verificarsi dell’altro. Ad esempio, la successione dei parti nelle vacche della tabella precedente é
considerata un insieme di eventi indipendente in quanto il verificarsi del primo non incide in nessun
modo sul determinismo del secondo o del terzo, e così via. Quale é la probabilità che due eventi
indipendenti si manifestino assieme? Contiamo ad esempio quante volte si é verificato nei primi 2
parti l’evento maschio+maschio, maschio+femmina, femmina+femmina: il risultato é che abbiamo
osservato 27 m+m, 26 f+f e 47 m+f.
La probabilità che due eventi indipendenti non mutualmente escludenti si verifichino assieme é
data dal prodotto delle loro singole probabilità:
P(A eB) = P(A)*P(B)
Nel nostro esempio, la probabilità teorica che in due parti consecutivi abbia entrambi maschi (o
entrambi femmine) é data
0,5 * 0,5 = 0,25
Quella di avere un maschio e una femmina é dello 0,5 (in quanto non importa se sia nato prima il
maschio o la femmina, essendo per ciascuna successione m+f = 0,25; f+m = 0,25). In ogni caso le
probabilità cumulate hanno quale risultato 1. Nel caso pratico, le frequenze osservate non si
discostano da quelle teoriche: infatti abbiamo osservato che P(m+m) = 0,27, P(f+f) = 0,26 e P(m+f)
= 0,47 e la somma anche in questo caso fa 1.
Nel caso in cui volessi trovare una probabilità combinata di due eventi indipendenti che si
escludono mutualmente dovremo impiegare la somma delle singole probabilità. Ad esempio,
sappiamo che il mantello (= coloro esterno) della razza Frisona italiana é normalmente pezzato
nero, ma in casi limitati (= 5%) può anche essere pezzato rosso. Sono interessato a conoscere la
probabilità, su 100 parti, di avere o un maschio (primo evento indipendente) o una femmina pezzata
rossa. La probabilità di avere un maschio é dello 0,5, quello di avere una femmina pezzata rossa é
dello 0,5*0,05=0,025. La probabilità di ottenere un animale alla nascita delle caratteristiche
desiderate é pertanto 0,5 + 0,025 = 0,525. In generale, con eventi escludentisi mutuamente
17
P(A o B) = P(A) + P(B)
Nel caso in cui volessimo trovare invece la probabilità combinata di eventi non escludentisi
mutuamente dobbiamo tenere conto di un fatto. Riprendendo il nostro esempio, se fossi interessato
alla nascita di un animale maschio o a un animale pezzato rosso (compresi i maschi) se impiegassi
la formula sudetta conterei i maschi rossi 2 volte (la prima come maschi e la seconda come maschi
rossi). Allora dalla formula devo togliere i maschi rossi che hanno una frequenza uguale a quella
delle femmine rosse (0,025). In formula
P(A o B) = P(A) + P(B) – P(A)*P(B)
Questa é la formula da utilizzare sempre. Infatti, quella precedente si riduce a questa quando gli
eventi si escludono mutalmente (non c’é nessuna femmina rossa fra i maschi!) per cui il prodotto
delle probabilità è = 0 (la probabilità femmina rossa nei maschi = 0).
Diamo ora un ultimo accenno alla probabilità condizionata. Diciamo che esiste una probabilità
condizionata quando vogliamo sapere quale probabilità ha un evento congiunto di accadere
conosciuta la probabilità di uno degli eventi condizionanti. Ad esempio, vogliamo sapere, dato il
colore pezzato rosso del mantello di un nato, quanti maschi ci aspettiamo di ottenere. Allora, la
probabilità di ottenere un maschio pezzato rosso é 0,5*0,05 = 0,025. Ma la probabilità che un
animale sia rosso é dello 0,05. Allora 0,025/0,05 = 0,5 che é la probabilità di trovare un maschio
all’interno degli animali pezzati rossi.
In formula
P(A/B) =
P( A) * P( B)
P( B)
Vediamo ora un caso particolare della probabilità condizionata. Se la probabilità che si verifichi A
conoscendo B é la stessa che di verifichi A senza conoscere B, allora i due eventi sono detti
indipendenti. In formula, un evento A é detto indipendente da uno B se
18
P(A/B) = P(A)
Nel caso del sesso dei vitelli, l’evento sesso al secondo parto é indipendente da quello sesso al
primo parto (B) in quanto la probabilità che nasca un maschio al secondo parto non risente in alcun
modo del fatto che conosco il sesso del vitello del primo parto: infatti, 0,5*0,5/0,5= 0,5!
19
Appendice (lettura obbligatoria)
Statistica e modelli
Elaborare i dati secondo una determinata procedura significa applicare un modello matematico. Un
modello é la rappresentazione di qualche cosa, ma non é la cosa che rappresenta. La scelta di un
modello é sempre arbitraria e per molti versi pregiudiziale alla sua applicazione. Nel caso dei
modelli statistici, quando trattiamo un insieme di dati ai fini di assumere una decisione
(circoscriviamo un territorio per prevenire un contagio, riteniamo un apparecchio tarato per una
determinata analisi, orientiamo i corsi di aggiornamento in base alle preferenze espresse dai
colleghi, ecc..), siamo consapevoli che la scelta di un modello rispetto ad un altro non é indifferente
relativamente alla responsabilità conseguente agli esiti derivanti da tale scelta. Se le conseguenze di
una scelta possono avere esiti catastrofici (cioè provocare danni ingenti), il modello a cui mi affido
sarà molto conservativo (ad es. nel caso delle diffusione di una zoonosi, elaboro le informazioni a
disposizione in modo tale da rendere operativi comportamenti anche in casi altamente improbabili)
mentre nel caso opposto posso impiegare modelli ad alto rischio (se dispongo di una innovazione
tecnologica da proporre al mercato devo accettare probabilità di fallimento elevate se gli utili che
attendo da tele innovazione possono essere consistenti).
Le variabili statistiche
La statistica lavora con variabili casuali ossia con insiemi numerici o categoriali ordinati secondo
un criterio casuale. Henrì Poicaré (1908, Science e Methode), criticando il punto di vista
deterministico (esposto principalmente da Laplace) secondo cui il caso sarebbe semplicemente “un
nome per la nostra ignoranza”, distingue fra tutti i fenomeni le cui cause ci sono sconosciute, i
fenomeni fortuiti ai quali si applica il calcolo delle probabilità da quelli non fortuiti rispetto ai quali
non possiamo dire assolutamente nulla fin tanto che non conosciamo le leggi che li governano. In
particolare, egli afferma che esistono fenomeni in cui cause molto piccole oppure differenze
irrilevanti nelle condizioni iniziali (tanto piccole da non poter essere registrate) producono
differenze macroscopiche negli esiti finali e in tal caso la previsione diventa impossibile. In base a
questa posizione possiamo inizialmente definire come casuale un fenomeno per il quale non siamo
in grado di formulare previsioni. Questa impossibilità risiede, secondo Poicarè, nella complessità
dei fenomeni che costituisce l’elemento fondante la loro casualità e imprevedibilità. La “casualità
assoluta” o “casualità operazionale” é stata però l’oggetto dell’indagine di von Mises (1939,
Probability, Statistics and Truth) che ha definito una variabile casuale come un insieme numerico
infinito dotato della proprietà della “scelta di posto”. Quest’ultima é tale se é effettuata prima di
20
conoscere qualsiasi cosa circa il risultato della scelta medesima per cui il principio di casualità di
von Mises é l’indifferenza delle successioni probabilistiche a tutte le scelte di posto che possono
operarsi in esse. Questo principio é espresso anche sotto forma della “impossibilità di un sistema di
gioco”: negli ambienti degli statistici é nota la definizione secondo la quale il cretino é colui che
afferma di aver scoperto un sistema per vincere ad un gioco aleatorio.
Questa scelta operazionista di von Mises rende però praticamente impossibile generare variabili
casuali. Infatti, se la scelta di posto di un elemento é assolutamente indifferente rispetto a ciò che lo
precede e lo segue nella serie, non può esistere una “macchina perfetta del caso” in grado di
produrre un oggetto simile. Infatti, se fossimo in grado di generare insiemi numerici infiniti (ed é
pacifico che non lo siamo..), non saremo in grado comunque di generarli perfettamente casuali.
Ora occorre un passo indietro. Utilizziamo a scopo esemplificativo un esempio numerico ristretto ad
un piccolo insieme. Consideriamo una stringa di dati costituita, mettiamo, da 5 elementi. Diremo
che la stringa é casuale se non esiste alcuna altra possibilità di rappresentazione dei dati che non sia
la stringa stessa. La stringa 2-4-6-8-10 non é casuale perchè rappresenta i primi 5 numeri pari ed
essa può essere espansa all’infinito con l’algoritmo 2n, dove n é la serie dei numeri reali interi
positivi. Il processo per cui insiemi numerici (anche infiniti) possono essere contenuti in
rappresentazioni più “economiche” rispetto alla mera ripetizione della serie stessa é detto
comprimibilità algoritmica: una informazione limitata può espandersi in una più grande. Una
stringa numerica é casuale quando é incomprimibile algoritmicamente per cui per poter avere la
completa informazione in essa contenuta dobbiamo scriverla tutta.
Ritornando a von Mises, il suo concetto di casualità non consente la rappresentazione di variabili
“perfettamente casuali”. Non esiste uno strumento di calcolo o un apparato fisico in grado di
generare il caso perfetto: una macchina matematica del caso é sempre costruita dall’uomo ed
essendo conosciuta a priori rende possibile la ricostruzione della serie da essa generata; una
macchina fisica (rumore di fondo del computer, moto browinano, dado di Las Vegas ecc..) é anche
essa non perfettamente simmetrica rispetto alle frequenze di uscita dei singoli dati, per cui nelle
lunghe serie possono essere percepite delle increspature di regolarità che tolgono alla serie stessa il
suo carattere aleatorio. Per tali ragioni e per motivi pratico-applicativi, tutti, scienziati e filosofi,
ormai sono concordi nel ritenere che la statistica applicata lavora con serie pseudo-casuali il cui
comportamento é del tutto soddisfacente dal lato pratico. Oggi le serie pseudoaleatorie, costituite da
numeri da 0 a 9, sono generate al computer a partire da algoritmi basati, ad esempio, sullo scarto fra
due numeri primi o sui decimali successivi di numeri irrazionali oppure su oggetti matematici più
complicati. Le serie di numeri a 2, 3 o più cifre sono costruite a partire da 2, 3 o più serie elementari
accoppiate. Le serie semplici così generate sono poi sottoposte ala analisi di frequenza: sono
21
giudicate positivamente (cioé possono essere ritenute pseudo-casuali) se la frequenza con la quale
compare ciascuna cifra decimale é 1/10 (nei termini di approssimazione asintotica, cioè come limite
di frequenza relativa in una serie infinita). Le serie pseudo-casuali sono riportate nelle cosiddette
“tavole dei numeri casuali” o “tavole randomizzate” stampate a corredo dei manuali di statistica.
Questi strumenti, come vedremo, sono molto utili nella pratica del campionamento. Anche un
foglio di calcolo comunemente impiegato, quale Excell, può generare numeri casuali. La funzione
da evocare é CASUALE(); nella cella definita il programma genera un numero casuale fra 0 e 1. Per
fare ciò i software che dispongono di tale opzione utilizzano il cosiddetto "rumore bianco” del
computer.
Le variabili statistiche sono costituite da dati. Il dato é quanto é presente nella conoscenza prima
che essa vi applichi i suoi processi logici o di interpretazione. Dato si oppone di solito a costruito,
anche se alcuni costrutti possono essere a loro volta considerati dati da elaborare successivamente.
Nel caso delle scienze della vita, il dato rappresenta la misurazione fondamentale della realtà
fenomenica oggetto di studio. Qualora fossimo interessati ad una variabile che descrive una
proprietà dell’oggetto della nostra indagine (altezza, peso, età, numero di colonie batteriche, ecc..) il
dato é anche chiamato variante, per cui le variabili sono costituite da varianti.
Ciascuna unità sperimentale può essere definita da più proprietà simultaneamente e ciascuna
proprietà é codificabile con una variabile. Ciascuna variabile definisce una dimensione dello spazio
statistico, per cui, se descrivo l’individuo per tre proprietà (peso corporeo, altezza, età = tre
variabili) esso sarà definito nello spazio a 3 dimensioni da 3 coordinate I≡(p; a; e). Consideriamo 4
individui:
individuo
peso (kg)
altezza (cm)
età (anni)
1
56
160
25
2
62
172
41
3
15
100
6
4
78
173
47
il primo individuo avrà queste coordinate I1 ≡ (56; 160; 25) e sarà rappresentabile, assieme agli
altri, da punti nello spazio nel modo seguente.
22
peso
.
.
.
.
.
età
altezza
L’insieme degli individui può raggrupparsi in una o più cluster in dipendenza della loro
somiglianza. Se due delle tre variabili sono collegate fra loro (peso e altezza ad esempio lo sono) il
grappolo assume una gibbosità orientata nel senso degli assi delle due variabili. La forma assunta
dal grappolo rappresenta il legame fra le variabili che tanto é maggiore tanto genera una gibbosità
rilevante nella nuvola dei punti.
Le variabili che descrivono l’oggetto dello studio possono essere più di tre. In tal caso, pur non
essendo rappresentabili graficamente, esse generano spazi di 4, 5... n dimensioni chiamati iperspazi.
Ad esempio, se in una indagine per verificare la preferenza dei consumatori assumo sui singoli
intervistati 10 informazioni (età, scolarità, preferenze culturali, abitudini alimentari, ecc...) il mio
spazio statistico sarà definito da un iperspazio a 10 dimensioni, ciascuna rappresentante una delle
variabili che mi interessano ai fini della indagine.
23
Un aspetto pratico legato all’impiego dei dati nella elaborazione statistica é il problema della
precisione decimale. Se é evidente a tutti che la media dei nati per donna fertile italiana nel 2001
può essere di 1,21 senza significare con ciò che a ciascuna donna nascono 1,21 bambini, é
altrettanto vero che se la precisione di misurazione dell’altezza negli uomini é dell’ordine del cm,
ossia rileviamo i dati arrotondati al centimetro, l’espressione dell’altezza media con un
arrotondamento al secondo decimale di centimetro (decimo di millimetro) non ha significato e
rappresenta una finzione aritmetica. E’ buona norma pratica impiegare per la media lo stesso
arrotondamento utilizzato per la rilevazione della variabile o al massimo un ordine di grandezza
inferiore qualora sia ritenuto necessario per meglio esprimere le misure. Un altro aspetto pratico é
dato dalla risoluzione impiegata nella elaborazione. Se impiego valori numerici molto grandi devo
aspettarmi problemi di arrotondamento numerico dovuti al fatto che i software di elaborazione
impiegano algoritmi di calcolo matriciale in cui un passaggio obbligato é l’inversa di una matrice
data. Quando si inverte una matrice (se é invertibile ossia non singolare) valori molto grandi
possono originare valori molto piccoli e il computer taglia ad un predeterminato decimale
(normalmente il 16°) escludendo i successivi decimali necessari per rendere lo stimatore statistico
calcolato più “robusto”. In tal caso é consigliabile impiegare uno “scaling” appropriato. Ad
esempio, nel caso di produzione di latte per lattazione in pecore é meglio impiegare i kg al posto dei
grammi (213 kg vs 213.000 g) mentre per la produzione giornaliera é meglio utilizzare i grammi.
Con numeri grandi possono essere utilizzati i sistemi di notazione esponenziale: 123.456.789, può
essere espresso come 123,456789 x 106. In questo ultimo caso occorre che anche il software sia in
grado di riconoscere la notazione ed impiegarla per i calcoli dei quadrati. Approfondiremo questo
argomento in seguito.
24
Lezione n. 3
STATISTICA DESCRITTIVA
1. Prima di tutto, guardare i dati (EDA = exploratory data analysis)
Una volta raccolti i dati relativi alla variabile (o alle variabili) che abbiamo intenzione di studiare, la
prima azione da compiere é quella di guardare i dati. La tecnica che ci aiuta in questo
importantissimo passaggio, preliminare a tutte le altre analisi statistiche, é detta EDA (exploratory
data analysis) e si compie con l’ausilio di un computer. Infatti, anche l’occhio più esercitato
difficilmente riesce a cogliere le tendenze insite in serie numeriche di elevata consistenza; una
persona normale di solito non riesce a dominare con l’intuito più di 10-15 dati per volta.
L’EDA é una procedura di “classificazione” dei dati finalizzata ad una prima verifica della presenza
di un andamento nei dati stessi. I dati relativi ad una variabile campionaria (= del campione in
esame) possono essere sottoposti a EDA “da soli” (in tal caso si compie una EDA univariata =
relativa a una sola variabile), oppure in relazione ad un’altra variabile ( EDA bivariata = relativa a
due variabili). Se le variabili messe in relazione sono più di due, l’EDA é detta multivariata.
Approfondiamo per il momento sono l’EDA univariata e rimandiamo le altre due alla lezione
relativa alla regressione.
Prendiamo in esame una delle variabili riportate nella lezione n. 1: la produzione giornaliera di latte
di un campione di pecore Sarde:
25
Pecora
Latte g
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
1015
1105
1365
1085
840
960
1130
1185
1270
1385
1545
1475
1350
1145
1195
1185
1000
795
1105
1560
1340
1005
1260
1035
1300
Ripartiamo ora i dati in classi di ampiezza (= classifichiamo i dati). Prima di tutto dobbiamo
definire il numero di classi: in genere con 10-15 dati, usiamo 4-5 classi, ma con data-set (insiemi di
dati) molto numerosi, il numero di classi non eccede mai le 15-20.
Un metodo di calcolo per orientare il ricercatore sul numero di classi (C) é stato proposto da Sturges
e si basa sul n. di osservazioni (N)
C = 1+
10
⋅ log10 ( N )
3
Nel nostro caso N = 25, per cui C = 5,56 ≈ 6.
Una volta stabilito il numero delle classi, occorre calcolare l’intervallo di variabilità, dato dalla
differenza fra il valore minimo e quello massimo. Nel nostro caso il valore massimo é 1560 g,
quello minimo 796 g e l’intervallo di variabilità 765 g. L’intervallo di classe é dato allora da 765/ 6
= 127,5 g. Sommiamo questo valore al minimo (796 + 127,5) e poi di nuovo a quello ottenuto
26
(922,5 + 127,5) e così via fino ad ottenere le 6 classi volute (se il conto é corretto, dovremo avere
l’ultimo valore pari a quello massimo).
Con l’opzione “strumenti/analisi dati/ istogramma” di Excell, costruiamo prima la tabella e poi il
grafico:
Classe
922,5
1050
1177,5
1305
1432,5
1560
Altro
Frequenz
%
a
cumulativ
a
2
8,00%
5
28,00%
5
48,00%
6
72,00%
4
88,00%
3 100,00%
0 100,00%
Istogramma
7
120,00%
6
100,00%
Frequenza
5
80,00%
4
60,00%
3
40,00%
2
1
20,00%
0
,00%
922,5
1050
1177,5
1305
1432,5
1560
Altro
Classe
In ciascuna classe compare la frequenza assoluta (= numero di volte che il valore della variabile ha
un valore compreso fra il minimo e il massimo della classe) e quella relativa (frequenza assoluta
diviso il totale delle osservazioni). Tabella e grafico riportano anche la “frequenza relativa
cumulata” cioè la somma delle singole frequenze relative al crescere del valore delle classi. Nel
caso del grafico realizzato con Excell, il valore delle classi riportato nella figura va inteso come il
27
limite massimo di classe! Il software Minitab, invece, riporta la classificazione con il valore
centrale della classe:
Histogram of Latte g
5
Frequency
4
3
2
1
0
800
900
1000
1100
1200
1300
1400
1500
1600
Latte g
Minitab, inoltre, “decide” il numero di classi da impostare: in questo caso sono 9 (ma, come si vede,
la classe 900 é vuota!).
Questo tipo di istogramma é denominato “istogramma delle frequenze”.
Due considerazioni:
1) da quanto detto nella lezione 2, noi adottiamo un approccio frequentista alla probabilità, per cui
le frequenze relative rappresentano per noi la probabilità di trovare “per caso” un valore di
produzione incluso in quella classe;
2) la distribuzione presenta una forma. Se tutte le classi fossero state uguali, saremo di fronte ad un
fenomeno completamente casuale: tutti i valori hanno la stessa probabilità di essere estratti a
caso. Le classi centrali tendono ad essere più frequentate di quelle laterali. In altre parole, c’è
una tendenza del fenomeno ad aggregassi intorno al valore centrale, ossia più i valori di
avvicinano al centro della distribuzione, più sono probabili!
Vediamo ora cosa succede se, invece di 25 dati, osservo la distribuzione di 4500 produzioni
giornaliere di pecore della razza Valle del Belice.
28
Histogram of PG
Frequency
200
100
0
0
500
1000
1500
2000
2500
PG
Minitab suddivide il campione in mole più classi e la tendenza delle frequenze ad addensarsi attorno
ai valori centrali é molto più marcata. Questa distribuzione si approssima ad una curva continua,
denominata distribuzione normale della quale diamo una rappresentazione sovrapposta ad
diagramma precedente
29
Histogram of PG, with Normal Curve
Frequency
200
100
0
0
500
1000
1500
2000
2500
PG
Riprenderemo questo argomento in seguito.
Vediamo ora cosa succede nel caso di una variabile “categoriale” quale la serie testa/croce del
lancio contemporaneo di una serie di monete. Nel caso di due monete lanciate
contemporaneamente, abbiamo visto che le probabilità degli eventi TT, TC e CC, sono
rispettivamente del 0,25, 0,50 e 0,25.
Vediamo ora cosa succede se andiamo al lancio contemporaneo di 10 monete. Le probabilità di
ottenere gli 11 risultati possibili sono le seguenti:
10T
9T1C
8T2C
7T3C
6T4C
5T5C
4T6C
3T7C
2T8C
1T9C
10C
0,000977
0,009766
0,043945
0,117188
0,205078
0,246094
0,205078
0,117188
0,043945
0,009766
0,000977
30
Il diagramma delle frequenze é il seguente:
Distribuzione delle teste e croci in 10 lanci di 10 monete
0,3
0,25
frequenze
0,2
0,15
0,1
0,05
0
10T
9T1C
8T2C
7T3C
6T4C
5T5C
4T6C
3T7C
2T8C
1T9C
10C
eventi (T = testa; C = croce)
E’ possibile osservare che le maggiori frequenze sono addensate intorno alle classi centrali: anche
in questo caso con un numero di monete “molto alto” e con un numero di eventi “molto alto”, la
tendenza della curva é verso una curva normale.
La distribuzione vista in questo caso é detta “distribuzione binomiale” (= in quanto risulta dallo
sviluppo del binomio (p(a) + q(b))n), in qui p + q = 1.
Questo risultato deriva dall’applicazione della relazione vista nella precedente lezione:
P(A e B) = P(A)*P(B)
Esaminiamo il caso della serie di 4 parti nelle vacche da latte riportato in lezione 2.
Si tratta di eventi indipendenti, ciascuno dei quali ha una p = 0,5. Abbiamo ottenuto il seguente
risultato:
4 maschi 0 femmina 11 (0,11, come frequenza relativa)
3 maschi 1 femmina 27 (0,27)
2 maschi 2 femmine 34 (0,34)
1 maschio 3 femmine 23 (0,23)
0 maschi 4 femmine 5 (0,05)
Le frequenze teoriche si ricavano dallo sviluppo del binomio [p(M) + q(F)]2
31
Per trovare i coefficienti si impiega il triangolo di Tartaglia che qui sotto é sviluppato fino alla
potenza 10 del binomio
n
1
2
3
4
5
6
7
8
9
10
1
1
1
1
1
8
9
10
45
Coefficienti
1
1
1
2
1
1
3
3
1
1
4
6
4
1
1
5
10
10
5
1
6
15
20
15
6
7
21
35
35
21
7
28
56
70
56
28
36
84
126
126
84
36
120
210
252
210
120
1
1
8
1
9
45
1
10
1
I coefficienti di ogni riga derivano dalla somma di quelli a sinistra e a destra della riga precedente.
Nel nostro caso il binomio da sviluppare é:
[p(0,5) + q(0,5)]4
0,54 (MMMM) + 4*0,53*0,5 (MMMF) + 6*0,52*0,52(MMFF) + 4*0,5*0,53 (MFFF) + 0,54(FFFF)
che sviluppato ci da il risultato:
0,0625 MMMM oppure FFFF
0,25 MMMF oppure FFFM
0,35 MMFF
queste probabilità (teoriche) sono molto vicine alle frequenze osservate nella sperimentazione con
le vacche.
Con un esponente molto alto, la distribuzione binomiale tende anche essa alla curva normale.
I due tipi di distribuzione, la normale e la bionomiale, sono “simmetriche, nel senso che la parte
destra e sinistra della distribuzione sono speculari.
Esistono tantissimi altri tipi di distribuzione non simmetriche (cioè con una concentrazione delle
frequenze sbilanciata da una parte o dall’altra), ma noi ci soffermeremo soltanto su una di
particolare interesse nelle scienze zootecniche: la distribuzione asimmetrica.
Esaminiamo il fenomeno del contenuto in lattosio del latte: la distribuzione riportata di seguito é
fortemente asimmetrica, in quanto si ha un cumulo delle frequenze verso le classi di valore
massimo.
32
Histogram of lact.
140
120
Frequency
100
80
60
40
20
0
0
1
2
3
4
5
lact.
In questi casi la probabilità di estrarre un animale con lattosio “basso” è di molto inferiore a quella
di estrarre un animale con lattosio intorno al valore 4 (in realtà questo fatto ha senso, perché la
caduta della concentrazione del lattosio é sintomo di mastite; gli animali sani sono la stragrande
maggioranza del campione esaminato e della popolazione target).
Prendiamo ora in esame l’EDA bivariata. Esaminiamo il caso della relazione fra quantità di latte e
di proteine prodotte al giorno da un campione di vacche da latte Frisone:
Relazione fra produzione di latte e di proteine in vacche
Frisone
1600
Proteine (g/d)
1400
1200
1000
800
600
400
200
0
0
10
20
30
Latte (kg/d)
33
40
50
Il grafico mostra chiaramente che esiste una relazione stretta fra le due variabili esaminate:
all’aumentare della produzione di latte, aumenta anche la produzione di proteine per capo. Un
situazione in cui non esiste una relazione evidente é stata riportata nel grafico della lezione 1.
Utilizzeremo questa analisi preliminare nella lezione della analisi della regressione.
34
Lezione n. 4
MISURE DI POSIZINO E DI DISPERSIONE
1. Le misure di posizione di una distribuzione.
Con il termine misure di posizione di una distribuzione univariata si indicano quei particolari valori
che racchiudono una informazione sulla variabile in esame. Esse sono nell’ordine:
1) la media, che é la somma dei valori della variabile ponderata per la numerosità del campione (o
della popolazione) in esame;
2) la moda, che é il valore della classe di maggiore frequenza della distribuzione;
3) la mediana, che é il valore della classe che divide la distribuzione in due parti uguali (50% degli
eventi prima e 50% degli eventi ricadono dopo tale valore).
Le distribuzioni univariate presentano una sola media e una sola mediana, ma possono presentare
due (o raramente più) valori modali: in tal caso sono dette distribuzioni bimodali (o plurimodali).
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-3.98
-1.98
0.02
3.38
Esempio di distribuzione bimodale
La media é la misura più importante. Questo valore costituisce il perno di tutta l’analisi statistica in
quanto di norma spiega una quota rilevante del fenomeno osservato. Ricordiamoci l’asserzione:
LA MEDIA SPIEGA
35
e così avremo chiaro il senso delle analisi che costituiscono il cuore della statistica.
L’informazione contenuta nella media é uguale a quella della somma dei valori della variabile.
Il suo calcolo é semplice, ma il suo potere informativo é grandissimo:
m=
∑x
i
n
in cui
m = media del campione
xi = i-simo valore della variabile
n= numero di osservazioni del campione.
Esistono altri tipi di media, impiegati in casi particolari; le ricordiamo per comodità:
la media geometrica e la media armonica.
La media geometrica è utilizzata quando le variabili non sono rappresentate da valori lineari, ma
ottenuti da prodotti o rapporti di valori lineari. Serve per il confronto di superfici o volumi, oppure
di tassi di accrescimento o di sopravvivenza, valori appunto che sono espressi da rapporti.
Per il calcolo della media geometrica, è condizione necessaria che le quantità siano tutte positive.
Se alcune fossero negative, si deve ricorrere al valore assoluto.
La media geometrica di n dati è uguale alla radice di ordine n (solo positiva) del prodotto degli n
dati: con simbologia matematica
m g = n x1 ⋅ x 2 ⋅ ... ⋅ x n
che può essere scritta anche come
mg = n
n
∏x
i
i =1
Una proprietà importante è che il logaritmo della media geometrica è uguale alla media aritmetica
dei logaritmi dei dati:
log m =
1 n
∑ log xi
n i =1
36
La media armonica è la stima più corretta della tendenza centrale, per distribuzioni di dati in cui
devono essere usati gli inversi. E’ utilizzata quando i valori di X sono espressi come rapporti di un
totale costante od in misure di tempi di reazione.
La media armonica è data da:
mh =
n
n
1
∑x
i =1
i
Prendiamo ora in esame il campione rappresentato dalle oltre 4500 osservazioni di produzione
giornaliera di latte di pecore Valle del Belice (vedi istogramma di frequenza).
Con una opzione di Excell (strumenti/analisi dati/statistiche descrittive) é possibile ottenere il
seguente otput
latte in grammi al giorno
Media
Errore standard
Mediana
Moda
Deviazione
standard
Varianza
campionaria
Curtosi
Asimmetria
Intervallo
Minimo
Massimo
Somma
Conteggio
1625
11
1530
1250
715
511705
1,247175589
0,89944541
4790
210
5000
7424379,608
4569
Come é possibile vedere, la media é di 1625, la mediana di 1530 e la moda di 1250 grammi di latte
per capo.
L’output ci fornisce anche altre informazioni circa la forma della curva. In particolare, la curtosi
esprime il grado di “schiacciamento” della distribuzione in esame rispetto ad una curva nomale
standard (vedremo in seguito il significato di questo termine). Se il valore della curtosi = 0 (o
vicino allo zero) la distribuzione é molto vicina a quella normale (normocurtica); se é inferiore allo
zero, é più schiacciata di quella normale standard (platicurtica) se superiore allo zero é più sfilata
(stretta) di quella normale standard (leptocurtica) come nel nostro caso
37
La asimmetria ci indica la posizione della moda rispetto alla media: se il valore é zero (o vicino)
moda e media sono molto vicine, se superiore allo zero, la moda é superiore alla media
(distribuzione asimmetrica destra) se inferiore allo zero la moda é inferiore alla media
(distribuzione asimmetrica a sinistra).
Altre misure di posizione utili sono i quartili, che rappresentano quei valori della variabile che
dividono in quarti la distribuzione. Entro il primo quartile sono compresi il 25% dei dati, entro il
secondo (che coincide con la mediana) il 50%, entro il terzo il 75%. Tutta la distribuzione
comprende il 100% dei dati, ed il valore massimo riscontrato é il quarto quartile. Nel caso del
campione di produzioni delle pecore Valle del Belice, il primo quartile é di 1108 grammi (il 25%
del campione produce di meno) ed il terzo quartile è di 2005 grammi (il 25% della popolazione
produce più). I quartili danno una rappresentazione immediata della mdalità con cui si distribuisce
la variabile.
2. . La misura della dispersione dei dati
Come abbiamo detto in precedenza, la media aritmetica rappresenta l’informazione più importante
che possiamo estrarre da una variabile. Ma non é la sola!.
Consideriamo 4 insiemi di dati:
A
B
C
D
5
3
1
0
5
4
3
2
5
5
5
5
5
6
7
8
5
7
9
10
Σxi
25
25
25
25
m
5
5
5
5
Questi insiemi sono isonumerici e isoquantitativi per cui hanno sommatoria e media uguali.
Se non disponessimo di altre
informazioni sulla distribuzione dei dati all’interno di ciascun
insieme, il più probabile valore di ciascun dato sarebbe 5 (la media é cioè il predittore più
affidabile). Questi insiemi non sono però costituiti da valori uguali, eccetto che nel gruppo A; la
38
media spiega tutto il fenomeno solo in questo insieme, ma il suo potere esplicativo va decrescendo
man mano che si passa dal gruppo A a quello D (aumenta cioè la dispersione dei dati attorno alla
media, esistendo valori molto diversi da questa).
I quattro gruppi sono diversi fra loro non nella somma (e nella media) ma per la dispersione
interna dei dati: i gruppi sono caratterizzati infatti da una differente variabilità.
La variabilità, ossia la modalità con cui i dati sono dispersi, rappresenta il secondo e più importante
oggetto di studio della statistica. Utilizzeremo un approccio intuitivo allo studio della variabilità di
una variabile statistica.
Poiché somma dei valori e media rappresenta la stessa informazione (infatti i gruppi di variabilità
differente hanno la stessa somma), verifichiamo se la somma dei quadrati dei dati può costituire un
indicatore della variabilità.. Nel nostro esempio si ha:
Σx2
D
A
B
25
9
1
0
25
16
9
4
25
25
25
25
25
36
49
64
25
49
81
100
125
135
165
193
C
Si può notare che, a parità di media e di numerosità del campione, man mano che aumenta la
variabilità aumenta anche la somma dei quadrati dei dati (Σx2 o SS, acronimo inglese che significa
“Sum of Squares”); possiamo allora dire che la SS è un parametro legato alla variabilità.
C’è però un problema: con la SS ho una (presunta) misura della variabilità anche in un insieme di
dati (il gruppo A) in cui non esiste variabilità. Dobbiamo allora esplorare la possibilità che esista
qualche altra relazione che esprima meglio il fenomeno: se togliamo dalla somma totale dei
quadrati, la somma dei quadrati della parte del fenomeno che é inviariante (la media) otteniamo una
misura idonea allo scopo. infatti, la vera misura della variabilità è la somma dei quadrati (variabilità
totale) meno la parte invariante (somma dei quadrati della media).
Nel nostro esempio si ha:
-
somma dei quadrati dei dati (SS)
A = 125; B = 135; C = 165; D= 193;
-
somma dei quadrati della media (uguale per tutti gruppi)
39
SSm = ny2 = 5 x 52 = 125
-
differenze SS – SSm
A :125-125 = 0; B: 135-125 = 10; C: 165-125 = 40; D: 193-125 = 68.
Le differenze ottenute prendono il nome di devianza (Dev o SSε):
SSε = SS – SSm
da cui si ottiene la relazione fondamentale: la somma dei quadrati di un insieme di dati é
scomponibile nella somma dei quadrati della media e nella somma dei quadrati residua (dalla
sottrazione) che prende il nome di Devianza.
SS = SSm + SSε.
Si può arrivare a questa relazione in un altro modo. Consideriamo ad esempio o gruppi A e D.
Ciascuno dei dati può essere scomposto in due parti, la media del gruppo di appartenenza e lo
scostamento del dato dalla media secondo la relazione:
xi = µ + εi
Nel caso del gruppo D, il secondo dato (2) può essere anche scritto come media+deviazione dalla
media del dato: 2 = 5 – 3; così il quinto dato può essere scritto come 8 = 5 + 3. Gli εi sono chiamati
deviazioni dalla media .
La relazione illustrata sopra prende il nome di MODELLO LINEARE DELLA MEDIA. Facciamo
ora i quadrati dei componenti il modello lineare dei dati dei gruppi A e D e li sommiamo.
A
µ+ε
D
µ+ε
5
5+0
0
5-5
5
5+0
2
5-3
5
5+0
5
5+0
5
5+0
8
5+3
5
5+0
10
5+5
SSm + SSε
125+0 = 125
125+68 = 193
Abbiamo ottenuto lo stesso risultato. Ciò significa che la devianza rappresenta la somma delle
deviazioni quadratiche dalla media, cioè:
40
SSε = ∑ ( xi − m) 2
ma che essa può anche essere calcolata con la formula riportata in precedenza
SSε = SS − SSm
in cui SS é la somma totale dei dati al quadrato e SSm é la somma delle media al quadrato (che può
essere ottenuta facilmente con la relazione SSm = n*m2, in cui n = numerosità del campione).
La misura così ottenuta non é però facilmente impiegabile in quanto é riferita all’intero campione.
Se la devianza é ponderata per la numerosità del campione, essa prende il nome di varianza, e
rappresenta lo scarto quadratico medio del campione. In notazione é indicata come MS,
dall’acronimo della definizione inglese mean square, quadrato medio. Nel caso in cui si calcoli la
MS di un campione (e non della popolazione) il fattore di ponderazione non é la numerosità totale
del campione, ma sono i suoi gradi di libertà: gl = n – 1. Approfondiremo fra poco questo concetto.
La formula per il calcolo della varianza é allora:
( xi − m) 2
∑
MS =
n −1
oppure con la formula
MS =
SS − SSm
n −1
Anche in questo caso però il dato non é immediatamente leggibile in quanto espresso in forma
quadratica. Per riportarlo alla dimensione lineare (cioé allo stesso ordine di grandezza della media)
dobbiamo estrarre le radice quadrata: il risultato, caratterizzato dai due segni ±, prende il nome di
deviazione standard (ds). La formula completa per il calcolo della ds é la seguente
ds =
∑ ( xi − m) 2
n −1
A titolo di esempio, prendiamo in esame le produzioni di latte delle 25 pecore riportate nella tabella
all’inizio della lezione, calcoliamo la media, le deviazioni dalla media, i quadrati e facciamo i conti.
41
Pecora
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Somme
Latte g
1015
1105
1365
1085
840
960
1130
1185
1270
1385
1545
1475
1350
1145
1195
1185
1000
795
1105
1560
1340
1005
1260
1035
1300
media
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
29635
29635
170
80
-180
100
345
225
55
0
-85
-200
-360
-290
-165
40
-10
0
185
390
80
-375
-155
180
-75
150
-115
ε2
29036
6464
32256
10080
119301
50805
3069
0
7157
39840
129312
83868
27093
1632
92
0
34373
152412
6464
140325
23901
32544
5565
22620
13133
0
971346
ε
La devianza (SSε) é uguale a 971346, per cui la varianza (MS) é uguale a 971346/24 = 40473. Se
estraiamo la radice quadrata, otteniamo la deviazione standard (ds) che é uguale a ± 201. Le
informazioni che possiamo trarre da questo campione di dati sono che la produzione media
campionaria (m) é di 1185 grammi di latte per capo per giorno e che la deviazione standard é di ±
201 grammi capo per giorno.
Prima di procedere, dobbiamo sottolineare che quando calcoliamo media, devianza, varianza,
deviazione standard o altre quantità sull’intera popolazione, chiamiamo tali quantità parametri della
popolazione; se esse sono calcolate invece su un campione della popolazione, le chiamiamo
statistiche campionarie (media campionaria, varianza campionaria, ecc..). Poichè nella statistica
inferenziale ciò che ci interessa realmente non sono le statistiche campionarie, ma i parametri della
popolazione, utilizziamo le prime per stimare i secondi. Allora diremo sempre che la media
campionaria é una stima della media della popolazione, che la ds campionaria é una stima della ds
della popolazione, ecc.. Per quanto riguarda i simboli, quando ci riferiamo alle statistiche
campionarie utilizziamo le lettere latine, quanto ai parametri della popolazione le lettere greche:
42
misura
sulla popolazione
sul campione
media
µ
m
2
devianza
δ o SSε
SSe
varianza
σ2 o MSε
MSe
deviazione standard
σ
s o ds
La media e la deviazione standard rappresentano i parametri della curva di normale, o curva di
Gauss o curva degli errori. Una disamina approfondita della storia della curva degli errori e l’analisi
matematica della funzione sono riportate nell’appendice di questa lezione.
L’equazione della curva normale è la seguente:
−
1
f ( x) =
e
σ 2π
( x − X )2
2σ 2
la cui forma é :
µ–σ
µ
µ+σ
La media rappresenta il valore di maggiore frequenza, media±deviazione standard rappresentano i
valori in cui si verificano i flessi della curva.
43
3. I gradi di libertà
Abbiamo visto che se dalla somma dei quadrati totale (SS) togliamo la somma dei quadrati della
media (SSm) otteniamo la devianza, la quale ci indica il grado di dispersione dei dati: SSe = SS –
SSm.
Calcolando la media, abbiamo ottenuto una prima informazione dall’insieme dei dati per cui le
informazioni disponibili nel gruppo di dati si riducono di una unità.
Ad esempio, la media dell’insieme 2-5-9-7-4-3-2-0-1 è m = 3,6, mentre la somma è Σx = 33.
Poiché la media campionaria ottenuta è una stima della media della popolazione di riferimento, dal
nostro campione abbiamo estratto una informazione: con ciò il nostro campione non è più
completamente casuale (cioè non è più composto da 9 entità estratte a caso dalla popolazione), ma
la casualità di estrazione si è ridotta di una unità. Infatti, una volta calcolata la media campionaria,
solo 8 delle 9 entità possono essere estratte casualmente: la nona resta vincolata dalla somma dei
dati del campione. L’insieme campionario ha cioè 8 gradi di libertà (possibilità di estrazione
causale). Nel nostro esempio, la somma è 33. Provate ad estrarre casualmente 9 numeri la cui
somma sia 33. Vi tornerà difficile. Con 8 estrazioni tutto diventa più semplice, in quanto il nono
valore deriva dalla differenza fra 33 e la somma degli altri 8.
Nelle stime campionarie della varianza, allora, si impiegano sempre i gradi di libertà come divisore
della devianza campionaria, in quanto il sistema in esame è vincolato dall’informazione dovuta alla
media (oppure alla somma che è lo stesso).
Naturalmente tanto più grande è il campione (n grande) e tanto meno pesano i gradi di libertà
perché n-1 si avvicina al valore di n. In statistica si distinguono quindi campioni grandi (n≥30) da
campioni piccoli (n<30), nei quali i gradi di libertà hanno un peso sempre maggiore rispetto a n
(fino al caso limite di n = 2).
In linea generale, i gradi di libertà rappresentano l’entità delle informazioni disponibili (o
giustificate); le informazioni non giustificate rappresentano i gradi di libertà dell’errore.
Applichiamo questa definizione al modello lineare della media:
xi = µ + εi
SS = SSm + SSe
n = 1 + (n-1)
I gradi di libertà della somma dei quadrati totale sono n perché non abbiamo ancora estratto
informazioni; i gradi di libertà della media sono 0 (zero) in quanto una volta calcolato il suo valore
non può cambiare. I gradi di libertà della somma degli scarti al quadrato sono n-1. E’ possibile
allora osservare che i gradi di libertà sono additivi.
44
4. Le media campionarie e la loro distribuzione
Se estraiamo diversi campioni da una popolazione e ne calcoliamo le medie campionarie, otterremo
una serie di valori differenti. L’insieme delle medie campionarie rappresenta errore perciò a sua
volta una variabile. Ciascuna media campionaria m1 si scosta dalla media vera della popolazione µ
di un errore εmi.
In analogia al modello della media, possiamo quindi scrivere:
m1 = µ + εm1
m2 = µ + εm2 .
……………….
mn = µ + εmn
Sempre in analogia al modello della media, possiamo calcolare i quadrati degli scarti Σεmi2 ,
dividere per i gradi di libertà estrarre la radice quadrata. La deviazione standard della distribuzione
delle medie prende il nome di errore standard (es) ed rappresenta la misura della variabilità delle
medie campionarie. L’errore standard dipende dalla numerosità del campione estratto ed è calcolato
con la formula:
es =
σ
n
dove σ è la deviazione standard della popolazione e n è la numerosità del campione. Ovviamente,
maggiore è la numerosità del campione, minore è l’es. Per campioni di numerosità vicina a quella
della popolazione, l’es è molto vicino allo zero: le medie campionarie sono vicinissime alla media
della popolazione.
La variabile medie campionarie tende sempre a distribuirsi normalmente. Questa proprietà è di
grandissima importanza per tutta l’analisi statistica ed è stata enunciata con il nome di teorema del
limite centrale.
“Qualsiasi sia la distribuzione della variabile in esame, le medie campionarie si distribuiscono
normalmente con media uguale alla media della popolazione quando il numero di campioni tende
all’infinito”
Espresso formalmente il teorema del limite centrale è il seguente
45
lim f (m) ≡ norm
nm→∞
in cui f(m) è la funzione di distribuzione delle medie campionarie ed nm è il numero di campioni
estratti dalla popolazione.
Nel caso della produzione di latte delle pecore riportata nella tabella dell’esempio precedente, il
valore dell’errore standard stimato è di 201/√25 = ±40 grammi capo giorno.
5. La distribuzione normale standardizzata e l’integrale di probabilità
La curva normale è un oggetto difficile da maneggiare. Tutte le distribuzioni normali
possono essere uniformate attraverso una trasformazione chiamata
standardizzazione. La standardizzazione consiste nel dividere gli scostamenti di
ciascun dato dalla media per la deviazione standard. In formula; la nuova variabile
prende il nome di z:
( xi − m ) 2
s
La variabile che risulta da questa operazione ha media uguale a zero e deviazione standard uguale a
z=
1. Nel nostro esempio avremo:
Pecora
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Somme
s
Latte g
1015
1105
1365
1085
840
960
1130
1185
1270
1385
1545
1475
1350
1145
1195
1185
1000
795
1105
1560
1340
1005
1260
1035
1300
29635
201
media
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
1185
29635
e
170
80
-180
100
345
225
55
0
-85
-200
-360
-290
-165
40
-10
0
185
390
80
-375
-155
180
-75
150
-115
0
e/s=z
0,8450
0,3977
-0,8947
0,4971
1,7149
1,1184
0,2734
0,0000
-0,4225
-0,9941
-1,7895
-1,4415
-0,8202
0,1988
-0,0497
0,0000
0,9196
1,9386
0,3977
-1,8640
-0,7705
0,8947
-0,3728
0,7456
-0,5716
0
1
La distribuzione della nostra variabile trasformata, con le sue specifiche, apparirà nel modo
seguente
46
Descriptive Statistics
Variable: e/s
Anderson-Darling Normality Test
A-Squared:
P-Value:
-2
-1
0
1
2
95% Confidence Interval for Mu
0,153
0,952
Mean
StDev
Variance
Skewness
Kurtosis
N
-0,00198
1,00000
1,00000
-7,1E-02
-4,3E-01
25
Minimum
1st Quartile
Median
3rd Quartile
Maximum
-1,86400
-0,79535
0,00000
0,79530
1,93860
95% Confidence Interval for Mu
-0,41476
-0,5
0,0
0,5
0,41080
95% Confidence Interval for Sigma
0,78083
1,39116
95% Confidence Interval for Median
95% Confidence Interval for Median
-0,54206
0,47741
E’ possibile notare che la nuova distribuzione standardizzata ha media zero, varianza e deviazione
standard 1, curtosi e simmetria (skewness) molto vicine a zero.
Come abbiamo detto, la nuova variabile standardizzata prende il nome di variabile z. Se sostituiamo
il valore z all’equazione della curva di Gauss, otteniamo la nuova equazione della variabile
standardizzata:
z2
f ( z) =
1 −2
e
2π
Ricordiamoci che la curva di Gauss è una distribuzione di frequenze. Poiché abbiamo fatto una
scelta frequentista, per noi la frequenza di un evento coincide con la probabilità che tale evento si
verifichi. Possiamo allora calcolare la probabilità di eventi compresi fra due valori di x1= a e x2=b
attraverso il calcolo dell’integrale della curva delle probabilità.
b
P (b − a ) = ∫ f ( x)
a
Questo integrale risolto per valori uguali a m±ds ci da un risultato di poco superiore al 68%, e per
valori uguali a m±2ds ci da un risultato di poco superiore al 95%. Ciò significa che il 68% della
47
popolazione è compresa in un intervallo pari a ±ds dalla media e il 95% in uno con ±2 deviazioni
standard dalla media.
68% della
popolazione
µ–σ
µ
µ+σ
In sintesi:
1) la curva normale é la seguente
f ( x) =
1
e
h 2π
−
( x − µ )2
2h 2
2) se poniamo
(x − µ) σ = z
3) la curva di distribuzione diventa
f ( x) =
1
2π
48
e
−
z2
2
4) e l’integrale di probabilità
P ( x) =
1
2π
+z
∫e
−
z2
2
dz
−z
5) comprende le seguenti aree
Intervallo rispetto a µ
da –σ a + σ
da -2σ a +2σ
da -3σ a +3σ
da –1,96σ a +1,96
da –2,58σ a +2,58σ
comprende
68,3%
95,4%
99,7%
95,0%
99,0%
esclude
31,7%
4,6%
0,3%
5,0%
1,0%
49
(Testo a lettura obbligatoria)
GLI ERRORI E IL LORO STUDIO
L’errore, inteso nel senso moderno di imprecisione fra una data misura e il valore “vero” della
grandezza misurata, é un concetto relativamente moderno. Infatti, nel mondo antico e medioevorinascimentale, la scarsa (o nulla) attenzione per la conoscenza empirica del mondo e la
imprecisione degli strumenti di misurazione aveva generato una limitata quantità di dati osservativi
e pertanto l’errore era connaturato al concetto morale di giusto, nel senso che ne rappresentava la
negazione.
Furono gli astronomi ad utilizzare il concetto di errare, nel senso di vagare nella volta celeste, per
identificare quei corpi che non seguivano nel loro moto l’evoluzione delle stelle. Erano i pianeti e
l’etimo del termine significa proprio “erranti”.
Il primo che considerò gli errori di misurazione nel senso moderno fu Tycho Brahe (1546-1601),
danese di nascita e fondatore dell’astronomia pratica. Astronomo a Praga, compì una mole di
osservazioni di tale estensione e accuratezza che Keplero, il quale nel prese il posto alla morte nel
ruolo di astronomo di corte di Rodolfo II, le utilizzò per dedurre le sue fondamentali leggi sul moto
dei pianeti intorno al sole.
Tycho Brahe mise in crisi il sistema Aristotelico-Tolemaico con l’osservazione di una “supernova”
nel 1572 della quale non calcolò la parallasse. Ciò collocava il nuovo astro nelle sfere esterne a
quella della luna le quali, secondo Aristotele, dovevano essere “fisse ed immutabili”.
Tycho comprese per primo che gli errori possono essere suddivisi in due grandi categorie, se si
escludono quelli grossolani (sbagli) dovuti a scarsa perizia osservativa che possono essere eliminati
facilmente:
a) errori sistematici, dovuti ad un’unica causa (nota o meno) che possono essere rimossi
ricercandone la causa ed eliminandola oppure ripetendo più volte le osservazioni in
differenti condizioni in guisa che gli errori di segno opposto si annullano;
b) errori accidentali o random, dovuti a cause sconosciute (o inconoscibili). Su essi (e di
errori così ne possedeva un bel repertorio...) osservò i seguenti fatti euristici: i) gli errori
piccoli sono in numero superiore a quelli grandi; ii) gli errori sono compresi entro certi
limiti; iii) gli errori con segno positivo sono circa uguali a quelli con segno negativo.
In questa classificazione possiamo riconoscere in nuce il concetto di modello lineare che é
attualmente impiegato in analisi della varianza.
Tycho fu probabilmente il primo che utilizzò la media delle misurazioni ripetute come valore più
vicino a quello vero e trasmise questa tecnica alle generazioni successive di astronomi e geodeti.
Ciò che gli sfuggì fu la relazione fra frequenza degli errori e probabilità che si verificassero: dovrà
passare un secolo e mezzo peché ciò avvenga.
Fu merito del francese ugonotto Abraham De Moivre (1667-1754), fuggito in Inghilterra a seguito
dell’editto di Nantes, il merito di legare la probabilità di trovare un errore con la sua entità. Egli fu
infatti l’autore di uno dei primi trattati di teoria della probabilità (Doctrine of chances, 1718) nel
quale derivava risultati algebrici per induzione utilizzando osservazioni sulle frequenze di eventi.
Introdusse in tal modo la probabilità composta di due eventi indipendenti (p(A) x p(B) = p(AxB)) e
probabilmente fu il primo a operare con la formula delle probabilità
+∞
∫e
−x2
dx =
π /2
0
50
risultato che apparve con scarso rilievo in un opuscolo stampato privatamente nel 1733
(Approximatio ad summam terminorum binomii (a+b)n in serie expansi). Il risultato comunque fu
tradotto in inglese ed inserito nella seconda edizione di Doctrine of chences (1738).
Una svolta decisiva alla teoria degli errori fu però apportata da Adrien Marie Legendre ( 17521833) (che assieme a Condorcet, Lagrange, Monge, Laplace e Carnot, rappresenta il gotha dei
matematici della Francia rivoluzionaria), il quale nella sua veste di componente della commissione
dei pesi e delle misure incaricata di definire il “metro” ed il sistema di misurazione decimale ad
esso collegato, si cimentò con le misure geodetiche attraverso la triangolazione generale della
Francia dalla quale ricavò il metro provvisorio quale decimilionesima parte del quarto del
meridiano terrestre. Quella definitiva, come é noto, fu l’esito delle misurazioni compiute in un
quinquennio dai due astronomi geodeti Delambre e Mechain.
Nel 1805 pubblicò una “Memoire” nei quaderni dell’Institut des Sciences dove comparve per la
prima volta il metodo dei minimi quadrati utilizzato per risolvere delle incongruenze in alcune
equazioni lineari dedotte da osservazioni astronomiche.
Ma fu Carl Friederich Gauss (1777-1855) ad utilizzare per primo il metodo dei minimi quadrati
come dimostra una lettera spedita a Olbers nel 1802. Olbers era un astronomo che aveva “scoperto”
Pallade (uno dei tanti pianeti minori del nostro sistema solare) e aveva chiesto a Gauss di calcolarne
l’orbita sulla base delle proprie osservazioni.
Gauss partì dal presupposto che ciascuna osservazione Oi poteva essere affetta da in errore casuale
εi.
Il teorema afferma che il valore medio delle osservazioni Om é il valore vero della grandezza
misurata che minimizza la somma degli errori al quadrato.
Diamo una dimostrazione algebrica del teorema.
Vogliamo dimostrare che il valore medio di n misure minimizza la somma degli
scarti al quadrato.
Sia Oi l’i-esima osservazione, Om il valore medio ed x il valore vero. Sia poi ε i
l’errore di cui è affetta l’i-esima osservazione. Allora ogni singola osservazione può
essere scritta:
O1 = Om + ε 1
O2 = Om + ε 2
. . . . . . .
On = Om + ε n
poiché
n
∑ Oi = nOm
i
segue che
n
∑ε i = 0 .
i
Consideriamo la somma degli scarti dalla media al quadrato:
51
S ( x) = ( x − O1 ) 2 + ( x − O2 ) 2 + .......... + ( x − On ) 2
Viste
le
relazioni
precedenti
questa
somma
può
anche
essere
S ( x) = [x − (Om + ε 1 )] + [x − (Om + ε 2 )] + ....... + [x − (Om + ε n )]
2
2
2
Sviluppando i quadrati si ottiene:
S ( x) = x 2 − 2(Om + ε 1 ) x + Om2 + 2Omε1 + ε 12 +
x 2 − 2(Om + ε 2 ) x + Om2 + 2Omε 2 + ε 22 +
......................................................
x 2 − 2(Om + ε n ) x + Om2 + 2Omε n + ε n2 +
Sviluppando ulteriormente i calcoli ed ordinando si ha:
n
n
n
1
1
1
S ( x) = nx 2 − 2nOm x + nOm2 − 2nx ∑ ε i + 2nOm ∑ ε i + ∑ ε i2
e raggruppando si ha
n
S ( x) = n( x − Om ) 2 + ∑ ε i2
1
in quanto i termini
n
n
1
1
2nx ∑ ε i + 2nOm ∑ ε i
sono uguali a zero in quanto la somma degli errori é uguale a zero.
n
La funzione somma ha un minimo per x = Om da cui, sostituendo, S ( x) = ∑ ε i2
1
S (x)
n
∑ε
2
i
1
52
Om
x
scritta:
La figura mostra che per qualsiasi valore di x≠Om la somma dei quadrati degli scarti
tende a crescere.
La disputa proseguì per gli anni seguenti e fu risolta a Laplace che non prese le parti
né dell’uno né dell’altro.
La Storia però fa giustizia: Gauss mise a punto per primo il teorema; Legendre lo
pubblicò per primo.
Va infine ricordato che fu Pierre Simon Laplace (1749-1827) a risolvere
analiticamente per primo l’integrale di probabilità di De Moivre. Tale risultato servi
con molta probabilità a Gauss per operare il collegamento fra la teoria degli errori e la
curva normale.
Questo passaggio gli valse il “battesimo” della curva che da allora è conosciuta con il
nome di GAUSSIANA.
Bibliografia essenziale
Boyer, C.B. – Storia della matematica. Oscar saggi Mondadori, 1990.
Bell, E.T. – I grandi matematici. Sansoni ed., 1950.
Courant, R., Robbins, H. – Che cos’é la matematica? Unversale Scientifica Boringhieri, 1985.
Tazzoli, R. – Gauss, principe dei matematici e scienziato poliedrico. Le Scienze, 5(28), 2002.
53
(Testo a lettura facoltativa)
La distribuzione Normale (Gaussiana) (C. Dimauro)
Il prototipo della funzione matematica che descrive la curva a campana è:
f ( x) = e
−
x2
h2
(1)
Il parametro h è un parametro fisso che possiamo chiamare parametro di larghezza.
Il grafico della (1) e:
Al variare del parametro h si ha:
all’aumentare di h aumenta la larghezza della curva.
54
Dimostriamo che il punto di massimo coincide con il punto di coordinate (0,1) . Per
fare ciò calcoliamo la derivata prima della funzione:
x2
2 −h
′
f ( x) = − 2 xe
h
Il punto di massimo sarà trovato per quel valore x che annulla la derivata prima:
x2
f ′( x) = 0
la quantità e
−
2 − h2
− 2 xe
=0
h
→
x2
h2
non si annulla mai per definizione di funzione esponenziale, quindi
deve essere
−
2
x = 0 e cioè x = 0
h2
Quindi nel punto di ascissa x = 0 si avrà il massimo. Calcoliamo l’ordinata di tale
punto sostituendo x = 0 nella (1):
f ( 0) = e
⎛ 0 ⎞
−⎜ 2 ⎟
⎝h ⎠
2
=1
Si avrà quindi un massimo nel punto M di coordinate M (0;1) .
Calcoliamo adesso la derivata seconda che ci permetterà di ricavare il punto di flesso:
x2
⎡ − x2 ⎛
−
2
2
2
2
f ′′( x) = − 2 ⎢e h + ⎜⎜ − 2 xe h
h ⎢
⎜ h
⎝
⎣
⎞ ⎤
⎟ ⋅ x⎥
⎟⎟ ⎥
⎠ ⎦
da cui:
x2 ⎤
⎡ − x2
−
2
2
2
2
f ′′( x) = − 2 ⎢e h − 2 x 2 e h ⎥
⎥
h ⎢
h
⎦
⎣
ed infine:
x2
2 − 2⎡
2 ⎤
f ′′( x) = − 2 e h ⎢1 − 2 x 2 ⎥
h
⎦
⎣ h
Il punto di flesso sarà trovato per quel valore x che annulla la derivata seconda:
55
f ′′( x) = 0 →
−
2
e
h2
−
x2
h2
2 2⎤
⎡
⎢⎣1 − h 2 x ⎥⎦ = 0
da cui, per gli stessi motivi legati alla derivata prima è:
1−
2 2
x =0
h2
da cui
x=±
h
2
Otteniamo, come ci aspettavamo, vista la simmetria della funzione, due punti di
h
h
flesso, il primo per x1 = −
, il secondo per x2 =
. Le ordinate del punto di
2
2
2
h2
flesso si ricavano sostituendo nella (1): ⎛⎜ ± h2 ⎞⎟
1
−⎝ 2 ⎠
− 22
−
h
h
h
f (±
) =1 e
=e
= e1 2
⎛ h2 − ⎞
⎛ h − ⎞
In definitiva avremo: F1 = ⎜ −
; e 2 ⎟ ed F2 = ⎜
;e 2 ⎟
⎟
⎟
⎜
⎜
2
⎠
⎠
⎝
⎝ 2
Se modifichiamo la (1) si ha:
f ( x) = e
−
x2
2 h2
(2)
andando a svolgere i calcoli, i punti di flesso saranno:
1
⎛
− ⎞
⎜
F1 = − h ; e 2 ⎟
⎟
⎜
⎠
⎝
ed
1
⎛
− ⎞
⎜
F2 = h ; e 2 ⎟
⎟
⎜
⎠
⎝
La (2) non è ancora nella sua forma finale. Ogni distribuzione deve essere
normalizzata, cioè deve soddisfare la condizione:
+∞
∫ f ( x)dx = 1
(3)
−∞
cioè l’area sottesa dalla curva deve essere uguale ad 1. Ciò è consistente con i nostri
scopi, visto che la probabilità totale è 1.
Per fare ciò poniamo:
f ( x) = N e
56
−
x2
2 h2
(4)
cioè moltiplichiamo la funzione per il fattore N che non cambia né la forma, né il
massimo. Dobbiamo scegliere allora il fattore di normalizzazione N in modo che la
funzione sia normalizzata come la (3):
+∞
+∞
∫ f ( x)dx = ∫ N e
−∞
per risolvere questo integrale poniamo:
−
x2
2 h 2 dx
−∞
x
= y da cui x = hy
h
dx = hdy
per cui si avrà:
2
=N
+∞ − y
h e 2
∫
dy =
−∞
2
l’integrale
+∞ − y
e 2
∫
dy è uno degli integrali standard della fisica matematica (che sarà
−∞
risolto in appendice) e dà come risultato:
2
+∞ − y
e 2
∫
dy = 2π
−∞
per cui si avrà
2
=
+∞ − y
Nh e 2
∫
dy = Nh 2π
−∞
Questo integrale deve essere 1 e quindi:
Nh 2π = 1
da cui
N=
1
h 2π
Sostituendo questo valore nella (4) si ottiene la distribuzione di Gauss o Normale,
correttamente normalizzata:
f ( x) =
1
e
h 2π
57
−
x2
2h2
(5)
Questa curva è la curva normale con massimo in x = 0 . Nella pratica, il massimo di
questa curva non sempre è nello zero. Per renderla più generale, sostituiamo nella (5)
x con x − X . La (5) diventerà:
f ( x) =
1
e
h 2π
−
( x − X )2
2 h2
(6)
il cui punto di massimo avrà ascissa x = X . Per cui al variare di X si avranno le
curve:
Interpretiamo adesso le quantità X ed h.
In generale, la media di un qualunque numero di misure è la somma di tutti i diversi
valori xk , ciascuno pesato per la frazione di volte in cui è stato ottenuto:
x = ∑ xk Fk
k
dove ovviamente Fk =
nk
che rappresenta la frequenza con cui una data misura nk si
N
presenta nelle N misure totali. Se, come nel nostro caso il numero di misure è enorme
ed abbiamo la distribuzione limite, il valore medio sarà dato semplicemente da
+∞
µ = ∫ xf ( x)dx
−∞
58
per cui sostituendo si avrà:
µ=
1
h 2π
+∞
∫ xe
−
( x − X )2
2 h2
dx
−∞
Facciamo anche qui un cambio di variabili, ponendo y = x − X , da cui x = y + X e
differenziando dx = dy . Sostituendo nell’integrale si ottengono due termini:
2
⎛ +∞ − y 2
⎞
+∞ − y
1 ⎜
2
2
2
h
2
h
ye
dy + X ∫ e
dy ⎟⎟
µ=
∫
⎜
h 2π ⎜ −∞
⎟
−∞
⎝
⎠
Il primo integrale è esattamente zero, perché il contributo di ogni y è cancellato
esattamente da quello di –y. Il secondo integrale è l’integrale di normalizzazione visto
prima ed ha il valore h 2π . Questo valore si semplifica con h 2π al denominatore
e si ottiene che il valore atteso, la media teorica, il risultato più probabile è
µ=X
Quindi il punto di massimo in cui è centrata la gaussiana è proprio la media attesa µ .
Sostituendo nella (6) si avrà:
−
1
f ( x) =
e
h 2π
( x − µ )2
2 h2
Sappiamo che la deviazione standard è data dalla formula:
σ=
∑ ( xi − µ ) 2
N −1
al quadrato
σ
2
( xi − µ ) 2
∑
=
N
dove al posto di N − 1 abbiamo messo N visto il numero grandissimo di misure. Si ha
ancora:
σ
2
( xi − µ ) 2
∑
=
N
59
che è la media della deviazione standard. Con le stesse considerazioni fatte
precedentemente si perviene all’integrale:
+∞
σ 2 = ∫ ( x − µ ) 2 f ( x)dx
−∞
cioè
1
σ2 =
h 2π
+∞
∫
(x − µ )2 e
−
( x − µ )2
2 h2
dx
−∞
Ponendo y = x − µ e z = y h ed integrando per parti si ottiene:
σ 2 = h2
per cui la forma finale della distribuzione normale è:
f ( x) =
1
e
σ 2π
−
( x − µ )2
2σ 2
che per quanto visto avrà il massimo nel punto di ascissa µ e flessi nei punti di
ascissa ± σ
LA DEVIAZIONE STANDARD COME IL LIMITE DI CONFIDENZA DEL 68
PERCENTO
Abbiamo visto che l’integrale della gaussiana dà come risultato 1, cioè
+∞
∫ f ( x)dx = 1
−∞
allora si comprende bene che
b
∫ f ( x)dx
a
è la probabilità che una data misura dia un risultato nell’intervallo [a, b]. In
particolare, possiamo allora calcolare la probabilità che una misura cada entro una
deviazione standard σ dal valore vero µ . Questa probabilità è data da:
60
P(entro σ ) =
1
σ 2π
µ −σ
µ +σ
∫
e
−
( x − µ )2
2σ 2
dx
µ −σ
µ
µ +σ
L’integrale può essere semplificato sostituendo ad ( x − µ ) σ = z . Con questa
sostituzione si ha dx = σdz ed i limiti dell’integrale diventano z = ±1 . Allora
1
P(entro σ ) =
2π
2
+1 − z
e 2
∫
dz
−1
Questo integrale è un integrale standard della fisica matematica noto come la
funzione degli errori denotata con erf(t) o integrale normale degli errori. Può essere
valutato sia analiticamente che con una normale calcolatrice. Il calcolo in questo caso
ci dà ≅ 0,68 .
APPENDICE:
calcolo dell’integrale di probabilità: I =
+∞
∫
e
−
x2
2
dx
−∞
Il primo a svolgere questo calcolo fu Laplace con una tecnica molto originale per
quel tempo.
61
La funzione esponenziale è simmetrica rispetto all’asse delle ordinate, per cui è
possibile calcolare solo l’integrale da 0 a + ∞ e poi moltiplicare per 2:
+∞
I = 2I 1 = 2 ∫ e
−
x2
2
dx
0
Eleviamo al quadrato l’integrale I1 ed otteniamo:
2
I 12 =
+∞ − x
e 2
∫
2
+∞ − y
dx ⋅ e 2
∫
0
dy
0
dove nel secondo integrale la variabile x è stata cambiata in y. Aggiustando i calcoli
si ha:
+∞ +∞
∫ ∫
I 12 =
0
e
−
x2 + y2
2
dxdy
0
dove dx e dy rappresentano gli spostamenti infinitesimi su cui integrare. La quantità
x 2 + y 2 = r 2 rappresenta una circonferenza di centro l’origine degli assi cartesiani e
raggio r. Ciò suggerisce una trasformazione delle variabili in coordinate polari. in tali
coordinate lo spostamento orizzontale è rappresentato dal raggio, per cui dx = dr; lo
spostamento verticale avviene lungo un arco, per cui essendo un arco di lunghezza l
uguale a l = rθ , lo spostamento in verticale sarà dato da dl = rdθ . Si ha quindi:
π
I 12 =
π
2
2 +∞ − r
e 2
∫∫
0 0
2
+∞
0
0
dr r dθ = ∫ dθ
∫
re
−
r2
2
dr
Il primo di questi integrali dà come risultato:
π
π
2
∫ dθ = [θ ]02
=
0
π
2
mentre il secondo:
+∞
∫
0
r2
−
re 2
2
dr =
+∞ − r
− e 2
∫
0
+∞
r2
⎛ r ⎞ ⎡ −2⎤
d ⎜⎜ − ⎟⎟ = ⎢− e ⎥ = 1
⎥
⎝ 2 ⎠ ⎢⎣
⎦0
2
quindi
62
I 12 =
π
2
⋅1 =
π
2
da cui estraendo la radice quadrata ad entrambi i membri si ha:
I1 =
π
2
Moltiplicando per due questo integrale si ottiene la soluzione dell’integrale di
partenza:
I=2
π
2
= 4⋅
63
π
2
= 2π
Lezione n. 5
INFERENZA SULLA MEDIA E ANALISI DELLA VARIANZA
1. L’inferenza sulla media (A. Nudda)
Abbiamo visto che l’obbiettivo della statistica è quello di stimare i parametri della popolazione basandoci sulle
informazioni (statistiche) calcolate sul campione.
Ricordiamo che la popolazione è caratterizzata da misure numeriche descrittive chiamate “parametri”: la media (µ) e la
deviazione standard (σ)
I metodi di inferenza statistica sui parametri della popolazione sono fondamentalmente due:
1.
la stima del valore del parametro della popolazione
2.
il test di ipotesi (test statistico)
Nel primo caso (stima del parametro della popolazione) noi dobbiamo rispondere alla domanda
“qual è il valore del parametro della popolazione” mentre con il test statistico dobbiamo rispondere
alla domanda “il valore del parametro (es. µ) considerato è uguale o diverso da uno specifico valore
(µ0)?”
Ricordiamo ancora che nella curva della distribuzione normale
…nell’intervallo µ±1,96 ES. ricade il 95% dei valori
…nell’intervallo µ±2 ES ricade il 95,44% dei valori
…nell’intervallo µ±2,58 ES ricade il 99% dei valori
dove ES (errore standard) = deviazione standard diviso la radice quadrata di n (numerosità dei dati)
L’intervallo µ±1,96 ES è un intervallo di confidenza al 95%.
L’intervallo µ±2,58 ES è un intervallo di confidenza al 99%
64
L’intervallo di confidenza è calcolato con la formula:
µ ± Zα/2 × ES
in cui z è in valore inferiore (quello superiore è +∞) dell’integrale della curva normale standardizzata. Il valore
dell’integrale rappresenta il livello di significatività richiesto dal test. Il valore di α corrisponde al livello di probabilità
scelto, solitamente α =5% (chiediamo al test in quale intervallo di valori della distribuzione delle medie campionarie
comprende il 95% della popolazione delle medie campionarie). Nella formula usiamo α/2 poiché dobbiamo ricordare
che le due code della distribuzione di frequenza sono simmetriche per cui ogni coda comprende il (α/2)∗ 100 dei casi.
Per campioni grandi, con almeno 30 elementi (n >30), usiamo il valore di z per calcolare l’intervallo di confidenza. Per
campioni piccoli, di numerosità inferiore a 30 nei quali l’uso della distribuzione z potrebbe creare distorsioni nella
stima, dobbiamo utilizzare come livello di probabilità quello della distribuzione “t” . Lai la formula per calcolare
l’intervallo di confidenza sarà perciò:
µ − tα/2 × ES
Stima del valore del parametro della popolazione
Supponiamo di essere interessati alla stima dell’altezza media della popolazione “studenti dell’ateneo di Sassari”. Per
fare questo lavoriamo su un campione (ad esempio un gruppo di studenti della facoltà di agraria) di cui misuriamo la
media (m) per poter stimare la media della popolazione (µ)
In un campione di n = 50 studenti della facoltà di agraria di Sassari l’altezza media (m) è 168 cm,
con una deviazione standard di 12 cm. Usiamo questo campione per costruire l’intervallo di
confidenza al 95% per µ (altezza media degli studenti universitari di Sassari).
L’intervallo di confidenza al 95% è dato da: media±1,96 ES: nel caso in esempio ES = (12 / 50
) = 1,70. quindi
intervallo di confidenza al 95% è dato da: = 168 ± 1,96 x 1,70 = 168 ± 3,33
limite inferiore dell’intervallo di confidenza = 168 – 3,33 = 164,67 cm
limite superiore dell’intervallo di confidenza = 168 + 3,33 = 171,33 cm
Pertanto l’altezza media degli studenti dell’ateneo (µ) con probabilità del 95% ricade nell’intervallo compreso fra
164,67 e 171,33 cm.
Gli intervalli di confidenza per µ dipendono dal coefficiente di confidenza scelto (ad es. 95%, 99%, ecc.), dalla
deviazione standard campionaria (maggiore è la variabilità stimata della popolazione e maggiore è quella delle medie
campionarie) e dalla numerosità del campione utilizzato per la stima (più piccolo è il campione, maggiore è l’intervallo
di confidenza: campioni di numerosità limitata possono essere anche molto diversi dalla popolazione, mentre campioni
grandi lo sono di meno).
65
Test statistico per la media
Il test statistico (o test di ipotesi) ci permette di rispondere alla domanda “la media della popolazione (µ) è uguale o
diversa ad uno specifico valore m calcolato su un campione?”
Ad esempio: l’altezza media degli studenti di Sassari (168 cm) è uguale all’altezza media della popolazione di studenti
del nord Italia (173 cm)?
Un test statistico si compone delle seguenti parti:
a) formulazione dell’ipotesi nulla, indicata con H0
L’altezza media degli studenti di Sassari è uguale all’altezza media degli studenti del Nord Italia (ovvero 168 cm è
uguale a 173 cm); ovvero, con quale probabilità le differenze nelle medie campionarie che abbiamo trovato sono dovute
all’estrazione casuale di campioni dalla stessa popolazione?
b) formulazione dell’ipotesi di ricerca o ipotesi alternativa, indicata con Ha
L’altezza media degli studenti di Sassari è diversa dall’altezza media degli studenti del Nord Italia
(ovvero 168 cm è minore di 173 cm; ovvero, la differenza fra i valori medi che abbiamo osservato
sono dovute al fatto che i due campioni appartengono a popolazioni diverse?
c)
applicazione del Test statistico
Calcolo del valore numerico, ricavato dai dati del campione, sulla base del quale si decide se accettare l’ipotesi nulla o
rigettarla a favore dell’ipotesi alternativa. Questo valore numerico (Z, variabile standardizzata della distribuzione delle
m2die campionarie) è calcolato con la formula:
Z=
µ−X
σ/ n
Utilizziamo i dati del campione di 50 studenti di Sassari di cui è stata misurata un’altezza media di 168 cm (m) con una
deviazione standard di 12 e il valore di 173 cm quale altezza media degli studenti del Nord Italia. Applichiamo la
formula per calcolare Z
Z=
168 − 173
12 / 50
d) Regione di rigetto
66
= - 2,94
Individuazione della Zona della distribuzione di probabilità della statistica del test dove ricadono i
valori che consentono di rigettare l’ipotesi nulla a favore di quella alternativa
- si sceglie la probabilità di errore pari ad α (ad es. se vogliamo una probabilità di errore del 5% abbiamo α = 0,05; se
vogliamo una probabilità di errore inferiore, ad esempio dell’1% avremmo α = 0,01)
- nelle tavole della distribuzione normale si individua il valore di Z tabulato corrispondente al valore di α scelto.
Supponiamo di aver scelto una probabilità di errore del 5% per cui α = 0,05 (ricordiamo di cercare nella tabella della
distribuzione normale il valore α/2). Per la probabilità di errore del 5% (ovvero 95% di probabilità di non sbagliare) il
valore di Z tabulato = 1,96. Siccome il valore assoluto di Z da noi calcolato (2,94) supera il valore di Z tabulato (1,96) si
rigetta l’ipotesi nulla (H0 = l’altezza degli studenti di Sassari è uguale all’altezza degli studenti del Nord Italia) e si
accetta l’ipotesi alternativa (H1 = l’altezza degli studenti di Sassari è minore dell’altezza degli studenti del Nord Italia)
e)
Conclusioni
L’altezza degli studenti di Sassari è minore dell’altezza degli studenti del Nord Italia.
Nel dire questo ho la probabilità di sbagliare del 5%. …oppure nell’affermare questo ho la garanzia del 95% di NON
sbagliare.
NB:
Per ritrovare i valori di Z o di t tabulati ricordate di utilizzare le tabelle di densità di probabilità:
-
quella della curva normale nel caso dei test che ricorrono al valore di Z
-
quella del t di student normale nel caso dei test che ricorrono al valore di t
La lettura della tabella di t richiede come informazioni il valore di α prescelto ed i gradi di libertà (g.l.)
g.l. = n -1
2. L’analisi della varianza
Una generalizzazione del confronto fra medie campionarie è l’analisi della varianza (ANOVA in
acronimo che significa “analisys of variance”). Nonostante la denominazione, che deriva da Fisher
e Snedecor che misero a punto questa tecnica negli anni ’20 del novecento, l’ANOVA si occupa di
confronti fra medie campionarie. Il quesito di fondo di questa tecnica è: le medie campionare che ho
ottenuto rappresentano una stima della media della stessa popolazione (ossia, i campioni che ho in
esame sono diversi in quanto estrazioni casuali dalla stessa popolazione), oppure rappresentano
stime di medie di popolazioni differenti? In altri termini, le differenze fra le medie che osservo sono
dovute al caso oppure c’è un motivo?
Prendiamo un insieme di dati senza scriverne il valore (16 dati in totale):
67
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Poniamo di aver estratto questo campione dalla stessa popolazione. I dati sono distribuiti nelle celle
casualmente: infatti, non conoscendone il valore non ho alcuna ragione per una collocazione
preferenziale dei dati in una posizione particolare della matrice. Ora, classifico di dati per colonna:
attribuisco a ciascuna colonna una lettera in modo tale che i dati della prima colonna siano ora
distinguibili da quelli delle altre colonne: in questo modo ho operato una “classificazione” dei dati
(li ho inseriti all’interno di una classe). Il motivo che mi ha spinto a formulare le classi in tal modo e
non in uno alternativo è detto “criterio di classificazione”.
Sui dati così ordinati posso calcolare la media di ciascuna classe (ma, mb, mc, md) e la media
generale mt.
A
B
C
D
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Abbiamo costruito in tal modo una matrice in cui esiste una variabilità verticale (la variabilità dei
dati entro il gruppo di appartenenza) e una variabilità orizzontale (la variabilità delle medie fra
gruppi). La misura di tutta la variabilità verticale può essere stimata con la varianza “entro i gruppi”
(VARENTRO), quella orizzontale con la “varianza tra gruppi” (VARTRA). Se abbiamo distribuito
i dati veramente a caso, non dovrebbe sussistere alcuna ragione per cui una varianza debba essere
maggiore dell’altra. Entrambe sono una stima del parametro “varianza della popolazione”
(VARPOP), per cui con campioni molto grandi il rapporto VARTRA/VARENTRO tende all’unità.
Se invece questo rapporto è molto lontano dall’unità, significa che la variabilità fra i gruppi è di
gran lunga superiore a quello entro i gruppi, per cui è molto probabile i gruppi rappresentino
campioni estratti da popolazioni differenti per la (o le) proprietà che abbiamo in studio.
68
E’ intuitivo che le varianze stimate tendano a cambiare il loro valore in funzione della numerosità
del campione e di quella dei gruppi. Nell’esempio appena accennato, la varianza fra gruppi è
stimata con (4-1) gradi di libertà, mentre quella entro gruppi è stimata con 12 gradi di libertà (3 gdl
per ciascun gruppo). In effetti, su 16 dati e 4 gruppi, la media generale mt porta via una
informazione (libera) cioè un grado di libertà, le medie di gruppo portano via 3 informazioni (la
quarta è “bloccata” dalla media generale), e ciascuno dei k gruppi ha al suo interno nk-1 gradi di
libertà (4-1 nel nostro caso) in quanto la quarta informazione l’abbiamo già usata per calcolare la
media di gruppo. Riassumendo, su una numerosità totale n, divisa in k gruppi isonumerici nk1,
nk2,n….nkn, la somma dei gdl da la numerosità dei gdl totali: n-1 = (k-1, gdl della VARTRA) + (n-k1, gdl della VARENTRO). Normalmente la VARTRA è stimata con gdl inferiori rispetto alla
VARENTRO (di solito i dati all’interno di ciascun gruppo, chiamati repliche, sono di gran lunga
superiori al numero di gruppi. Al limite, sono uguali quando in ciascun gruppo è collocato un solo
dato), per cui VARTRA è detta varianza maggiore (nel senso che assume sempre il valore
maggiore) e VARENTRO è detta varianza minore.
Il rapporto VARTRA/VARENTRO prende il nome di F (da Fisher che lo ha codificato) ed è una
variabile con una distribuzione che dipende dai gradi di libertà delle varianze.
Riportiamo le distribuzioni dell’F di Fisher generate dal software MINITAB per 100 gradi di libertà
per la VARENTRO e gdl da 1 a 50 per la VARTRA.
Distribuzione dell'F di Fisher con 1 e 100 gradi di libertà
400
Frequency
300
200
100
0
0
5
10
15
F(1;100)
69
Distribuzione dell'F di Fisher con 10 e 100 gradi di libertà
Frequency
300
200
100
0
0
1
2
3
F(10;100)
Distribuzione dell'F di Fisher con 20 e 100 gradi di libertà
Frequency
300
200
100
0
0
1
2
3
F(20;100)
Distribuzione dell'F di Fisher con 50 e 100 gradi di libertà
Frequency
400
300
200
100
0
0,5
1,5
2,5
F(50;100)
Vediamo che maggiori sono i gradi di libertà, più il grafico si avvicina ad una distribuzione
normale. Con 5000 gdl per varianza maggiore e minore la distribuzione si assomiglia ad una
normale centrata sul valore 1.
70
Histogram of F(5000;5000), with Normal Curve
600
500
Frequency
400
300
200
100
0
0,9
1,0
1,1
F(5000;5000)
Consideriamo 4 insiemi di dati (rilievi della produzione giornaliera di latte espressa in grammi di
pecore Sarde):
repliche
A
B
C
D
1
1575
1360
1280
1430
2
1860
1910
1050
2330
3
1000
1860
670
1750
4
1140
1470
2020
1645
5
925
1480
915
950
Σx
6500
8080
5935
8105
Σx2
9095450
19308600
8107025
14144825
mk
1300
1616
1187
1621
Dev
645450
251320
1062580
1006620
Var
161362
62830
265645
251655
d.s.
401,7
250,6
515,4
501,6
TOTALE
Σx
= 28620
Σx2
= 44656300
mt
= 1431
Dev
= 3701080
Poniamo che il raggruppamento dei dati corrisponda a 4 differenti tipi di mangime somministrati
agli animali (A = mais; B= orzo; C= avena; D = mais+soia). Dobbiamo verificare se le differenze
71
fra le medie campionarie ottenute sono causali (cioè sono una stima campionaria della sessa media
della popolazione ) oppure se i diversi tipi di mangime hanno creato popolazioni differenti di pecore
e la media campionaria di ciascun gruppo è la stima della media di popolazioni differenti.
Ricordiamoci il modello lineare della media:
yi = µ + ε i
Come ricorderete, in questo modello vi è una parte spiegata (le media) e una non spiegata o casuale
(l’errore). Nel nostro caso, però, abbiamo aggiunto una fonte di spiegazione al fenomeno che è
rappresentata dall’appartenenza delle pecore ai gruppi di alimentazioni differenti. L’errore del
modello della media può quindi essere diviso in due parti, di cui una spiegata (G=gruppo) ed una
residua non spiegata (εi= errore casuale):
ε = εi + G
Quindi il modello complessivo diventa:
yji = µ + Gj + εji
Questo modello può essere letto nel modo seguente: ciascun dato è uguale alla media generale + lo
scostamento della media del gruppo a cui appartiene il dato + lo scostamento del dato dalla media di
gruppo (il pedice j indica il gruppo di appartenenza del dato yji).
Prendiamo come esempio il primo dato:
1575 (yji) = 1431(µ ) – 131 (mk1-µ= Gj ) + 275 (yji – mk1=εji)
La parte spiegata dal modello è il primo scostamento (Gj = -131): questa informazione è giustificata
dal fatto che quel dato è inserito in un determinato gruppo (in questo caso A), il quale possiede una
media che differisce di una quantità Gj dalla media generale.
Lo sviluppo complessivo del modello lineare per i 4 gruppi sperimentali di pecore è illustrata di
seguito; sono anche calcolati i quadrati degli errori.
Gruppo A
εi2
A1
1575 = 1431 - 131 + 275
75625
A2
1860 = 1431 - 131 + 560
313600
A3
1000 = 1431 - 131 - 300
90000
72
A4
1140 = 1431 - 131 -160
25600
A5
925 = 1431 - 131 - 375
140625
645450
Totale
Gruppo B
εi2
B1
1575 = 1431 + 185 - 256
65536
B2
1860 = 1431 + 185 + 294
86436
B3
1000 = 1431 + 185 + 244
59536
B4
1140 = 1431 + 185 – 146
21316
B5
925 = 1431 + 185 - 136
18496
251320
Totale
Gruppo C
εi2
C1
1280 = 1431 - 244 + 93
8649
C2
1050 = 1431 - 244 + 1370
18769
C3
670 = 1431 - 244 - 517
267289
C4
2020 = 1431 - 244 + 833
693889
C5
915 = 1431 - 244 - 272
73984
1062580
Totale
Gruppo D
εi2
D1
1430 = 1431 + 190 – 191
36481
D2
2330 = 1431 + 190 + 709
502681
D3
1750 = 1431 + 190 + 129
16641
73
D4
1645 = 1431 + 190 – 24
D5
576
950 = 1431 + 190 - 671
450241
1006620
Totale
I calcoli sono corretti se la somma degli scarti εi,è uguale a zero e se anche la somma degli scarti
delle medie di gruppo dalla media generale (Gj) è uguale a zero.
Pur se ovvio, vale la pena ricordare che le somma degli scarti è uguale a zero in quanto la somma
dei dati (Σyji) è uguale alla somma.delle medie (Σµ= nµ)
Ricordiamo che nel modello della media si toglieva da SS la parte invariante, cioè SSm, per ottenere
la devianza (cfr lezione n. 4). Vediamo se questo è valido anche con la scomposizione dell’errore in
due parti.
SS = 44656300
SSm= n*m2= 20*14312 = 40955220
Somma dei quadrati degli scostamenti Gj
SSAA = 5
*(-131)2 =
85805
SSAB = 5
*(185)2 =
171125
SSAC = 5
*(-244)2 =
297680
SSAD = 5
*(190)2 =
180500
Se i calcoli sono stati fatti bene, la somma dei quadrati della media (SSm) più la somma dei
quadrati degli scostamenti di ciascun gruppo dalla media (SSG) deve essere inferiore o, al massimo,
uguale alla somma totale dei quadrati (SS), in quanto tutti i valori di ciascun gruppo fossero uguali
fra loro (e uguali alla media del gruppo) gli scostamenti interni al gruppo εi assumerebbero il valore
di zero.
Riprendiamo ora i quadrati degli scostamenti εi e la loro somma calcolata prima:
A:
645450
B:
251320
C:
1062580
D:
1006620
Totale
2965970
Avremo allora nel complesso
74
SS =
44656300
SSm =
40955220
SSG =
73510
SSε =
2965970
Possiamo agevolmente notare che SS = SSm + SSG + SSε; infatti ha:
44656300 = 40955220 + 735110 + 2965970
il che significa che la variabilità contenuta nell’errore può essere scomposta in due parti, una
spiegata (appartenenza degli animali al gruppo di alimentazione) e una non spiegata (la deviazione
individuale rispetto alla media del gruppo).
Per quanto riguarda i gradi di libertà, la media generale prende una informazione, i gruppi 3
informazioni e per l’errore restano 16 gradi di libertà:
16 (4 gdl per gruppop) + 3 (n gruppi –1) + 1 (media generale) = 20 (numerosità del campione)
Calcoliamo ora le varianze (MS = mean square) che ci servono per effettuare il test statistico di
Fisher
MSG = SSG/3 = 735110/3 = 245037
MSE = SSε/16 = 2965970/16 = 185375
Infine, poiché la media è la parte invariante del modello, non porta alcuna informazione alla
variabilità. Possiamo allora sottrarre i quadrati della media a destra e a sinistra del modello e
avremo:
3701080 = 735110 + 2965970
Il primo termine è la devianza totale (SSt) già incontrata nella lezione n. 3 che può essere scomposta
in una devianza fra i gruppi (SSG) ed una devianza entro i gruppi (SSe). Siamo ora in grado di
ordinare i risultati nella “classica tabella di ANOVA”. Questa collocazione è molto importante in
quanto gli output dei software statistici sistemano i risultati generalmente in questo modo.
Tabella dei risultati dell’analisi della varianza (ANOVA) a un fattore di classificazione
75
Fonte
Devianza (SS)
gradi di libertà
Varianza (MS)
F
Tra gruppi (G)
735110
3
245037
1,32
Entro gruppi (e)
2965970
16
185375
Totale (t)
3701080
19
**
(**) questo dato non viene di solito esposto in quanto non utile ai fini dell’analisi.
Inseriamo il valore di F in MINITAB ed otteniamo il seguente output
Probability Density Function
F distribution with 3 DF in numerator and 16 DF in denominator
x
1,3200
P( X = x)
0,3048
Il che significa che la probabilità che le medie appartengano a popolazioni differenti (ovvero che i
diversi tipi di mangime abbiano causato una produzione differente) è del 30,5%. E’ una probabilità
troppo alta di fare una affermazione sbagliata per cui rigettiamo l’ipotesi alternativa (il mangime
provoca produzioni diverse) e accettiamo l’ipotesi zero (il mangime non crea differenze).
Normalmente i livelli di potenza del test (cioè la probabilità di commettere errore nell’accettare
l’ipotesi alternativa) sono del 5% e, in casi particolari, dell’1%. Se non disponessimo di un
software, potremo consultare le tavole dell’F sviluppate da Fisher (ne è stata distribuita una copia a
lezione).
Da queste tavole si ricava che per (16 gd.l. per la varianza minore Sse e 3 g.d.l. per la varianza
maggiore SSG) i valori per i prefissati limiti sono : F5% = 3,24 e F1% = 5,29. Poiché il valore da noi
trovato è inferiore a quelli soglia tabulati, respingiamo l’ipotesi alternativa. Se fosse stato superiore,
l’avremmo accettata.
76
ANALISI DELLA VARIANZA (esercitazione a lettura obbligatoria. A. Nudda)
Abbiamo visto in precedenza come confrontare le medie di due popolazioni estratte
da due campioni casuali indipendenti. In effetti, questo è spesso una semplificazione
di ciò che accade nelle situazioni pratiche. Per esempio se noi volessimo confrontare il
salario medio orario di braccianti agricoli appartenenti a tre zone diverse, dovremmo
estrarre tre campioni casuali dalle tre popolazioni e fare le medie. Sicuramente
avremmo risultati diversi (sono medie campionarie), ma questo non vuol assolutamente
dire che le medie delle tre popolazioni siano diverse. È evidente che i metodi visti fino
a questo punto non sono efficaci. A risolvere tale problema ci pensa l’analisi di
varianza.
L’analisi della varianza è più rapida ed ha un campo di applicazione molto più ampio del “test t”
Cerchiamo innanzi tutto di capire la logica interna dell’analisi di varianza. Riprendiamo
l’esempio dei salari e supponiamo di aver estratto tre campioni dalle tre popolazioni
ognuno di cinque unità campionarie:
Campioni estratti
1
2
3
5.90
5.51
5.01
5.92
5.50
5.00
5.91
5.50
4.99
5.89
5.49
4.98
5.88
5.50
5.02
x1 = 5.90
x2 = 5.50
x3 = 5.00
Questi dati presentano sufficiente evidenza per indicare se ci sono differenze fra le
tre medie campionarie? Osservando i dati ci accorgiamo che la variabilità entro di ogni
singolo campione è piccola, mentre è grande la variabilità tra le medie campionarie.
77
Poiché la variabilità tra le medie campionarie è grande in confronto alla variabilità
entro ogni singolo campione, potremmo intuitivamente concludere che le medie delle
corrispondenti popolazioni sono diverse.
Output di MINITAB che evidenzia gli intervalli di confidenza (Cis) al 95% delle medie basato su
una deviazione standard comune (pooled).
Individual 95% CIs For Mean
Level
1
2
3
N
5
5
5
Pooled StDev =
Mean
5,9000
5,5000
5,0000
StDev
0,0158
0,0071
0,0158
0,0135
Based on Pooled StDev
----+---------+---------+---------+-( * )
( * )
( * )
----+---------+---------+---------+-5,10
5,40
5,70
6,00
Consideriamo adesso la seguente tabella:
Campioni estratti
1
2
3
5.90
6.31
4.52
4.42
3.54
6.93
7.51
4.73
4.48
7.89
7.20
5.55
3.78
5.72
3.52
x1 = 5.90
x2 = 5.50
x3 = 5.00
Essa illustra una situazione in cui le medie campionarie sono le stesse della precedente
tabella, ma la variabilità all’interno di ogni singolo campione è più grande.
Diversamente alla situazione di prima, qui la variabilità tra i campioni è più piccola in
confronto alla variabilità all’interno dei campioni. È quindi più difficile arrivare a delle
conclusioni.
In questi casi occorre analizzare più a fondo la variabilità, occorre cioè fare una
analisi di varianza.
78
Individual 95% CIs For Mean
Level
1
2
3
N
5
5
5
Pooled StDev =
Mean
5,900
5,500
5,000
StDev
1,819
1,417
1,296
1,527
Based on Pooled StDev
-+---------+---------+---------+----(-----------*------------)
(------------*-----------)
(------------*-----------)
-+---------+---------+---------+----3,6
4,8
6,0
7,2
METODO: l’analisi della varianza consiste nella scomposizione della varianza totale in
un insieme di varianze parziali corrispondenti a sorgenti di variazione
differenti e ben determinate (varianza fra gruppi e varianza entro
gruppi).
Una volta individuate, queste varianze verranno confrontate tra di loro
con un test statistico denominato test F.
Vogliamo confrontare 2 serie di dati
Si parte sempre dall’ipotesi H0 cioè che le medie dei due gruppi non siano tra loro diverse.
Se l’ipotesi H0 viene contradetta dal test, si accetta l’ipotesi alternativa H1 e si conlcude che le 2
medie sono diverse
Poiché si parte sempre dall’ipotesi H0 cioè che le medie dei due gruppi non siano tra loro diverse (ovvero
rappresentino la stima di campioni estratti dalla stessa popolazione) consideriamo le due serie di dati
come costituenti un’unica serie di 6 misure e calcoliamo la VARIANZA TOTALE
A
B
2
4
3
5
4
6
9
15
24
=4
6
N =6
x=
xA = 3
xB = 5
Per calcolare la varianza totale occorre calcolare:
79
- la somma dei quadrati degli scarti dei dati individuali dalla media generale che indichiamo come
“SOMMA TOTALE DEI QUADRATI”
N
SSt = ∑ ( xi − xi ) 2
1
- i gradi di libertà (g.l. = N-1)
In pratica per calcolare la Varianza Totale:
24
=4
6
N =6
x=
1. calcolare la media generale del gruppone
2. Calcolare lo scarto di ciascun valore dalla media generale
A
B
2-4=-2
4-4=0
3-4=-1
5-4=+1
4-4=0
6-4=+2
3. poiché la somma degli scarti è = zero, si fa il quadrato degli scarti
A
B
(-2)2
(0) 2
(-1) 2
(+1) 2
(0) 2
(+2)2
4. Fare la Somma Totale dei Quadrati SST
SST = 4 + 1 + 0 + 0 + 1 + 4 = 10
Tale variabilità totale è, comunque, il risultato di due sorgenti di variazione. La prima
è dovuta alla differenza tra i gruppi A e B: si ha infatti x A = 3 ed x B = 5 . La seconda
è costituita dalle differenze fra le singole unità campionarie che compongono ogni
gruppo (all’interno di ogni gruppo abbiamo infatti valori diversi). La variabilità totale si
80
può allora scindere in due parti: variabilità fra gruppi (SSG) e variabilità entro gruppi
(SS).
VARIABILITA’ FRA GRUPPI
Per poter isolare la variabilità fra i gruppi occorrerà sopprimere la variabilità
all’interno di ogni gruppo. Questo si può fare sostituendo all’interno dei gruppi i valori
originali con le medie di ogni gruppo:
In questo modo le medie rimangono uguali, ma si annulla la variabilità all’interno di ogni
gruppo. Inoltre è facile vedere che la media totale rimane sempre 4:
x=
9 +15
=4
6
A
B
3
5
sostituire all’interno di ciascun gruppo i
3
5
valori originali con la media di ogni gruppo
3
5
somma
9
15
2.
A
B
3-4 = -1
5-4=+1
Calcolare lo scarto di ciascun valore dalla
3-4 = -1
5-4=+1
media generale = 4
3-4 = -1
5-4=+1
somma
-3
+3
3.
A
B
(-1)2
(+1) 2
(-1)2
(+1) 2
(-1)2
(+1) 2
1.
Poiché la somma degli scarti è = 0…
Calcolare il quadrato degli scarti
81
4. Somma dei quadrati TRA gruppi (SSe):
1+1+1+1+1+1=6
VARIABILITA’ ENTRO GRUPPI
Poiché SST = SSG + SSe
La variabilità all’interno dei gruppi (somma dei quadrati entro gruppi SSe)
è data semplicemente dalla differenza:
SSe= SST – SSG
10 - 6 = 4
SST = somma dei quadrati totale (o devianza totale)
SSG = somma dei quadrati entro gruppo (o devianza entro)
SSe = somma dei quadrati tra gruppi (o devianza tra)
VARIANZA = devianza/g.l.
82
Varianza TRA gruppi
VarianzaTRA =
SSG 6
= =6
k −1 1
g.l. = k -1 = 1
k = numero di gruppi
Varianza ENTRO gruppi
VarianzaEntro =
SSe
4
= =1
N −k 4
g.l. = N - k = 6 - 2 = 4
N = numero complessivo di dati
k = numero di gruppi
83
IL TEST STATISTICO O TEST F DI SIGNIFICATIVITÀ
Il test statistico F confronta la varianza tra i gruppi e la varianza antro gruppi:
F=
MSG 6
= =6
MSe 1
ed è caratterizzato da k – 1 gradi di libertà al numeratore e N – k gradi di libertà al
denominatore.
Per
α = 0.05 le tabelle danno F = 7.71. Il F calcolato non supera quello tabulato: si
rifiuta l’ipotesi alternativa per cui si accetta quella zero.
Riassumiamo il tutto in una tabella:
Ricordiamo che:
(H0): µ1 = µ2 (le 2 medie sono relative a campioni che provengono dalla stessa popolazione)
(H1): almeno due µ diverse, ovvero: µ1 diversa da µ2 (le due medie sono relative a campioni che
provengono da popolazioni diverse)
Se il valore di F calcolato è minore del valore di F tabulato accetto l’ipotesi nulla H1 (le due
medie non sono statisticamente differenti)
Se il valore di F calcolato è maggiore del valore di F tabulato rifiuto l’ipotesi nulla H0 e accetto
l’ipotesi alternativa (le due medie sono statisticamente differenti)
Nell’esempio considerato
k - 1 = numero di gruppi - 1 = 2 - 1 = 1 (g.l. al numeratore);
n - k = numero di soggetti - numero di gruppi = 6 - 2 = 4
(g.d.l. al denominatore).
84
Sulla tavola di probabilità di F, all'incrocio tra 1 g.d.l. al numeratore e 4 g.l. al
denominatore, troviamo:
F(1, 4) = 7,71 per α = 0.05,
F(1, 4) = 21.20 per α = 0.01.
Per α = 0.05 (L.C. 95%; 1 e 4 g.l.) le tabelle dell’F danno F = 7.71
Il F calcolato ( = 6) è minore di quello tabulato (=7.71) per cui si accetta l’ipotesi nulla (H0) e si rigetta
l’ipotesi alternativa Ha.
Ovvero le due medie non sono statisticamente differenti
Output da MINITAB
Analysis of Variance
Source
DF
SS
Factor
1
6,00
Error
4
4,00
Total
5
10,00
Level
A
B
N
3
3
Mean
3,000
5,000
MS
6,00
1,00
StDev
1,000
1,000
85
F
6,00
P
0,070
Uso delle tavole di F
Le tavole di F sono a doppia entrata:
margine orizzontale (superiore) riporta i g.l. del numeratore
margine verticale (laterale) riporta i g.l. del denominatore
Nell’esempio precedente:
g.l. per il numeratore = 1
g.l. per il denominatore = 4
per 1 e 4 g.l. e per un livello di α = 0.05
F tabulato = 7,71
per 1 e 4 g.l. e per un livello di α = 0.01
F tabulato = 21,20
86
Lezione n. 6
TEORIA DELLA REGRESSIONE
1. La regressione
La regressione studia le modalità di interpretazione di insiemi di dati legati fra di loro da vincoli di
causalità.
Ad esempio, è noto che l’ingestione alimentare in sostanza secca di un animale dipende (I espressa
in kg) dal suo peso corporeo (PC).
Il fenomeno quantitativo studiato (variabile dipendente) può essere collegato ad una sola causa
(variabile indipendente) espressa in termini lineari (regressione lineare semplice).
L’insieme delle osservazioni sull’ingestione (variabile dipendente) può essere convenientemente
espresso in funzione del peso corporeo (variabile indipendente) con una relazione del tipo:
[1]
I = a + bPC
in cui a e b sono i parametri dell’equazione
Lo stesso fenomeno può, però, essere interpretabile in termini esponenziali, linearizzabili o meno
(regressione non lineare)
L’insieme dei dati sull’ingestione rilevati su differenti specie è legato al peso corporeo elevato alla
potenza 0,75 per cui la relazione è:
[2]
I = a + bPC0,75
linearizzabile elevando tutti i valori osservati del PC alla 0,75.
Altri fenomeni possono convenientemente essere espressi in termini polinomiali (anche essi
linearizzabili o meno).
L’ingestione può essere determinata oltre che da una componente lineare del peso anche da una
quadratica, per cui l’equazione è del tipo:
87
[3]
I = a + bPC + cPC2
In tutti i casi la curva che interpreta questo insieme biunivoco di dati giace su un piano cartesiano.
Nel caso in cui invece il fenomeno quantitativo dipenda da più variabili indipendenti, esso può
essere epresso in termini di regressione multipla rappresentabile in uno spazio a tre dimensioni (nel
caso di sue sole variabili indipendenti) o in un iperspazio a n dimensioni (nel caso di n variabili
indipendenti).
Ad esempio, l’ingestione alimentare negli animali in lattazione dipende oltre che dal peso corporeo
anche dalla produzione di latte (L) e dal contenuto in proteina degli alimenti PG) ed è
rappresentabile con la relazione (nello spazio quadridimensionale):
[4]
I = a + b1PC + b2L + b3PG
Un caso di equazione linearizzabile è quella di Wood che descrive la curva di lattazione:
[5 ]
L(t) = atb e-ct
che può essere espressa in forma logaritmica come:
[6]
logL = loga + blogt - ct
Lo stesso fenomeno può anche essere descritto con una equazione non lineare secondo un modello
biesponenziale del tipo:
[7]
L = A-k1t + B-k2t
In questo modulo tratteremo in particolare della regressione lineare semplice e multipla. Studieremo
l’adattamento del modello ai dati sperimentali secondo il metodo dei minimi quadrati , valuteremo
la precisione della stima e la bontà del modello matematico impiegato.
88
Un pò di storia.
Si è discusso a lungo su chi abbia per primo scoperto il metodo dei minimi quadrati. Sembrerebbe
che questo sia stato messo a punto simultaneamente ed indipendentemente da Carl Fiedrich Gauss
(1777-1855) e da Andrè Marie Legendre (1752-1833), ma che Gauss lo abbia utilizzato per primo
nel 1803 anche se la prima pubblicazione di Legendre è del 1805. Quando nel 1809 Gauss scrisse
che egli utilizzava il metodo già dal 1795, nacque la controversia.
89
2 La regressione lineare semplice
Prendiamo in esame questo data set ricavato da una prova sperimentale su pecore Sarde in asciutta.
Peso (kg)
45,0
44,0
35,0
41,0
42,0
43,4
46,9
45,2
39,8
50,1
49,2
45,3
46,2
44,2
41,2
52,1
47,7
48,2
38,1
49,0
Ingestione (kg)
1,189
1,151
0,915
0,944
1,127
1,031
1,223
1,129
0,888
1,193
1,194
1,095
1,146
1,189
1,045
1,308
1,185
1,202
0,843
1,270
Il fenomeno può essere rappresentato in un piano cartesiano.
L’equazione in grado di interpretare l’andamento è una retta del tipo
[8]
Yi = β0 + βiXi + εi
90
Il miglior luogo dei punti capace di descrivere il fenomeno è quello che minimizza le distanze al
quadrato da ciascun punto sperimentale (lettura facoltativa)
n
[9]
S = ∑ εi2 =
i =1
n
∑
(Yi - β0 - β1 Xi)2
i =1
Occorre stimare i valori di b0 e di b1 che sostituiti ai beta producano il minor valore possibile di S.
Inizialmente differenziamo l’equazione [9] rispetto a ciascun β e poniamo il risultato uguale a zero
(troviamo cioè il minimo delle funzioni, nello stesso modo in cui si trova un minimo relativo di una
qualsiasi equazione, prima derivando e poi ponendo la derivata uguale a zero):
n
[10]
δS/δβ0 = -2 ∑ ( Yi - β0 - β1 Xi)
i =1
n
[11]
δS/δβ1 = -2 ∑ Xi( Yi - β0 - β1 Xi)
i =1
per cui le stime di b0 e di b1 sono date dalle
n
[12]
∑
( Yi - b0 - b1 Xi) = 0
i =1
n
[13]
∑
Xi( Yi - b0 - b1 Xi) = 0
i =1
che riarrangiate diventano
n
[14]
∑
i =1
n
Yi – nb0 - b1 ∑ Xi = 0
i =1
91
n
[15]
∑
n
n
i =1
i =1
XiYi – b0 ∑ Xi – b1 ∑ Xi2 = 0
i =1
oppure
n
∑
n
n
n
i =1
i =1
i =1
[15]
n
nb0 + b1 ∑ Xi =
[14]
b0 ∑ Xi + b1 ∑ Xi2 =
Yi
i =1
∑
XiYi
i =1
Queste ultime sono chiamate equazioni normali
(Lettura obbligata)
La soluzione delle equazioni normali per la pendenza (b1) della retta è data dalla relazione
[16]
b1 =
ΣXiYi − [(ΣXi )(ΣYi )] / n
ΣXi 2 − (ΣXi ) 2 / n
= SXY/SXX
ovvero, il valore della pendenza della retta è dato dal rapporto fra la
codevianza fra le variabili e la devianza della variabile indipendente
Ora è possibile calcolare il valore di b0 che è uguale a
[17]
b0 = Ym − b1 Xm
dove Ym è la media delle Y e Xm è la media delle X
In pratica, i valori della b0 e della b1 si calcolano nel seguente modo con Excell:
a) si moltiplicano ciascuna y per la rispettiva x;
b) si fa la somma dei prodotti;
c) si sottrae la il prodotto della somma delle x e delle y diviso n;
92
d) si divide la codevianza così ottenuta per la devianza delle x calcolata come sappiamo.
Un volta applicata la formula [16] calcoliamo il valore di b0 applicando l’equazione ai valori medi
della x e della y.
93
relazione fra ingestione e peso corporeo in pecore
y = 0,027x - 0,0934 Sarde
2
R = 0,7998
1,35
Ingestione in kg
1,3
1,25
1,2
1,15
1,1
1,05
1
40
42
44
46
48
50
52
54
Peso in kg
L’equazione y = 0,093 + 0,027 stima che l’ingestione alimentare nel campione di pecore
considerato aumenti di circa 27 grammi per ogni aumento di un kg di peso nelle pecore.
3. La valutazione delle regressione stimata
La valutazione della regressione stimata si attua con l’uso di 3 procedure:
1. il valore del coefficiente di determinazione R2;
2. il test F che deriva dall’analisi della varianza
3. il test t che si applica ai parametri;
L’analisi della varianza.
Ogni dato Yi ottenuto da una qualsiasi Xi può essere considerato composto da due frazioni: la prima
costituita dalla differenza fra il valore stimato dalla regressione Yis e quello medio delle Ym; la
seconda dalla differenza fra il valore reale Yi e quello stimato dalla regressione Yis
94
[18]
(Yi – Ym) =
(Yis – Ym) + (Yi – Yis)
da cui discende la somma dei quadrati
[19]
Σ(Yi – Ym)2 = Σ(Yis – Ym)2 + Σ(Yi – Yis)2
che significa: somma dei quadrati delle deviazioni dalla media = somma dei quadrati dovuta alla
regressione + somma dei quadrati delle deviazioni dalla regressione (o errore)
L’entità della variabilità spiegata dalla regressione
Si utilizza il coefficiente R2 = (SS dovuta alla regressione)/(SS deviazioni dalla media)
[20]
Σ(Yis – Ym)2/Σ(Yi- Ym)2
che può variare fra 0 e 1.
95
R2 misura la “proporzione della variazione totale intorno alla media che è spiegata dalla
regressione”
La radice quadrata R è, in questo caso, il coefficiente di correlazione (r) variabile fra –1 e +1.
Analisi della varianza
Ad ogni somma di quadrati in statistica è associata una misura dei gradi libertà; ciò che si ottiene è
una stima della varianza.
[21]
SS/df = E(V)
La tavola dell’ANOVA della regressione può essere costruita come segue
Fonte
Regressione
gradi di libertà df
1
somma quadrati SS
Varianza MS
Σ (Yis _- Ym)2
MS regr
Residua
n-2
Σ (Yi – Yis)2
Totale
n-1
Σ (Yi – Ym)2
s2
Il coefficiente F di Fisher misura l’entità della varianza spiegata su quella residua = MSregr/s2 e va
confrontato sulle apposite tabelle.
96
Nel nostro caso l’output di MINITAB è il seguente:
Regression Analysis
The regression equation is
Ingestione (kg) (Y) = - 0,093 + 0,0270 Peso (kg) (X)
Predictor
Constant
Peso (kg
Coef
-0,0934
0,027009
S = 0,05951
StDev
0,1429
0,003185
R-Sq = 80,0%
T
-0,65
8,48
P
0,522
0,000
R-Sq(adj) = 78,9%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
18
19
SS
0,25459
0,06374
0,31834
MS
0,25459
0,00354
F
71,89
P
0,000
I risultati mostrano che l’equazione da noi calcolata con excell è giusta. Poiché i valori dei
parametri b0 (indicato con constant) e b1 (indicato con peso kg) sono campionari, cioè sono una
stima dei parametri veri della popolazione della popolazione, essi avranno una variabilità. La
variabilità dei parametri campionari della regressione va letta analogamente alla variabilità della
media campionaria delle statistiche univariate. Se infatti calcolassimo tutte le possibili regressioni
campionarie di campioni estratti dalla popolazione avremo che l’insieme dei valori di b0 e b1
coswtituiscono una variabile distribuita normalmente con la media che coincide con il valore vero
dei parametri della regressione calcolata sull’intera popolazione. Come sarà meglio illustrato
teoricamente in seguito, la deviazione standard dei parametri si impiega per calcolare l’intervallo di
confidenza degli stessi con il test t. Se in tale intervallo è compreso lo zero, affermiamo che il
parametro stimato non differisce significativamente da zero, altrimenti possiamo affermare che il
parametro esiste nella popolazione e che il valore calcolato ne è una stima. Nel nostro caso
possiamo vedere che il parametro b0 ha un P=0,522 per cui non è significativamente diverso da
zero, mentre quello b1 ha un P=0,000 per cui è diverso da zero. L’analisi statistica ci dice ciò che
97
biologicamente ha un senso. A peso corporeo zero non c’è ingestione, mentre al crescere del peso
l’ingestione aumenta,.come abbiamo visto, di 27 grammi si sostanza secca per ogni kg in più.
Questa equazione pertanto può risultare molto utile per prevedere l’ingestione di pecore Sarde una
volta conosciuto il peso degli animali.
Il valore di R2 è dell’80%: tale dato ci informa che l’80% di tutta la variabilità dell’ingestione può
essere spiegato dal peso corporeo delle pecore. Detto in altro modo, la conoscenza del peso
corporeo delle pecore riduce la variabilità dell’ingestione al solo 20% che rappresenta la variabilità
residua non spiegata dal modello.
L’ANOVE infine ci informa che la varianza spiegata dalla regressione non molto maggiore di
quella residua (il P dell’F di Fisher è inferiore al 5%), per cui la regressione esiste e il modo con cui
i dati si sono disposti nel piano cartesiano non è casuale, ma è dovuto ad una ragione: gli animali
più pesanti tendono a mangiare di più.
4. Regressione e correlazione
Il coefficiente di correlazione misura l’entità della variazione comune fra due variabili (covarianza)
sulla variabilità complessiva (prodotto delle deviazioni standard); sarebbe:
[21]
r YX= cov(YX)/(dsY * dsX)
Esso stima la forza con cui due variabili sono legate fra di loro linearmente e varia da –1 a + 1. Se il
valore di r >0 la correlazione è positiva /le due variabili crescono nello stesso senso); se r<0 la
correlazione è negativa (al crescere di una variabile, l’altra diminuisce).
Prendiamo in esame questi dati riferiti alla produzione di latte di pecore Sarde che ingerivano
razioni a diverso contenuto in proteina grezza (PG) e in fibra (NDF) sulla sostanza secca della
razione.
PG in % ss NDF in % ss latte in kg
13,63
42,92
1,11
13,79
42,92
1,21
15,07
43,11
1,32
16,45
40,06
1,34
98
PG in % ss NDF in % ss latte in kg
15,25
45,04
1,39
18,50
60,72
0,51
18,01
48,60
0,73
21,14
60,72
0,73
20,65
51,42
0,78
19,98
45,21
0,76
13,11
35,00
0,70
13,30
34,22
0,59
13,20
34,62
0,92
12,86
35,77
0,47
12,74
38,50
0,48
13,47
34,50
0,92
12,54
37,64
0,48
16,57
36,50
1,16
12,22
62,74
0,17
12,05
58,24
0,17
11,88
53,54
0,27
13,44
57,00
0,49
15,10
49,60
0,73
16,53
43,33
0,77
10,50
51,53
0,55
11,47
48,45
0,58
12,59
31,13
0,47
15,00
46,02
1,12
20,17
42,95
1,15
20,41
43,10
1,04
13,93
37,88
0,94
14,63
34,80
0,86
14,70
34,48
0,87
15,45
31,15
1,01
11,45
43,86
1,30
13,40
36,92
1,42
14,32
40,92
0,48
14,17
43,21
0,64
17,48
40,52
0,85
16,91
42,27
0,84
13,95
18,05
0,89
16,10
61,00
0,70
15,00
61,00
0,76
12,30
61,00
0,89
16,10
61,00
0,97
16,10
61,00
1,14
16,10
61,00
1,06
16,10
61,00
1,25
15,00
61,00
1,21
15,00
61,00
1,24
20,42
43,08
0,89
17,51
38,00
0,98
17,49
38,00
1,57
17,50
38,00
1,59
9,78
44,06
0,87
11,80
60,34
0,84
21,35
33,10
1,07
21,24
34,20
1,11
15,24
46,78
0,44
99
PG in % ss NDF in % ss latte in kg
15,66
45,57
0,45
16,30
44,22
0,47
16,46
39,68
0,43
18,16
44,66
0,81
18,62
47,11
0,76
17,22
39,90
0,79
16,70
34,70
1,67
6,26
55,20
0,45
8,71
49,70
0,49
6,52
64,20
0,55
7,94
54,20
0,72
18,06
35,53
1,24
18,06
35,53
1,09
15,97
38,17
2,03
13,56
37,03
1,03
12,91
39,99
0,69
10,50
50,93
0,55
11,47
51,07
0,58
15,96
42,03
1,10
16,47
52,00
1,10
16,60
46,71
0,63
16,35
54,61
0,76
15,02
27,50
2,45
15,04
28,70
2,42
15,08
28,80
2,67
13,49
29,80
1,97
13,51
30,60
2,01
13,48
30,80
2,03
18,67
25,28
3,19
16,94
25,42
3,53
20,95
37,68
1,10
Vogliamo vedere come le tre variabili sono legate fra loro e calcoliamo i valori di r con MINITAB
Correlations (Pearson)
PG in % NDF in %
NDF in % -0,183
0,083
latte in
0,244
0,021
-0,505
0,000
100
L’output del computer ci mostra che la PG è correlata negativamente con l’NDF e positivamente
con il latte; mentre latte e NDF sono correlati negativamente. In sintesi, all’aumentare della PG
diminuisce la fibra ed aumenta il latte, mentre all’aumentare della fibra il latte si riduce.
Anche in questo caso dobbiamo stare attenti che il valore del coefficiente di regressione lineare è
campionario ed è una stima del vero valore ρ sconosciuto della popolazione. Il numero che sta sotto
il coefficiente di regressione campionario è la probabilità (P) che il valore stimato sia diverso da
zero. Nel nostro caso il valore della correlazione fra proteine e fibra ha un P superiore al 5%, per cui
respingiamo l’ipotesi alternativa che esso sia, nella popolazione, diverso da zero e concludiamo che
non esiste correlazione fra le due variabili. Nel secondo (Latte e PG) e terzo (latte e NDF) invece il
valore è inferiore al 5% per cui concludiamo che una correlazione esiste anche nella popolazione e
che il valore da noi trovato ne è una stima.
Quando un valore del coefficiente è da considerarsi elevato? In genere non esiste un sistema se non
arbitrario. Normalmente si dice che la correlazione è:
a) molto bassa se r < 0,20 in valore assoluto;
b) bassa se 0,20<r<0,40;
c) media se 0,40<r<0,60;
d) alta se 0,60<r<0,80;
e) molto alta se r>0,80.
Un errore, purtroppo molto comune, da evitare è affermare che una correlazione è statisticamente
significativa (intendendosi che è buona e alta) anche con valori molto bassi del coefficiente se esso
è significativamente diverso da zero. Ripeto: il valore di P ci informa soltanto se la correlazione
esiste, ma non significa che essa sia alta.
E’ possibile vedere che i coefficienti di correlazione e di regressione sono fera loro apparentati.
Infatti, ricordando che il coefficiente b1 = cov(YX)/V(X), si ottiene
[22]
b1 = (dsY/dsX)*rYX
101
Test dei parametri
Per valutare se i parametri sono significativamente diversi da zero, si applica un particolare test t.
•
caso del parametro b1
[23]
t = b1/ ds(b1)
dove ds(b1) = radice quadrata[varianza residua/somma delle deviazioni quadrate delle X] = s/[Σ(Xi
–Xm)2]1/2
•
caso del parametro b0 la formula è un pò più complicata:
[24]
t =b0/ [ΣXi2/nΣ(Xi – Xm)2]1/2 * s
Analizziamo un momento queste due formule.
Al denominatore della [23] compare la ds-residua (cioè la radice quadrata della varianza residua)
delle y divisa per la radice quadrata della devianza delle x. Ora, a parità di valore di s, minore è la
devianza delle x, maggiore è la varianza del parametro b1.
In pratica significa che l’addensamento dei valori delle x intorno alla media è un fattore inflativo
della varianza del parametro.
102
Il ragionamento per la [24] è analogo, in quanto la devianza è sempre al denominatore del
denominatore.
La deviazione standard dell’Y.
E’ un parametro che consente di calcolare l’intervallo di confidenza dell’intera regressione.
[25]
s.d. (y) = s[1/n + (x0 – xm)2/Σ(xi – xm)2]1/2
dove x0 è un valore qualsiasi ed s è la deviazione standard residua.
Il valore è minimo quando x0 = xm e rappresenta di fatto l’errore standard della media della y e
cresce con l’allontanarsi di x0 dalla propria media.
Ciò significa che più ci si allontana dalla media maggiore è l’errore che ci aspettiamo nel predire i
valori delle y.
103
5. Richiami di algebra matriciale e il suo impiego nella regressione (facoltativo)
Una matrice è un insieme ordinato di numeri. Consideriamo queste osservazioni sperimentali
riferite ad un campione di pecore da latte di razza Sarda.
Ingestione
Peso
ProdLatte
2,838
45,0
2,514
44,0
2,146
35,0
2,205
41,0
2,847
42,0
3,086
43,4
2,504
46,9
2,726
45,2
2,252
39,8
3,176
50,1
2,974
49,2
2,743
45,3
2,951
46,2
2,347
44,2
2,300
41,2
3,187
52,1
3,148
47,7
2,792
48,2
2,243
38,1
2,409
49,0
1,7
1,4
1,2
1
2
2,1
1,2
1,5
1,2
2,2
1,9
1,5
2
1,2
1,24
2,05
2,11
1,75
1,1
0,9
Possiamo scrivere questo insieme di numeri sotto forma di matrice
104
M=
2,838
2,514
2,146
2,205
2,847
3,086
2,504
2,726
2,252
3,176
2,974
2,743
2,951
2,347
2,300
3,187
3,148
2,792
2,243
2,409
45,0
44,0
35,0
41,0
42,0
43,4
46,9
45,2
39,8
50,1
49,2
45,3
46,2
44,2
41,2
52,1
47,7
48,2
38,1
49,0
1,7
1,4
1,2
1
2
2,1
1,2
1,5
1,2
2,2
1,9
1,5
2
1,2
1,24
2,05
2,11
1,75
1,1
0,9
Le osservazioni sono gli elementi della matrice, le righe e le colonne sono l’ordine della matrice. M
è di ordine 20x3.
Consideriamo le prime 3 righe, per cui M(3x3) diventa
2,838
2,514
2,146
45,0
44,0
35,0
1,7
1,4
1,2
e sviluppiamo gli esempi su questo sub-set di dati.
Un vettore è una matrice costituita da una sola riga o da una sola colonna
x=
45,0
x’ = 45,0 44,0 35,0
105
44,0
35,0
x’ è la trasposta della matrice x. La trasposta di M è
M’ =
2,838
2,514
2,146
45,0
44,0
35,0
1,7
1,4
1,2
una matrice cioè in cui gli elementi di una riga diventano elementi di una colonna
Uno scalare è un singolo numero, come 4, 12 oppure 0,12.
Addizione
Questa operazione è possibile con matrici dello stesso ordine e si effettua sommando
(algebricamente) gli elementi omologhi (stessa riga e stessa colonna)
A= 1 2
B= 4 5
3 4
6 7
C=A+B=5 7
9 11
Moltiplicazione
Un matrice moltiplicata per uno scalare è una matrice con ciascun elemento moltiplicato per lo
scalare
106
3 x A = 3x1 3x2
=
3x3 3x4
3
6
9
12
La moltiplicazione fra due matrici è possibile se le colonne della prima sono uguali alle righe della
seconda ed ha ordine uguale alle righe della prima ed alle colonne della seconda
Z(10x3) x W(3x5) = U(10x5)
Ciascun elemento della matrice prodotto è ottenuto dalla somma dei prodotti degli elementi delle
righe della prima matrice e delle colonne omologhe della seconda matrice
AxB= 1
2
3
4
x
4 5 = 1(4)+2(6) 1(5)+2(7) = 16 19
6 7
3(4)+4(6) 3(5)+4(7)
36
43
La trasposta del prodotto di due matrici è la trasposta del prodotto delle due matrici in ordine
inverso
(AxB)’ = B’ x A’
Determianti
Il determinante di una matrice è uno scalare ed esiste solo per le matrici quadrate (stesso numero di
righe e di colonne)
107
La conoscenza del determinante è importante per l’ottenimento della matrice inversa. Se il
determinate è nullo (= 0), la matrice non è invertibile.
Inversa
L’inversa di una matrice (M-1) è l’analogo del reciproco in algebra scalare ed è indispensabile per le
operazioni di divisione.
s = 4; reciproco di s-1 = ¼, per cui s x s-1 = 1
M x M-1 = I
in cui I è la matrice identità, una matrice con gli elementi della diagonale principale uguali a 1 e
tutti gli altri zero
I (3x3) =
1
0
0
0
1
0
0
0
1
Il calcolo dell’inversa (se esiste) è laborioso per matrici di ordine superiore al terzo, ma può essere
agevolmente ottenuto da una routine di computer
Il determinante è nullo se una riga o una colonna sono la combinazione lineare di altre righe o
colonne. Il rango della matrice è il numero di linee e di colonne linearmente indipendenti. La
matrice è detta di pieno rango se tutte le righe e le colonne sono linearmente indipendenti.
108
Se non esiste una inversa per una matrice di rango pieno (il determinante è nullo), possono essere
trovate inverse di tango inferiore che sono dette inverse generalizzate; se A- è l’inversa
generalizzata di A, è soddisfatta la relazione
A A- A = A
Anche in questo caso è opportuno ricorrere all’uso di un software per l’identificazione della ginversa.
In statistica una matrice speciale è
A = X’X
che è sempre simmetrica, cioè gli elementi sopra e sotto la diagonale sono simmetricamente uguali.
Nel caso dei nostri dati sperimentali si ha:
143,0
2390,8
85,6
2390,8
40275,1
1414,1
85,6
1414,1
52,2
L’uso dell’algebra matriciale nella regressione lineare
Definiamo Y il vettore delle osservazioni, X la matrice delle variabili indipendenti, β il vettore dei
parametri da stimare, ε il vettore degli errori, 1 vettore colonna di 1.
109
Nel nostro caso avremo
Y=
1,189
1
45,0
1,151
1
44,0
0,915
1
35,0
X=
......
.....
......
.....
1,270
1
β=
β0
ε = ε1
β1
ε2
ε3
ε20
49,0
L’equazione può essere scritta in forma matriciale nel modo seguente
[26]
Y = Xβ + ε
che significa che
[27]
1,189 = β0 + 45,0β1 + ε1
1,151 = β0 + 44,0β1 + ε2
0,915 = β0 + 35,0β1 + ε3
..........................................
1,270 = β0 + 49,0β1 + ε20
110
Dobbiamo trovare i valori incogniti β0 e β1 con la relazione dei minimi quadrati che si ottiene
ponendo la matrice ε’ε= min in questo modo:
1) si presuppone che E(ε)=0 e che V(ε)=Iσ2 (il che significa che gli errori sono indipendenti cioè
non correlati)
2) E(Y) = Xβ, per cui ε’ε= (Y - Xβ)’(Y - Xβ)
3) minimizzare la matrice somma degli scarti significa differenziare separatamente ε’ε rispetto ad
ogni elemento di β messo in ordine e scrivere le derivate riarrangiate in forma di matrice;
4) il risultato ottenuto è l’equazione normale dei minimi quadrati:
[28]
X’Xb = X’Y
Se X’X è non singolare (cioè se nessuna equazione normale dipende da qualche altra), può essere
invertita e la soluzione si trova dividendo per X’X i due membri dell’equazione [28]
111
(X’X)-1(X’X)b = (X’X)-1X’Y
per ottenere una importantissima relazione: ogni regressione lineare normale può essere scritta in
questa forma
[29]
b = (X’X)-1X’Y
dove b è il vettore colonna delle soluzioni (2,1, nel caso di regressione lineare semplice, k,1 negli
altri casi, in cui k è il numero di regressori).
Il vettore soluzione b gode delle seguenti proprietà:
1) è una stima di β che minimizza il quadrato della somma degli errori indifferentemente alla loro
distribuzione;
2) gli elementi di b sono funzioni lineari delle osservazioni (y) e forniscono un stima non distorta
degli elementi di β con la varianza minima
3) se gli errori sono indipendenti, b è la stima di massima verosimiglianza di β.
112
La potenza della relazione [29] risiede nella possibilità di applicazione alla regressione lineare
multipla.
Consideriamo il data set relativo all’ingestione alimentare in funzione del peso e della produzione
del latte. Le variabili indipendenti sono due, per cui i coefficienti di regressione da calcolare sono 3
(b0 , b1 e b2), per cui la relazione [27] diventa
2,838 = β0 + 45,0β1 + 1,7β2 + ε1
[30]
2,514 = β0 + 44,0β1 + 1,4β2 + ε2
2,146 = β0 + 35,0β1 + 1,2β2 + ε3
.......................................................
2,409 = β0 + 49,0β1 + 0,9β2 + ε30
La soluzione è ottenibile con la relazione [29] tenuto conto che la matrice X ha la forma
X=
1
2,838 45,0
1,7
1
2,514 44,0
1,4
1
2,146 35,0
1,2
........................................
1
2,409 49,0
0,9
113
Il vettore degli Y è ottenibile tramite la relazione
[31]
Y = Xb
per cui il vettore degli errori è ricavato dalla ε = Y - Y
Analisi della varianza della regressione
Analogamente a quanto ottenuto con il calcolo scalare è possibile effettuare l’ANOVA con le
matrici con il prospetto seguente (k = numero di regressori)
Fonte
gradi di libertà df
somma quadrati SS
Varianza MS
MS regr
Regressione
k-1
b’X’Y – nY2
Residua
n-k
Y’Y – b’X’Y
Totale
n-1
Y’Y – nY2
114
s2
Il coefficiente di determinazione (che rappresenta il quadrato della correlazione fra Y e Y) è
calcolabile con la seguente relazione
[32]
R2 = (b’X’Y – nY2)/(Y’Y – nY2)
Impiego della regressione lineare multipla per funzioni linearizzabili
Le equazioni linearizzabili sono quelle trasformabili in equazioni lineari multiple.
Ad esempio, il polinomio di secondo grado y = a + bx + cx2 è calcolabile con la tecnica della
regressione multipla ponendo x2= z per cui la funzione diventa y = a + bx + cz.
Una funzione “interessante” che può essere linearizzata è quella proposta da Wood per la
descrizione della la curva di lattazione
[33]
y = axbexp(-cx)
in cui y è la produzione di latte al tempo x e a,b,c sono i parametri dell’equazione.
Se si passa ai logaritmi, la [33] può essere scritta nel modo seguente
[34]
log y = log a + b log x - cx.
115
Ponendo log y = Y, log a = A, log x = z, l’equazione [34] diventa la funzione lineare multipla
[35]
Y = A + bz + cx
che consente la stima diretta dei parametri b e c e quella di a = eA
La migliore regressione
Il ricercatore è mosso da due esigenze:
1) avere la migliore equazione per gli scopi esplicativi e predittivi con tutte le variabili
significative incluse nel modello;
2) avere un modello con il minor numero possibile di variabili (economicità dei rilievi).
I problemi che dobbiamo affrontare sono:
1) l’interpretazione delle statistiche (R2, valori di b, valori dell’F di Fisher);
2) la selezione della migliore equazione fra quelle disponibili e la correttezza del modello
utilizzato;
3) la correlazione fra le variabili indipendenti (multicollinearità).
a) L’interpretazione delle statistiche (ovvero le TRAPPOLE della correlazione)
116
La bontà di una regressione è spesso stimata dal valore del coefficiente di determinazione R2 .
Il reale significato di questa statistica è quello di misurare l’utilità dei termini presenti
nell’equazione al di là del termine b0.
L’incremento del valore di R2 è ottenibile semplicemente inserendo nuovi termini al modello
(questo è particolarmente pericoloso con osservazioni ripetute!!)
I singoli valori dei coefficienti del vettore b possono essere valutati con l’impiego del test t (H0 = bj
= 0).
Si costruisce la matrice di varianze e covarianze di b
V(b) = (X’X)-1σ2
in cui il valore della varianza può essere sostituito dalla sua stima s2 (se non c’è lack of fit)
La diagonale della matrice risultante contiene i valori delle varianze dei parametri che elevate a ½
(cioè ridotte alla deviazione standard) possono essere utilizzate nel test
t = bj/ds(bj)
Un altro aspetto legato ai singoli regressori riguarda l’assorbimento dei quadrati (extra sum of
squares).
Ciascuna somma di quadrati è fornita in funzione dell’ordine in cui sono elencate le variabili x e la
somma è uguale alla MSregr.
117
Il significato è quello di verificare l’apporto della nuova variabile introdotta alla riduzione dei
residui quadrati.
Il test parziale F misura la significatività dell’introduzione della nuova variabile nella regressione
b) La selezione della migliore regressione
Esistono molti criteri per selezionare la migliore regressione.
a) l’uso della statistica R2 con l’inserimento delle variabili e la verifica dell’aumento del suo valore
(attenzione alla trappola n. 1)
b) l’uso della statistica Cp di Mallows data dalla relazione
Cp = RSSp/s2-(n-2p)
in cui RSSp è la somma dei quadrati residui del modello con p parametri (incluso il b0) e s2 è la
somma dei quadrati residua del modello con il maggior numero di parametri.
Il valore di Cp tende al valore di p, per cui la migliore regressione (eccetto quella completa in cui
ovviamente Cp=p) è quella in cui tale circostanza è verificata.
Una procedura che unisce i due criteri suesposti è la “Best Subset Regression” che sceglie, fra
quelle possibili, le equazioni con il massimo R2 e il Cp più vicino al valore di p.
c) una procedura molto popolare è la regressione della “Stepwise” che consiste nell’inserimento
delle variabili “a turno” finchè non si ottiene una equazione soddisfacente.
118
L’ordine di inserimento delle variabili è determinato dai coefficienti di correlazione parziale che
misurano l’importanza delle variabili che non sono ancora state inserite nella regressione.
Un aspetto particolare riguarda la distorsione del modello utilizzato. La validità del modello può
essere testata con il lack of fit (LOF-test) applicabile soltanto se nel data-set sono presenti dati
ripetuti per alcuni valori di y.
d) La multicollienarità
La correlazione fra le variabili indipendenti comporta:
a) un valore dei singoli coefficienti differente se inseriti singolarmente o simultaneamente nella
regressione;
b) l’attribuzione del significato biologico piuttosto complessa (a volte regressori palesemente
positivi possono assumere valori negativi nei parametri)
c) lo scarso peso informativo delle variabili aggiunte alla regressione;
d) l’inflazione della varianza dei parametri che rende altamente instabile la regressione (ne mina
alla base il suo potere predittivo); come conseguenza non esiste una somma di quadrati che
possa essere attribuita univocamente ad un regressore.
119
Una procedura idonea per correggere la multicollinearità è la RIDGE-REGRESSION che consiste
nell’introdurre in fattore deflattivo della varianza in modo da trovare una equazione subottimale ma
che sia più robusta.
120