Farmacia Applicata
Parte Matematica--Statistica
Antonio Siconolfi
Note compilate da
Flavia Mascioli
Organizzazione del corso
• Il corso consta di due parti distinte, una di
contenuto statistico-matematico e l’altra
informatico.
• La parte informatica sara’ tenuta dal prof.
Adolfo Piperno.
• Le lezioni della parte statistica saranno
lunedi’ e quelle informatiche giovedi’.
Obiettivi della parte statistica
• Far capire l’importanza della statistica nel
trattamento dei dati medico- biologici
• Far capire la logica del ragionamento statistico
• Introdurre i principali elementi di:
disegno del metodo di raccolta dei dati
analisi esplorativa dei dati
• Familiarizzare lo studente con il particolare
vocabolario della statistica
Materiale didattico
1) Diapositive delle lezioni.
2) Testo consigliato:
Moore D. S. (2005), Statistica di base,
Apogeo, Milano
Cos’è la statistica?
La statistica: è intesa ad esplorare il
mondo reale attraverso la raccolta,
l’analisi e l’interpretazione di dati.
I dati sono numeri inseriti in un
contesto, che descrivono la variabilità
presente in natura .
Cos’è la statistica?
La statistica: è una disciplina che
consente l’analisi dei dati numerici in
cui è presente una grande variabilità.
La vicinanza di reti ad alta tensione
provoca la leucemia nei bambini ?
Approccio aneddotico o statistico ?
La statistica e la matematica
• I principi base della scienza statistica
sono semplici e distinti rispetto ai
concetti matematici.
• Nonostante il nome, questo non è un
corso di matematica.
• Per questo corso le conoscenze
matematiche richieste sono a un
livello di scuola secondaria.
Perché la statistica in scienze
farmaceutiche?
• A causa della grande variabilità
• intrinseca al materiale medico-biologico:
variabilità genetica tra gli individui,
variabilità dovuta alla crescita e allo
sviluppo degli individui,
variabilità delle reazioni di uno stesso
individuo in momenti diversi, o delle
misurazioni eseguite sullo stesso
individuo in tempi diversi.
La variabilità
• Il concetto di variabilità è
fondamentale nella sperimentazione
scientifica.
• La statistica aiuta nello studio
quantitativo della variabilità,
permettendo di capire, gestire e
ridurre la variabilità.
La variabilità
Si studia la variabilità del fenomeno
effettuando delle misure
Si può ipotizzare la legge del fenomeno, cioe’
il rapporto matematico tra dati di cui si cerca un
collegamento, ad es. Altezza di un individuo e
lunghezza della spina dorsale.
Inferenza Statistica basata sulla Probabilita’.
La necessità dei metodi statistici
• L’esempio che segue illustra la necessità dei
metodi statistici per l’analisi di dati
quantitativi.
• Nella tabella appaiono i risultati di un
esperimento per studiare gli effetti
dell’irrigazione sulla crescita di piante di
cavolo piantate a quattro diverse distanze .
I valori che appaiono sono i pesi dei cavoli in
kg.
Peso (kg) del raccolto di cavoli in 24
appezzamenti di terreno
irrigazione distanza
Campo A
Campo B
Campo C
frequente
1 (45cm) 1.11
1.03
0.94
frequente
2 (40cm) 1.00
0.82
1.00
frequente
3 (35cm) 0.89
0.80
0.95
frequente
4 (25cm) 0.87
0.65
0.85
rara
1 (45cm) 0.97
0.86
0.92
rara
2 (40cm) 0.80
0.91
0.68
rara
3 (35cm) 0.57
0.72
0.77
rara
4 (25cm) 0.60
0.69
0.51
• Sono state provate tutte le 8 combinazioni di
irrigazione e distanza fra piante, perché l’effetto
dell’irrigazione può essere diverso per differenti
distanze. Inoltre le 8 combinazioni sono state
provate su 3 campi diversi. In questo modo si
avranno informazioni sulla variabilità del
materiale sperimentale, e si otterranno stime
più precise sugli effetti dovuti ai trattamenti.
• Alcuni effetti importanti possono essere
determinati osservando la tabella: l’irrigazione
frequente produce cavoli più grandi e una
distanza minore ne riduce la dimensione.
• Tuttavia, rimangono diverse domande a cui
si vorrebbe rispondere e che necessitano di
un’analisi statistica più elaborata.
• Di quanto aumenta il peso con irrigazioni
frequenti e con distanze maggiori?
• C’è un relazione tra peso e distanza?
• E’ possibile prevedere il peso per una
distanza diversa da quelle considerate
nell’esperimento?
• A parità di irrigazione e distanza c’è
differenza tra i raccolti dei 3 campi?
Passi principali del disegno di una
ricerca biologica
Identificare gli scopi della ricerca.
Pianificare la ricerca al fine di studiare il
problema per il quale si cerca una risposta.
Come ottenere i dati di cui si ha bisogno?
Quale metodo statistico usare per
analizzarli?
Come interpretare i risultati?
Come presentare i risultati?
• Nelle prime lezioni cercheremo di dare qualche
idea su:
• che cosa è la statistica
raccolta e interpretazione dei dati per
rispondere a domande sul mondo che ci
circonda
• i principali tipi di studio usati per rispondere a
tali domande
indagini campionarie, esperimenti, studi di
osservazione
• alcune considerazioni pratiche da ricordare
quando si effettuano tali studi
• il ruolo della randomizzazione in tali studi
Il ciclo di una ricerca statistica
Problemi reali
Questione d’interesse
Si pone la domanda
Risposta alla
domanda originale
Interpretazione dei
risultati
Qual è il loro significato?
Disegno del metodo di
raccolta dei dati
Raccolta dei dati
Riassunto e analisi
dei dati
Quale metodo di raccolta dei dati?
Indagini
campionarie
Sondaggi
Esperimenti
Studi di
osservazione
Studi sul campo
Indagini campionarie, Sondaggi
• In un’indagine campionaria, o in un
sondaggio si studiano i dati di un campione
dalla popolazione per ottenere informazioni
sull’intera popolazione.
• La popolazione è l’intero gruppo di unità sul
quale vogliamo ottenere informazioni.
• Un campione è il sottoinsieme della
popolazione che viene esaminato per
ottenere le informazioni che interessano.
Perché un campione?
• Meno costoso
• Più rapido
• Più pratico da gestire
• Il nostro scopo è di ottenere un campione
che rifletta la variabilità presente nell’intera
popolazione.
• Chiameremo un tale campione
“rappresentativo”.
Disegno campionario
• Il disegno campionario o piano di
campionamento è il metodo usato per
selezionare il campione.
• Occorre che il campione venga scelto in
modo casuale in modo da non favorire
l’inserimento di alcuni elementi rispetto ad
altri, o l’autoselezione tra chi deve
rispondere.
N. B. Scegliere in modo “casuale” non vuol dire “a
casaccio”
La randomizzazione nelle indagini
campionarie
• Scegliendo un campione in modo casuale
(random) viene data, a tutti gli elementi, la
stessa probabilità di essere scelti.
• Nel campionamento casuale semplice
(CCS) si estrae un campione in cui ogni unità
della popolazione ha la stessa probabilità di
essere selezionata. Inoltre, campioni della
stessa dimensione hanno tutti la stessa
probabilità di essere selezionati.
Come si sceglie un campione
casuale semplice?
a) etichettare le unità
b) usare il computer
c) oppure, usare le tavole di numeri
casuali
Il campionamento
• Ci sono altri disegni campionari che
costruiscono campioni probabilistici
come il CCS.
• Attenzione agli errori di copertura, alle
mancate risposte, alle distorsioni
nelle risposte.
• Si noti che più è grande il campione,
più è efficace la randomizzazione nel
produrre un campione
rappresentativo.
• Distorsione
Un disegno campionario è distorto se favorisce, in
modo sistematico, alcuni individui rispetto ad altri.
• Ad esempio, se si vuole misurare la biomassa media
dei topi campagnoli, in una certa zona, si attirano i
topi in trappole tramite esche. Ma, è probabile la
cattura di animali affamati e sottopeso.
• Errore di copertura
• Esempio. Si vuole stimare il numero medio di uova
nei nidi di una specie di uccello in una grande
foresta. Se si esaminano, a caso, solo i nidi di una
piccola area della foresta, si ha un errore di
copertura.
Distorsione e variabilità
• E’ possibile ridurre la distorsione?
Tutti gli elementi della popolazione devono
avere la stessa probabilità di essere scelti.
Disegno campionario probabilistico.
• E’ possibile ridurre la variabilità?
Aumentare la dimensione del campione.
Gli esperimenti
• In un esperimento si sottopongono
le unità sperimentali (soggetti) ad
alcuni trattamenti per osservarne le
reazioni (risposte).
• Un trattamento è una condizione
sperimentale applicata ai soggetti.
Gli esperimenti
Esperimento
Unità sperimentale
pomodori
topo
paziente
Trattamento
fertilizzante
radiazioni
farmaco
Risposta
raccolto
mortalità
pressione
Studi di osservazione
• In uno studio di osservazione si
studiano e si confrontano le unità a cui
è capitato di “ricevere un trattamento”.
Il trattamento non viene imposto e non
si cerca di influenzare le risposte.
Studi di osservazione
Studio di osservazione
Unità
Trattamento
Risposta
patate condizioni meteo raccolto
individuo
radiazioni
mortalità
paziente
fumo
tumore(polmone)
Studi sul campo
• Anche lo studio sul campo è uno studio di
osservazione.
• In questo caso, si osserva direttamente il
comportamento che interessa studiare, in
genere in un ambito naturale.
• Molte delle conoscenze sul comportamento
animale sono state ottenute con questo tipo di
studi.
• Questo vale per tutte quelle aree di ricerca
dove indagini campionarie e esperimenti sono
impossibili.
Studi di osservazione e Esperimenti
• Gli studi di osservazione non possono essere
usati per valutare gli effetti di un qualche
intervento sulle unità sottoposte a studio,
possono solo identificare possibili cause di
effetti.
• Solo un esperimento ben disegnato e ben
eseguito può stabilire un rapporto di causa ed
effetto (tra il trattamento e la risposta).
Studi di osservazione
Un esempio
• Uno studio di osservazione, durato 11 anni,
su un gruppo di fumatori e non fumatori, ha
mostrato che ci sono state 7 morti per
tumore al polmone su 100000, nel campione
di non fumatori, mentre ce ne sono state 166
su 100000, nel campione di fumatori.
• Tuttavia questo non prova che fumare causa
il tumore ai polmoni, perché i fumatori, ad
esempio, potrebbero fumare a causa dello
stress e questo stress potrebbe provocare il
tumore polmonare.
Disegno degli esperimenti--Disegni
completamente randomizzati
Asse
gnazio
ne
casua
le
I gruppo
20 soggetti
II gruppo
(controllo)
20 soggetti
I trattamento
Nuovo farmaco
Si osservano
gli effetti del
farmaco
II trattamento
Placebo
1) numerare i soggetti
2) usare le tavole dei numeri casuali per assegnare i soggetti ai
trattamenti
11369 23569 26339 42564 39623 92280 17246…….!
Tavole di numeri casuali
12 individui.
Si osservano le righe 115 e 116 di
una tabella di numeri casuali:
61041 77684 94222 24709 73698 14526 318933
259 26056 31424 80371 65103 62253 50490
Si dividono in coppie
Le prime 6 coppie di numeri sono il gruppo trattato.
61 04 17 76 84 94 22 22 47 09 73 69 81 45 26 31 89
33 25 92
60 56 31 42 48 03 71 65 10 36 22 53 50 49 06 11 81
Trattamento: 03, 04, 06, 09, 10, 11
Non trattamento (controllo): gli altri 6 gruppi.
• In un disegno completamente
randomizzato tutti i soggetti sono
assegnati in modo casuale ai trattamenti.
• Il confronto con un gruppo di controllo
permette di ridurre il più possibile l’influenza
di altri fattori che potrebbero confondere
l’effetto vero del trattamento.
• Ad esempio, supponiamo che l’esperimento descritto
sopra voglia verificare l’efficacia di un farmaco
(causa) per ridurre la pressione (effetto).
• Soggetti con caratteristiche simili vengono assegnati
a caso ai due gruppi (trattati e controllo).
• Se, invece, un gruppo di soggetti fosse
semplicemente osservato (studio di osservazione),
l’effetto dell’assunzione del farmaco potrebbe
confondersi con le caratteristiche dei soggetti quali,
ad esempio, peso, tipo di dieta, attività fisica
svolta……
• Perciò non sarebbe possibile stabilire una relazione
di causa-effetto.
Un esperimento
• Torniamo all’esempio dello studio di
osservazione sul fumo.
• Per controllare il fattore (stress) che si
confonde col fattore fumo, si possono
dividere i due campioni in diverse categorie
di stress.
• Quindi si confrontano i fumatori e non
fumatori che sono nella stessa categoria di
stress.
• Solo così si può stabilire una relazione di
causa (fumo) – effetto (tumore).
Riassunto
• Gli studi di osservazione e gli esperimenti
producono dati che servono a rispondere a
domande specifiche.
• Le indagini campionarie, che selezionano una
parte della popolazione d’interesse per studiarne
tutto l’insieme, sono un esempio di studio di
osservazione.
• Negli esperimenti, a differenza degli studi di
osservazione, i soggetti vengono sottoposti a
trattamenti.
• Gli studi di osservazione spesso non riescono a
mostrare l’influenza di una variabile su un’altra,
perché possono esserci effetti di confondimento.
• Il disegno campionario è il metodo usato per scegliere
il campione. (Attenzione alla distorsione e variabilità)
• Il campione probabilistico più importante è il campione
casuale semplice.
• Per scegliere un CCS si possono usare le tavole dei
numeri casuali o un software statistico.
• In un esperimento si somministrano uno o più
trattamenti ai soggetti.
• Il disegno di un esperimento descrive la scelta dei
trattamenti e il modo in cui i soggetti sono assegnati ai
trattamenti.
• Con gli esperimenti è possibile provare l’esistenza di
relazioni causa-effetto.
• Controllo e randomizzazione
Quali domande sui dati per un’indagine
statistica?
• Perché?
_ Qual è lo scopo dell’indagine
• Chi?
_ Quali unità statistiche, quante
• Quali variabili?
_ Quali variabili, quante, quali
unità di misura
L’analisi esplorativa dei dati
• Nelle prossime lezioni studieremo i metodi
per a) esplorare e b) descrivere i dati.
• A tale scopo faremo uso di
a) grafici
istogrammi, grafici ramo-foglia, box-plot,...
b) riassunti numerici
centro, dispersione, percentili,...
• Attraverso l’analisi esplorativa dei dati
cerchiamo di capire cosa i dati “vogliono
dire”.
Popolazione, unità statistiche, caratteri
• In statistica, il termine popolazione indica
qualunque insieme di elementi o unità
statistiche che sono l’oggetto della ricerca.
• Una variabile è un qualunque carattere o
caratteristica misurabile o osservabile su
un’unità statistica.
• I caratteri possono assumere modalità o
valori differenti sulle diverse unità statistiche.
Popolazione
Valore o Modalità
(es. altezza = 1.65,
colore vestito = rosso)
Campione
Unità statistica
Variabile o carattere
statistico
(es. altezza, colore
del vestito )
Popolazione statistica e popolazione
biologica
• Attenzione a non confondere la
popolazione statistica con la popolazione
biologica.
• La popolazione biologica si riferisce a tutti
gli individui di una determinata specie che
si trovano in un’area specifica ad un
determinato tempo.
Tipi di variabili
Le variabili possono essere
qualitative o quantitative.
 Una variabile qualitativa definisce il
gruppo di appartenenza.
Ad es. il gruppo sanguigno, il sesso
 Una variabile quantitativa misura o
conta qualcosa.
Ad es. l’altezza di un individuo, il numero di
figli in una famiglia
Variabili qualitative
• Variabili categoriche (con scala nominale)
che non possono essere ordinate
Ad es. la specie, il sesso, il tipo di habitat
• Variabili ordinate (con scala ordinale) che
possono essere ordinate
Ad es. la scala di abbondanza per la
classificazione dell’abbondanza di diverse
specie di piante (dominante, abbondante,
frequente, non comune, rara)
Variabili quantitative
• Variabili quantitative discrete
Ad es. il numero di uova deposte da un
uccello
• Variabili quantitative continue
Ad es. la temperatura, il peso di un
individuo
Tipi di
variabile
Quantitativa
Discreta
Continua
Qualitativa
Categorica
Ordinata
E’ importante precisare il livello di misura dei dati
osservati per determinare la procedura statistica da
usare per analizzarli.
La precisione delle osservazioni
Cifre significative--Arrotondamenti
• I dati sperimentali sono, generalmente, misurati
con approssimazione a causa degli errori di
misura e di osservazione.
• Supponiamo che 38.257 m sia la misura di una
data grandezza.
• Se ne indichiamo la misura con 38 m,
implicitamente ci riferiamo all’intervallo
37.5---38.5
ossia, la grandezza è stata misurata con una
incertezza dell’ordine del decimetro.
• Se ne indichiamo la misura con 38.3 m, ci
riferiamo all’intervallo
38.25—38.35
ossia, la grandezza è stata misurata con
una incertezza dell’ordine del centimetro.
• Se ne indichiamo la misura con 38.26 m,
ci riferiamo all’intervallo
38.255—38.265
ossia, la grandezza è stata misurata con
una incertezza dell’ordine del millimetro.
• L’accuratezza della misura aumenta al
crescere delle cifre significative riportate.
• Se si vuole ridurre il numero delle cifre significative è
possibile procedere con l’arrotondamento.
• Ad esempio:
numero
cifre significative desiderate
234,7891
56,34
56,34
78.887
0,06791
5
3
2
3
3
risposta
234,79
56,3
56
78.900
0,0679
Si noti che in questo esempio si usa la virgola per
indicare i decimali, mentre dopo useremo il punto.
Errori di misura
• Gli errori di misura sono di due tipi:
sistematici e casuali.
• Esempio di errore sistematico
Si consideri un metro a nastro, in cui le
divisioni siano state erroneamente tracciate più
ravvicinate del dovuto, ad es. siano più vicine
del 3%. Come conseguenza le misure
risulteranno maggiori di quanto dovrebbero, lo
strumento sovrastima le lunghezze.
Errori di misura
• Un errore sistematico è dovuto all’azione di
una sola causa che agisce costantemente
in un verso.
• Un errore casuale è invece il risultato
dell’azione contemporanea di un numero
molto grande di cause diverse, ciascuna di
piccola entità, che si sommano e si
sottraggono differentemente ogni volta che
eseguiamo una misura.
Proporzioni, percentuali, rapporti, tassi
 A volte, in alcuni modelli, si opera sui dati
osservati per ottenere dei numeri derivati.
 Esempi importanti di variabili derivate sono le
proporzioni, le percentuali, i rapporti e i tassi.
Proporzione-- Percentuale
• Una proporzione è il rapporto di una parte sul
tutto.
► Ad es. se la lunghezza totale del corpo
(testa+torace+addome) di un insetto è 7.2mm e
se la testa è lunga 2.7mm, la proporzione della
testa rispetto al corpo è 2.7/7.2=0.37.
► Ad es. Mortalità = N° morti/ N° abitanti
• Una percentuale è una proporzione
moltiplicata per 100.
► Ad es. 2.7/7.2=0.37, se si moltiplica per 100
37%
Rapporti
• Un rapporto è una parte divisa per un’altra
parte (il numeratore non è compreso nel
denominatore).
►Se la larghezza della capsula della testa di
un insetto è 1.31mm e la lunghezza è 2.7mm
il rapporto larghezza/lunghezza è pari a
1.31/2.7.
►Se in un campione ci sono 25 femmine e 32
maschi, il rapporto femmine/maschi è pari a
25/32=0.78 o 1:32/25 = 1/1.28, ossia, il
rapporto femmine/maschi è 1/1.28.
Tassi
• Spesso si fa riferimento ai tassi considerati
come rapporti tra un’osservazione e un
periodo di tempo.
• I tassi sono utili per esprimere variabili quali
la crescita e i cambiamenti di una
popolazione.
►Ad es. un germoglio cresce 15cm in 5 giorni
Il rapporto è 15:5 = 3:1
Il tasso di crescita è 3 cm/giorno
Analisi esplorativa dei dati
• Strategia
_ Esaminare ogni variabile separatamente;
poi studiare le relazioni tra le variabili
_ Cominciare con i grafici
_ Poi usare i riassunti numerici
_ A volte si usa un modello per la distribuzione
dei dati
• Per costruire il grafico di una variabile occorre
conoscere la sua distribuzione, ossia i valori
(o modalità) che assume la variabile e quante
volte li assume (frequenza).
Rappresentazione grafica delle
distribuzioni
Cosa ci rivela il grafico sulle
caratteristiche principali dei dati
esaminati?
Il grafico aiuta a interpretare i dati.
Attenzione alla scelta del grafico.
Le rappresentazioni grafiche sono
numerose e devono essere scelte in
rapporto ai tipi di variabile e alle scale
utilizzate.
Sunto
• Popolazione, unita’ statistiche,
• variabili, variabili quantitative e qualitative,
quantitative discrete e continue, qualitative
categoriche e ordinate. Dati
• Approssimazioni di dati. Troncature ed
arrotondamenti.
• Proporzioni, percentuali, rapporti e tassi.
• Distribuzione di una variabile
Grafici per variabili quantitative
 Grafici ramo-foglia (stem and leaf)
 Istogrammi
 Diagrammi a segmenti
Grafici ramo-foglia
• Ogni numero è diviso in due parti:
a I b
ramo
foglia
Esempio:
lunghezza dell’ala
di 10 passeri (mm)
59 64 68 71 73 75
75 77 80 80 (dati
ordinati)
ramo
5
6
7
8
foglie
9
48
13557
00
Grafici ramo-foglia
5
6
7
8
5
6
6
7
7
8
9
48
13557
00
9
4
8
13
557
00
Questo grafico si può espandere
dividendo ogni ramo a metà.
Comprende le foglie 0, 1, 2, 3, 4
Comprende le foglie 5, 6, 7, 8, 9
Grafici ramo-foglia
Suggerimenti:
• Un grafico appropriato dovrebbe avere tra
5 – 20 gambi.
• Usare foglie di una sola unità. Se necessario,
arrotondare i numeri.
• Specificare sempre l’unità di misura.
Ad es. per i dati (in kg): 53190, 54280, 54730 si
arrotonda al centinaio di Kg più vicino:
53 | 2 = 532 Kg, 54 | 3, 54 | 7.
Nel grafico le prime 2 cifre (migliaia) saranno i rami e
la 3a cifra (centinaia) le foglie.
Grafici ramo-foglia
• Questi grafici si usano quando la dimensione
n del campione
15 ≤ n ≤ 150
• Questi grafici
mostrano la forma della distribuzione,
conservano il valore effettivo di ogni
osservazione,
mostrano outlier (osservazioni anomale o
estreme), interruzioni nei valori,
valori raggruppati.
Istogrammi
• Come si costruisce un istogramma?
Variabili continue
1) Si divide il campo di variazione delle
osservazioni in classi di uguale ampiezza
2) Si conta il numero di osservazioni in ogni
classe
3) Si disegna l’istogramma
NOTA: date n osservazioni ordinate in senso
crescente, il campo di variazione è la differenza tra
la più grande e la più piccola delle osservazioni
Gli istogrammi
• Esempio 1. Le lunghezze (cm) dei coyote
• Femmine
93.0 97.0 92.0 101.5 93.0 84.5 102.5 97.8 91.0 98.0 93.5 91.7
90.2 91.5 80.0 86.4 91.4 83.5 88.0 71.0 81.3 88.5 86.5 90.0
84.0 89.5 84.0 85.0 87.0 88.0 86.5 96.0 87.0 93.5 93.5 90.0
85.0 97.0 86.0 73.7
• Maschi
97.0 95.0 96.0 91.0 95.0 84.5 88.0 96.0 96.0 87.0 95.0 100.0
101.0 96.0 93.0 92.5 95.0 98.5 88.0 81.3 91.4 88.9 86.4 101.6
104.1 88.9 92.0 91.0 90.0 85.0 93.5 78.0 91.0 83.8 103.0 100.5
105.0 86.0 95.5 86.5 90.5 80.0 80.0
Istogrammi
Distribuzione delle frequenze e delle
frequenze relative delle lunghezze dei coyote
femmina
Classi
70- 75
75- 80
80- 85
85- 90
90- 95
95-100
100-105
Totale
Frequenza Frequenza relativa (nj/n)
2
0.05
0
0
6
0.15
12
0.3
13
0.325
5
0.125
2
0.05
40
1.00
Lunghezze (cm) dei coyote
femmina
Stem-and-leaf of C1 N = 40
Leaf Unit = 1,0 ordinati in maniera
crescente e poi decrescente rispetto
alla mediana
2 7
2 7
8 8
20 8
20 9
7 9
2 10
13
013444
556666778889
0001111233333
67778
12
35
30
Percent
25
20
15
10
5
0
72
80
88
96
lunghezza coyote femmina (cm)
104
Istogrammi
• Attenzione alla scelta delle classi
• Scelte diverse delle classi possono portare
a istogrammi di aspetto diverso.
ISTOGRAMMI
• A volte può essere opportuno considerare
classi di ampiezze diverse.
• Si supponga di voler ripartire le lunghezze dei
coyote in 5 classi raggruppando le lunghezze
delle prime due classi e delle ultime due.
Classi
70- 80
80- 85
85- 90
90- 95
95-105
Totale
Frequenza Frequenza relativa (nj/n)
2
0.05
6
0.15
12
0.3
13
0.325
7
0.175
40
1.00
Istogrammi
• Quando le ampiezze delle classi sono diverse,
per evitare distorsioni visive, saranno le aree e
non più le altezze delle barre ad essere
proporzionali alle corrispondenti frequenze.
• In tal caso l’altezza del rettangolo
corrispondente a una classe viene chiamata
densità.
• Densità = frequenza
ampiezza classe
0,07
0,06
Density
0,05
0,04
0,03
0,02
0,01
0,00
70
80
85
90
95
lunghezza (cm) coyote femmina
0,09
0,08
0,07
Density
0,06
0,05
0,04
0,03
0,02
0,01
0,00
72
80
88
lunghezza (cm) coyote
96
104
105
Istogrammi
Suggerimenti:
• Un istogramma appropriato dovrebbe avere
tra 5 – 20 classi
• Gli istogrammi si usano quando la
dimensione n del campione è abbastanza
numerosa
• Gli istogrammi mostrano:
la forma della distribuzione,
outlier, valori raggruppati, interruzioni nei
valori.
Diagrammi a segmento
Variabili discrete
Esempio 2. Numero di protozoi contati in 33
unità campionarie prelevate da uno stagno.
163 165 165 165 166 166 166 166 168 168
168 168 169 169 169 169 169 169 169 169
171 171 171 171 171 171 172 172 172 174
174 175 175
Diagrammi a segmento
• Numero di protozoi
163
165
166
168
169
171
172
174
175
Frequenza
1
3
4
4
8
6
3
2
2
Diagramma a segmenti
Diagramma ramo-foglia
Protozoi
9
8
7
Frequenza
2 163 00
2 164
5 165 000
9 166 0000
9 167
13 168 0000
(8) 169 00000000
13 170
13 171 000000
7 172 000
4 173
4 174 00
2 175 00
6
5
4
3
2
1
0
16 3
16 5
16 6
16 8
16 9
17 1
Numero di protozoi
17 2
17 4
17 5
Variabile discreta: numero di orchidee in 50
quadrati collocati a caso (Esempio 3)
n° orchidee
0
frequenza
assoluta
21
frequenza
relativa
0.42
frequenza
rel.cumulata
0.42
1
15
0.30
0.72
2
6
0.12
0.84
3
3
0.06
0.90
4
2
0.04
0.94
5
1
0.02
0.96
8
1
0.02
0.98
12
1
0.02
1.00
50
1.00
totali
diagramma a segmenti del n° di orchidee
20
frequenza
15
10
5
0
0
1
2
3
4
numero di carie
5
8
12
frequenza relativa percentuale
diagramma a segmenti del n° di orchidee
40
30
20
10
0
0
Percent within all data.
1
2
4
3
numero di orchidee
5
8
12
diagramma a segmenti del n° di orchidee
0,50
0,40
0,30
interruzioni
nei valori
0,20
0,10
0,00
0 1 2 3 4 5 6 7 8 9 10 11 12
Esempio 4 Studio delle
specie di batteri in un contenitore di crema
dermatologica conservata per un mese in
un contenitore cilindrico a secondo della
profondita’ dalla superficie.
Come interpretare questi valori?
24 delle 330 specie
sono state trovate in
4 degli strati
4
n = 330
24
24/330x100%=7.3%
delle specie sono state
trovate in 4 degli strati
7.3
72.4
72.4% delle specie
vivono in un numero di
strati ≤ 4
Come si interpretano i grafici ramo-foglia,
gli istogrammi e i diagrammi a segmento?
• Cercare di individuare un andamento
generale per i dati osservati
• Individuare eventuali scostamenti da tale
andamento
• Individuare le caratteristiche più
significative della distribuzione dei dati
quali la forma, il centro, e la dispersione
• Individuare eventuali outlier. Possono
essere errori o osservazioni
interessanti/inusuali
Variabili quantitative-Le caratteristiche
principali di una distribuzione
•
Forma
unimodale
bimodale
multimodale
simmetrica coda a destra coda a sinistra
2. Centro
3. Dispersione
 Di solito le distribuzioni sono unimodali,
ma, se per esempio, la distribuzione del
numero di piccoli sopravvissuti per nido
fosse di tipo bimodale, potremmo pensare
che il campione analizzato si riferisca a due
gruppi ben distinti di genitori che si
differenziano per il numero medio di uova
deposte o per l'abilità di allevare i piccoli.
 Tali gruppi potrebbero corrispondere a
due specie diverse difficilmente distinguibili,
oppure a due classi di età.
Saper descrivere i dati basandosi su un dato
grafico
• Ci sono outlier o interruzioni nei valori
(gaps)?
• I dati sono simmetrici?
• La distribuzione dei dati è unimodale?
• Dov’è il centro della distribuzione?
• I dati sono molto variabili?
Grafici per variabili qualitative
 Grafici a barre
 Grafici a torta
Grafici a barre
Esempio 3. In un laboratorio sono state
eseguite 200 analisi e sono stati osservati i
gruppi sanguigni
Gruppo Frequenza Frequenza relativa %
0
96
48%
A
62
31%
B
30
15%
AB
12
6%
• grafici a barre e a torta per l’esempio
Gruppi sanguigni
12 0
Gruppi sanguigni
Frequenza
10 0
80
60
40
A
20
B
AB
0
O
A
B
AB
Gruppo sanguigno
O
Grafici a barre e grafici a torta
• Nei grafici a barre ogni frequenza è
rappresentata da una barra (rettangolo).
• I rettangoli hanno la stessa base e
l’altezza è proporzionale alla frequenza.
• I grafici a barre sono diversi dagli
istogrammi.
• Nel grafico a torta si visualizzano le
diverse parti in cui è stato diviso un tutto.
• Le ampiezze dei settori circolari sono
proporzionali alle corrispondenti frequenze
percentuali.
Riassunto
• Un insieme di dati contiene informazioni su
un certo numero di unità.
• Per ogni unità i dati riportano valori riferiti a
una o più variabili.
• Variabili qualitative o quantitative.
• L’analisi esplorativa dei dati si serve di
grafici e indici numerici per descrivere il
comportamento delle variabili in un insieme
di dati.
• La distribuzione di una variabile descrive i
valori che questa assume e la frequenza
con cui li assume.
• Distribuzione delle frequenze, delle
frequenze relative e delle frequenze relative
cumulate.
• Per descrivere una distribuzione è utile
cominciare con un grafico.
• Nell’analisi di un grafico o distribuzione
cercare l’andamento generale (forma,
centro, dispersione) e le eventuali
deviazioni degne di nota.
• Gli outlier sono osservazioni che si
discostano molto dal modello generale della
distribuzione.
Tipi di
grafico
Variabile
quantitativa
Discreta
Variabile
qualitativa
Continua
grafico a
segmenti
grafico ramo
foglia
Categorica
Istogramma
grafico ramo
foglia
grafico
a barre
grafico a
torta
Ordinata
grafico
a barre
grafico a
torta
Come rappresentare numericamente una
distribuzione?
Indici riassuntivi
 Indici di posizione
media, mediana, moda, quartili, percentili
 Indici di variabilità o dispersione
intervallo di variazione, varianza,
coefficiente di variazione, box-plot
 Indici di forma
curtosi, indice di simmetria
Indici di posizione centrale
La media (aritmetica)
Esempio 1
I diametri delle cappelle di un fungo commestibile
in un campione di 6 sono:
9.3 cm 7.8 cm 6.2 cm 7.0 cm 8.3 cm 9.9 cm
la media (aritmetica) dei diametri, ossia il
diametro medio, pari a 8.08 cm, è dato da
som m a
m edia
num ero
delle
delle
osservazioni
osservazioni
Perciò la formula per calcolare la media è data
dalla
x1  x2  ...  xn
1
x
  xi
n
n
dove
x
xi =
 xi =
n =
media aritmetica campionaria
i-ma osservazione
somma di tutte le osservazioni del
campione
numerosità o dimensione del
campione
La media
• Se i dati sono rappresentati con una
distribuzione di frequenze, cioè la
modalità (il valore) xj compare con la
frequenza fj (j = 1, 2, ..., k) si può
usare la formula:
k
x1 f1  x2 f 2  ...  xk f k
x

f1  f 2  ...  f k
 xi fi
i1
n
La media
Esempio 2. Il numero di formiche del legno
catturate in 7 trappole, poste di notte in un
bosco, è:
25 4 12 9 15 8 202
Qual è il numero medio di formiche per ogni
trappola?
x = 39.3.Tale valore è più grande di 6 delle 7
osservazioni ed è molto più piccolo dell’ultima.
La media utilizza il valore effettivo di ogni
osservazione, perciò potrà essere distorta da
un singolo valore eccezionale (non è robusta).
La mediana
Nell’esempio precedente la mediana
può essere un indice di centralità più
appropriato.
La mediana è il valore di mezzo in un
insieme di osservazioni che sono state
ordinate in ordine crescente.
 Quindi metà delle osservazioni sono
più piccole e metà più grandi della
mediana.
La mediana
Ordiniamo i dati sulle formiche (esempio 2):
4 8 9 12
12 15 25 202
mediana
La mediana è più robusta della media, ossia
non è influenzata da singoli valori estremi.
Nell’esempio la mediana vale 12 qualunque
sia il valore della settima
osservazione (20, 202 o 2002).
Come si calcola la mediana?
Esempio 3
1
11
13
med = 9
4
15
7
9 10 12 14
16
19
21
22
25
Se le osservazioni sono in numero dispari,
diciamo n la mediana è l’elemento che occupa
il posto centrale, cioe’ il posto (n+1)/2
Se le osservazioni sono in numero pari la
mediana è la semisomma dei due elementi di
posto centrale cioe’ di posto n/2, n/2 +1.
Media contro mediana
A
(a) Dati
simmetrici
Mediana = media
A
Mediana Media
(b) Le due osservazioni con il valore
più grande si sono spostate a destra
(dati asimmetrici)
La moda
• In una distribuzione di dati la moda o
(classe modale) è il valore che si verifica
con maggior frequenza o (la classe che
contiene il maggior numero di
osservazioni).
• Se due (più di due) valori si verificano con
la stessa maggior frequenza la
distribuzione è detta bimodale
(multimodale).
• La moda è l’unica misura di centralità che
può essere usata con dati qualitativi.
Relazioni tra media mediana e moda
Le misure di posizione centrale
Tra moda, mediana, e media quale scegliere per
rappresentare la nostra distribuzione?
 Moda: è sempre calcolabile, ma è poco potente
dal punto di vista informativo
 Mediana: è calcolabile soltanto per caratteri
almeno ordinabili e trascura l’informazione
relativa alla grandezza quantitativa dei dati.
Ha però il vantaggio di non essere influenzata
dai dati estremi.
 Media: è calcolabile soltanto per caratteri
quantitativi, è la più informativa, ma è
influenzata dai dati estremi.
Misure di posizione “non centrale”
Quartili, Percentili
 I quartili, rispettivamente, primo quartile Q1,
mediana Q2 e terzo quartile Q3 dividono la
distribuzione dei dati ordinati in 4 parti uguali.
 Il primo quartile è la mediana di tutte le
osservazioni la cui posizione è inferiore alla
posizione della mediana.
 Il terzo quartile è la mediana delle
osservazioni con posizione superiore.
 Nota: nella letteratura vengono date diverse definizioni di
quartili, ma l’idea è sempre la stessa.
I quartili
Esempio 4
11
13
15
16
19
21
22
25
Med = Q2 = 17.5
Q1 = 14
Q3 = 21.5
Q1 lascia alla propria destra il 75% dell’intera
distribuzione.Q3 lascia alla propria destra il
25% della distribuzione.
I percentili
• I percentili sono quei valori che dividono la
distribuzione dei dati ordinati in 100 gruppi di
uguale numerosità, dove ogni gruppo contiene
circa l’1% di tutti i valori.
• Il p-percentile è quel valore tale che il p
percento delle osservazioni cade fino a quel
valore compreso.
• Frequenza relativa dei valori minori o uguali a x
moltiplicato 100
n° dei valori ≤ x
percentile di x = 100* n° totale dei valori
71,0
73,7
80,0
81,3
83,5
84,0
84,0
84,5
85,0
85,0
86,0
86,4
86,5
86,5
87,0
87,0
88,0
88,0
88,5
89,5
90,0
90,0
90,2
91,0
91,4
91,5
91,7
92,0
93,0
93,0
93,5
93,5
93,5
96,0
97,0
97,0
97,8
98,0
101,5
102,5
Lunghezza (cm) di 40 coyote
femmina (v. esempio 1)
Vogliamo trovare il percentile
corrispondente alla lunghezza
91cm.
24 : 40 * 100 = x
x = 60
La lunghezza 91cm è il 60-mo
percentile, ossia il 60% dei valori
cade alla sua sinistra.
Percentili
• Esempio: un bambino che superi il 90° percentile
avrà un valore (es. di altezza) superiore al 90% di
tutti i bambini considerati.
• Esempio: la più piccola osservazione in un insieme
di 20 è il quinto percentile (5%), l’osservazione
successiva è il 10-mo percentile (10%).
1 : 20 = x : 100
• La procedura inversa:
ci sono diversi metodi che, dato un
percentile, calcolano il corrispondente valore
campionario.
Sunto
• Grafici per variabili qualitative: a barra e a
torta.
• Indici di posizione: media, mediana, moda.
Quartili e percentili.
• Distribuzioni unimodali, bimodali,
multimodali.
Funzione di ripartizione
empirica
• Associa ad ogni classe di valori della
variabile statistica la frequenza relativa
cumulata.
• Se le classi sono determinate da piccoli
intervalli si ottiene una curva continua
crescente sino al valore 1
Quantili
• Il quantile di ordine a e’ il valore q per cui
la frequenza relativa cumulata di tutte le
classi in cui la variabile e’ minore o uguale
di q, risulta uguale ad a.
I quantili si determinano dalla funzione di ripartizione empirica
Basta prendere la retta parallela all’asse delle ascisse con ordinata q e proiettare
verticalmente sull’asse delle ascisse i punti di intersezione di tale retta con le funzioni di
ripartizione. Le ascisse delle proiezioni sono i q quantili.
Funzioni di ripartizione empirica del peso alla nascita
funzione di ripartizione empirica
1,20
1,00
0,80
0,60
0,40
0,20
0,00
0
20
40
60
80
100
120
140
peso alla nascita
non fumatrici
fumatrici
160
180
200
Confronto grafico sintetico P-P plot
• Possiamo confrontare graficamente le due
funzioni di ripartizione (fumatrici e non)
riportando su un piano cartesiano, per
ogni quantile fissato, in ascissa l’ordinata
di una delle due funzioni (per esempio
quella delle non fumatrici) e in ordinata
l’altra.
• Quanto più le due distribuzioni sono simili,
tanto più la curva rappresentata sarà
vicina alla diagonale del primo quadrante.
Indici di variabilità
• Se non ci fosse variabilità all’interno di
una popolazione non ci sarebbe
bisogno della statistica. Una singola
unità campionaria sarebbe sufficiente
a descrivere l’intera popolazione.
• Come si misura la variabilità o
dispersione di una distribuzione di
dati?
Dispersione
Variazione rispetto ad un valore centrale
(media o mediana).
Misure di variabilità: Intervallo di
variazione
• Intervallo di variazione (range)
= osservazione più grande –
osservazione più piccola
• E’ influenzato dalle osservazioni
estreme.
Misure di variabilità: Differenza (range)
interquartile
• Differenza interquartile
= terzo quartile Q3 - primo quartile Q1
• Misura la dispersione del 50% dei valori
centrali della distribuzione dei dati.
• Esempio 5
Per i dati dell’esempio 3 la differenza
interquartile è data da
11 13 15 16 19 21 22 25
Q1 = 14
Q3 = 21.5
Diff. interq. = 21.5 – 14 = 7.5
Misure di variabilità
Gli indici di posizione centrale dicono
attorno a quale valore le osservazioni sono
centrate e sono tanto più significativi quanto più
i dati sono concentrati vicino ad essi.
Per ottenere un’informazione più accurata, è
quindi necessario misurare il grado di
dispersione dei dati intorno a tali indici. Ciò
può farsi, soltanto per i caratteri quantitativi,
associando alle misure di tendenza centrale
delle misure di variabilità.
Misure di variabilità: la varianza e la deviazione
standard
La varianza e la deviazione standard misurano
la variabilità di una distribuzione sintetizzando
la dispersione delle osservazioni intorno alla loro
media.

x1  x   x2  x 

2
Varianza
s
2
Deviazione
standard (radice
quadrata della
varianza)
2
 ...  xn  x 
n 1
s
1
2
 xi  x 
n 1
2
La varianza
Vediamo perché nella formula usuale della varianza si
usano i quadrati degli scarti e perché si divide per n-1.
Innanzitutto la somma degli scarti è sempre nulla.
Perché non usare la media dei valori assoluti degli
scarti?
ESEMPIO. Sia data una popolazione costituita dai
valori 1, 2, 3.
La varianza della popolazione è pari a
 xi
n
2 
i 1
2
 
n

2
 0.6
3
La media della popolazione è pari a µ = 2
Si estraggono tutti i campioni (9) di dimensione
2 con reinserimento.
Per ogni campione si calcola la varianza
campionaria s2
Si calcola poi la media delle 9 varianze
campionarie:
0, 0,707, 1,41, 0,707, 0, 0,707, 1,41, 0,707, 0
tale media è pari a 0.6 = 2/3.
Si può quindi dire che s2 è uno stimatore non
distorto della varianza incognita della
popolazione.
Nota: anche la media campionaria x è uno stimatore non
distorto della media incognita della popolazione
Per i precedenti 9 campioni calcoliamo le
varianze campionarie dividendo per n=3 e non
per n-1=2.
La media di tali varianze campionarie è 1/3.
Si ha perciò una sottostima della varianza
della popolazione.
Analogamente, si può vedere che se usiamo
come varianza campionaria
n
s2 

i 1
xi  x
n
si ottiene uno stimatore distorto che sottostima
la varianza della popolazione.
La varianza campionaria
• La varianza campionaria s2 è uno stimatore
non distorto della varianza della
popolazione σ2
• Questo vuol dire che i valori di s2 tendono a
centrare il valore di σ2 e non a
sovrastimarlo o sottostimarlo in modo
sistematico.
La deviazione standard
• Esempio 6
Calcolate la deviazione standard per i dati
dell’esempio 4.
s = 4.80
(controllate !!!!)
• s misura la dispersione intorno alla media e
si dovrebbe usare quando si usa la media
x come misura del centro.
• s è sempre maggiore di 0, s = 0 quando non
c’è dispersione.
• s ha la stessa unità di misura dei dati iniziali
Variazioni di scala
• I dati della tabella
rappresentano i valori
della temperatura
corporea rilevati su
65 soggetti sani e
misurati in gradi
Fahrenheit.
• La loro media è
mf = 98.10
Temperature
96,30
96,70
96,90
97,00
97,10
97,10
97,10
97,20
97,30
97,40
97,40
97,40
97,40
97,50
97,50
97,60
97,60
corporee
97,60
97,70
97,80
97,80
97,80
97,80
97,90
97,90
98,00
98,00
98,00
98,00
98,00
98,00
98,10
98,10
98,20
in gradi Farenheit
98,20
98,70
98,20
98,70
98,20
98,80
98,30
98,80
98,30
98,80
98,40
98,90
98,40
99,00
98,40
99,00
98,40
99,00
98,50
99,10
98,50
99,20
98,60
99,30
98,60
99,40
98,60
99,50
98,60
98,60
Media
98,60
98,10
Come cambia la media se cambia l’unità di
misura?
• I dati della tabella
rappresentano i
valori della
temperatura
corporea degli
stessi 65 soggetti
sani in gradi
Celsius.
• La loro media è
mc = 36.73
Temperature
35,73
35,95
36,06
36,12
36,17
36,17
36,17
36,23
36,28
36,34
36,34
36,34
36,34
36,39
36,39
36,45
36,45
corporee in gradi Celsius
36,45
36,78
37,06
36,50
36,78
37,06
36,56
36,78
37,12
36,56
36,84
37,12
36,56
36,84
37,12
36,56
36,89
37,17
36,62
36,89
37,23
36,62
36,89
37,23
36,67
36,89
37,23
36,67
36,95
37,28
36,67
36,95
37,34
36,67
37,00
37,39
36,67
37,00
37,45
36,67
37,00
37,50
36,73
37,00
36,73
37,00
Media
36,78
37,00
36,73
Trasformazione delle scale di misura
• Le due scale di misura sono legate dalla seguente
trasformazione:
5
Tc  (T f  32)
9
che applicata alle medie si scrive:
5
mc 
(m f  32)
9
e fornisce lo stesso valore del calcolo diretto di mc a
partire dai dati trasformati, ossia
36.73 = 5/9 x (98.10 – 32)
• Con lo stesso insieme dei dati si può verificare che
anche la mediana gode della stessa proprietà (per
questi dati, inoltre, coincide con la media).
Variazioni di scala
• Cosa succede alla deviazione standard?
• La dev. standard delle temperature in gradi
Fahrenheit è pari a 0.62, mentre per le
temperature in gradi Celsius è pari a 0.35.
• Se si applica la trasformazione precedente
alla dev. standard:
5
devstC  (devstF  32)
9
ATTENZIONE!! perchè
0.35 = 5/9 x 0.62
Proprietà della media e della deviazione
standard
1. Se a tutti gli elementi di una serie di dati
viene sommato un numero, la media
risulterà aumentata dello stesso numero,
mentre la deviazione standard non cambia.
2. Se tutti gli elementi di una serie di dati
vengono moltiplicati per una costante, sia
la media sia la deviazione standard
risulteranno moltiplicati per la stessa
costante.
istogramma delle temperature (F)
Normal
0,6
0,5
0,3
0,2
0,1
0,0
96,8
97,6
98,4
temperature (F)
99,2
istogramma delle temperature (C)
Normal
1,2
1,0
0,8
Density
Density
0,4
0,6
0,4
0,2
0,0
36,0
36,4
36,8
temperature (C)
37,2
Lo scarto standard:
una regola empirica per dati con una
distribuzione approssimativamente normale
• Lo scarto (deviazione) standard, insieme
con la media, fornisce una indicazione
utile circa l’intera distribuzione dei dati.
• Vedremo che se la distribuzione è
approssimativamente normale, l’intervallo
x ±s
comprende circa il 68% di tutti i valori.
Distribuzione normale
• Il grafico che si ottiene mettendo ad acissa
i valori assunti dalla variabile e a ordinata
le frequenze relativa ha la forma di una
campana simmetrica.
• Media=Mediana= Moda
Quali misure di centralità e
dispersione?
 La mediana e i quartili sono misure resistenti,
ai valori estremi, la media e la deviazione
standard non lo sono.
 La media e la deviazione standard sono
ottimi indici per le distribuzioni simmetriche.
 I cinque numeri di sintesi e il boxplot non
sono sensibili ai valori estremi e quindi sono
più adatti per le distribuzioni asimmetriche.
Campione e popolazione
• Attenzione
• Generalmente si osserva un campione
estratto da una popolazione e x e s sono
misure del centro e della dispersione dei
dati del campione.
• Se ci si riferisce ad una popolazione la
media e la deviazione standard sono
indicate con µ e σ.
Il coefficiente di variazione
 Due distribuzioni con deviazioni standard
s molto vicine non hanno necessariamente
un’analoga dispersione; infatti s è “grande” o
“piccolo” rispetto all’ordine di grandezza delle
misure a cui si riferisce, ovvero ad un indice
di posizione come x .
 Per confrontare le dispersioni di due
diverse distribuzioni occorre confrontare
indici indipendenti dall’unità di misura.
L’indice più utilizzato è il Coefficiente di
Variazione
Misure di variabilità: Il coefficiente di
variazione
• La deviazione standard risente dell’unità di misura e
dell’ordine di grandezza dei dati.
Esempio 7
2 campioni di
maschi
Campione Campione
1
2
Età
25 anni
11 anni
Peso
medio
Dev.st.
66 kg
36 kg
4,5 kg
4,5 kg
I due campioni hanno la stessa variabilità?
• Calcoliamo il coefficiente di variazione dato
da
s
CV  100%
x
Campione 1: C. V. = 4,5/66 (100) =
6.8%
Campione 2: C. V. = 4,5/36 (100) =
12.5%
Il coefficiente di variazione esprime s come
percentuale di x ed è indipendente
dall’unità di misura.
I cinque numeri di sintesi e il boxplot
• I cinque numeri di sintesi di una distribuzione
sono:
il valore min. Q1 mediana Q3 il valore max.
• Questi cinque numeri danno una descrizione
sintetica della distribuzione.
• Il boxplot fornisce una rappresentazione
grafica dei dati sulla base dei cinque numeri.
I cinque numeri di sintesi
• Esempio 8
Date le osservazioni ordinate:
24 25 25 25 26 26 27 28 29 30
1° quartile
mediana
Q1 = 25
Q2 = (26 + 26)/2 = 26
Q3 = 28
2° quartile
Boxplot
Sunto
•
•
•
•
•
•
•
Funzione di ripartizione empirica
Dispersione
Differenza interquartile
Varianza
Deviazione standard
Coefficiente di variazione
Distribuzioni normali
Come individuare gli outlier
sospetti?
• Per individuare eventuali outlier la regola
più comune è calcolare:
1.5 x Δ
dove Δ è la distanza interquartile data da
Q3 – Q 1
• Un punto viene considerato un possibile
outlier se si trova più di 1.5 x Δ al di sotto
del primo quartile o al di sopra del terzo
quartile.
Indici di forma e di simmetria
• Nelle applicazioni medico– biologiche si
confronta un istogramma di frequenze
osservate (monomodale ) con una
distribuzione normale con medesima media
e deviazione standard. Un indice di “forma”
utile, in tal caso, è l’indice di curtosi dato
dalla.
1
 
n
4
 xi  x 
3

 

s
i 

Indice di curtosi
Ipernormale γ > 0
Leptocurtica, piu’
appuntita di una
normale
Iponormale γ < 0
Platicurtica, piu’
piatta di una
normale
Indice di Curtosi
L’indice di curtosi vale 0 se la popolazione
è normale.
γ<0
γ>0
Indice di asimmetria
• L’indice di asimmetria (skewness) di Pearson
è dato da
• S = ( media – moda) / dev. standard
• Se S = 0 si ha simmetria
• Se S ≥ 1.00 si ha una asimmetria a destra
• Se S ≤ -1.00 si ha una asimmetria a sinistra.
Riassunto
• Un riassunto numerico di una distribuzione
deve riportare il centro e la dispersione.
• La media, la mediana e la moda descrivono il
centro di una distribuzione in modi diversi.
• Se si usa la mediana per indicare il centro è
opportuno rappresentare la dispersione con i
quartili.
• I quartili e i percentili sono misure di
posizione non centrale che dividono la
distribuzione, rispettivamente, in 4 e 100
parti di uguale numerosità.
• La varianza e la sua radice quadrata, la
deviazione standard, misurano la dispersione
rispetto alla media come centro.
• Il coefficiente di variazione è una misura di
dispersione che non risente dell’unità di
misura e dell’ordine di grandezza dei dati.
• Il sommario a cinque numeri (mediana,
quartili, minimo e massimo) fornisce una
descrizione generale della distribuzione.
• Il box-plot è un grafico del sommario a
cinque numeri.
• La mediana e i quartili sono misure resistenti.
• L’indice di curtosi e di asimmetria.
• Attenzione ai cambiamenti di scala e alle
trasformazioni dei dati.
Distribuzioni di probabilità – Modelli
probabilistici
Distribuzioni di frequenze
Distribuzioni di
probabilità
Esempio. Distribuzione del numero di uova per nido di
una particolare specie di uccello in una foresta.
N° uova
Frequenze
Frequenze relative
0
1
2
3
4
5
Totale
90
165
209
187
67
12
730
0.12
0.23
0.29
0.26
0.09
0.01
1.00
grafico a segmenti
GRAFICO DELLE FREQUENZE
GRAFICO DELLE FREQUENZE
RELATIVE O DELLE PROBABILITA'
250
0
1
2
3
4
5
150
100
50
0
N° DI UOVA PER NIDO
N° DI NIDI
N° DI NIDI
200
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0
1
2
3
4
5
N° DI UOVA PER NIDO
Distribuzioni di probabilità discrete
• Diagramma a segmenti delle frequenze
relative
Diagramma a segmenti delle probabilità:
raffigura la distribuzione di probabilità della
variabile aleatoria discreta: “n° di uova per
nido”.
• Distribuzioni discrete utili nelle applicazioni
biologiche:
• Distribuzione binomiale, Distribuzione di
Poisson.
Distribuzioni di probabilità continue
• Molte distribuzioni di variabili continue
possono essere definite
matematicamente, alcune descrivono
adeguatamente la distribuzione di variabili
biologiche.
• La distribuzione normale
• La distribuzione esponenziale
popolazione di 730
nidi in una
determinata zona
popolazione di 3000 pesci
popolazione ipotetica
La distribuzione normale: un esempio
• Esempio 1. lunghezza (in decimi di mm)
delle ali di 100 mosche (Sokal e Rohlf
1995, Biometry).
• La “lunghezza di un’ala” è una variabile
continua
Distribuzione normale: le ali delle mosche
• Poiché le misure di lunghezza sono su di una
scala continua, è possibile aumentare il grado
di precisione delle misurazioni in modo che le
classi di frequenza siano a intervalli di 0.01
mm invece che di 0.1 mm. Se si considera un
numero di osservazioni molto grande a un
grado di precisione infinitamente elevato, i
gradini dell’istogramma si trasformano in una
curva continua simile a quella della
distribuzione normale (con un andamento a
campana).
L’ISTOGRAMMA
Peso di 150 studenti tra i 12-18 anni
0.50
0.40
0.30
0.20
0.10
0.00
40-50 51-60 61-70 71-80 81-90 91+
L’ISTOGRAMMA
Peso di 150.000 studenti tra i 12-18 anni
0.05
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0.00
30
40
50
60
70
80
90
100
Distribuzione normale
• Se la scala del grafico è tale che l’area totale
sotto la curva è pari a 1, allora l’area
rappresenta tutte le osservazioni e la curva è
una curva di densità.
• L’area che sta sotto la curva e sopra un
determinato intervallo di valori rappresenta la
proporzione di tutte le osservazioni che
cadono in quell’intervallo.
• Si può, anche, dire che tale area rappresenta
la probabilità che un individuo scelto a caso
appartenga a quell’intervallo.
Istogramma e distribuzione normale: un altro
esempio
• Esempio 2. Nella tabella che segue sono
riportate le lunghezze (al mm più vicino) di 100
germogli nati da semi piantati allo stesso
tempo.
• Ad esempio, tutti i germogli di lunghezza tra
73.5mm e 74.5mm sono inseriti nella classe
74mm.
• Nella tabella sono, anche, riportate la
distribuzione delle frequenze, delle frequenze
relative e delle frequenze cumulate dei valori
della variabile “lunghezza dei germogli”.
Tabella delle frequenze
Intervallo
classe
Lunghezza
(mm)
Frequenza
Frequenza
relativa
Frequenza
rel. cumulata
67.5-68.5
68
1
0.01
0.01
68.5-69.5
69
2
0.02
0.03
69.5-70.5
70
4
0.04
0.07
70.5-71.5
71
7
0.07
0.14
71.5-72.5
72
11
0.11
0.25
72.5-73.5
73
15
0.15
0.40
73.5-74.5
74
20
0.20
0.60
74.5-75.5
75
16
0.16
0.76
75.5-76.5
76
10
0.10
0.86
76.5-77.5
77
6
0.06
0.92
77.5-78.5
78
4
0.04
0.96
78.5-79.5
79
2
0.02
0.98
Distribuzione delle frequenze relative
cumulate
• La frequenza relativa cumulata per una
data classe è ottenuta come somma della
corrispondente frequenza relativa e di tutte
quelle relative alle classi precedenti.
• In modo analogo si definisce la frequenza
cumulata.
• Spesso si considera la frequenza
percentuale cumulata pari alla frequenza
relativa cumulata moltiplicata per 100.
istogramma della lunghezza(mm) di 100 germogli
0,20
Density
0,15
0,10
0,05
0,00
68
70
72
74
76
lunghezza (mm) germogli
78
80
E’ unimodale (classe modale 73.5-74.5 mm)
istogramma della lunghezza(mm) germogli
0,20
Density
0,15
0.07
0,10
0,05
0,00
68
70 a
b 72
74
76
lunghezza (mm) germogli
78
80
L’area della barra sull’intervallo a=70.5 e b=71.5 è pari
a 0.07. Corrisponde al 7% di tutte le osservazioni.
Ossia, nel campione di 100 germogli, il 7% ha
lunghezza tra 70.5 e 71.5.
istogramma della lunghezza(mm) germogli
0,20
Density
l’osservazione
b a quale
percentile
corrisponde?
0,15
0.14
0,10
0,05
0,00
68
70
72
74
76
blunghezza
(mm) germogli
78
80
L’area tratteggiata in rosso rappresenta la
frequenza relativa cumulata che fino al punto
b è pari a 0.14 (14%).
istogramma della lunghezza germogli
Normal
Mean
StDev
N
0,20
74,02
2,395
100
Density
0,15
0,10
0,05
0,00
68
70
72
74
76
lunghezza (mm) germogli
78
80
Se si aumenta il numero di osservazioni e si diminuisce
l’ampiezza delle classi, l’istogramma si avvicina a una
curva normale e l’area sotto la curva tra a=70.5 e b=71.5
è pari a 0.075 ed è molto vicina alla percentuale
(proporzione) di germogli di lunghezza tra 70.5 e 71.5.
Istogrammi e distribuzioni normali
• Entrambi gli istogrammi delle lunghezze delle
ali di mosche e dei germogli suggeriscono
per i dati osservati un andamento simile a
quello di una distribuzione normale.
• Possiamo, pertanto, costruire un modello
normale per descrivere entrambi i fenomeni.
• La curva di densità normale rappresenta il
modello complessivo delle due distribuzioni.
Non tutte le distribuzioni sono normali
• Esempio 3 produzione annuale di latte di
100 vacche Jersey(libbre x100) p104
sokal
• L’andamento non è simmetrico
La distribuzione normale
• Tutte le distribuzioni normali hanno la
stessa forma generale. La curva di densità
per una particolare distribuzione normale
si ottiene specificando la sua media µ e la
sua deviazione standard σ (o la sua
varianza σ2).
Distribuzione normale N (µ, σ)
Perché le distribuzioni normali sono
importanti?
 rappresentano ragionevolmente bene
molte distribuzioni di dati reali
permettono di rappresentare in modo
compatto i dati. Un gran numero di valori
distribuiti normalmente possono essere
riassunti da 2 soli numeri: media e varianza
 sono molto importanti nell’inferenza
statistica
La distribuzione normale: una proprietà
importante
La regola 68-95-99.7
Nella distribuzione Normale con media µ e
deviazione standard σ:
• il 68% delle osservazioni è compreso
nell’intervallo
[µ − σ, µ + σ]
• il 95% delle osservazioni è compreso
nell’intervallo
[µ − 2 σ, µ + 2σ]
• il 99.7% delle osservazioni è compreso
nell’intervallo
[µ−3 σ, µ+3σ]
Area colorata=
=0.683
Area colorata=
=0.954
C’è una probabilità
pari al 68% di
essere
compresi tra
µσ e µ+σ
C’è una probabilità
pari al 95% di
essere
compresi tra
µ2σ e µ+2σ
Area colorata=
=0.997
C’è una probabilità
pari al 99.7% di
essere
compresi tra
µ3σ e µ+3σ
Distribuzione Normale
Questa regola è esattamente vera per una distribuzione
normale. E’ vera, con buona approssimazione, per le
lunghezze dei germogli che sono approx. normali.
La distribuzione normale
I software statistici calcolano l’area sotto la curva fino
al punto x, ossia la proporzione di osservazioni che
assumono valori ≤ x. Occorre precisare media e
deviazione standard della normale considerata.
Area =
= probabilità
che un’unità
scelta a caso
abbia un
valore ≤ x
La standardizzazione
Standardizzazione e valori z
Se x è un’osservazione da una distribuzione
che ha media µ e deviazione standard σ, il
valore standardizzato di x è
Un valore standardizzato viene spesso
chiamato valore z.
La standardizzazione
• La stardardizzazione trasforma la
distribuzione iniziale in una con media nulla
e deviazione standard unitaria.
• Se x > µ  z è positivo
• Se x < µ  z è negativo
Le unità standard
• Ad esempio se X ~ N (µ = 20, σ = 4)
Trovare il valore z corrispondente a
1) x = 28
z = 2 ( 28 è di 2 dev. st. maggiore della
media 20 )
2) x = 16
z = -1 ( 16 è di 1 dev. st minore della
media 20 )
3) x = 30
z = 2.5
4) x = 13
z=?
• Supponiamo che X ~ N (µ = 10, σ = 4)
Trovare il valore z corrispondente a
x = 28
z = 4.5 ( 28 è di 4.5 dev. st. maggiore
della media 10 )
• Supponiamo che X ~ N (µ = 20, σ = 2)
Trovare il valore z corrispondente a
x = 28
z = 4 ( 28 è di 4 dev. st. maggiore della
media 20 )
Le unità standard
1) X ~ N ( µ = 100, σ = 12 )
Trovare il valore z corrispondente a x = 128
z = (128-100)/12
= 2.333 (128 è maggiore della media di
2.3 dev. st.)
Se si standardizza una variabile normale si
ottiene una nuova variabile con distribuzione
N (0,1).
La distribuzione normale standard
Z ~ N ( 0,1)
Le unità standard
• Ad esempio se X ~ N (µ = 20, σ = 4)
Trovare il valore x corrispondente a z
1) z = 2.3
x è maggiore della media di 2.3 dev st.
 x = 20 + (2.3 x 4) = 29.2
2) z = - 1.4
x è minore della media di 1.4 dev. st.
 x = 20 – (1.4 x 4) = 14.4
La tavola della Normale standard
Le Tavole sono tabelle che riportano le aree
sotto la curva Normale standard. In
corrispondenza di ogni valore z viene riportata
l’area sotto la curva alla sinistra di z.
La tavola della Normale standard
L’area sotto la curva alla sinistra di z
corrisponde alla frequenza relativa
(proporzione) cumulata nel punto z.
proporzione di
osservazioni
minori di 2.33
Quale proporzione di osservazioni di una variabile Z
assume un valore minore di 2.33? Ossia qual è la
frequenza relativa di Z < 2.33?
Se si conosce z, si può trovare l’area
Se si conosce l’area, si può trovare z
Tabelle
• Nella prossima slide una tabella per la
distribuzione normale standard, cioe’ a
media nulla e deviazione standard
unitaria. Per vari valori di z la frequenza
cumulata in z . Si parte da z=0 dove, per la
simmetria, tale frequenza e’ 0.5
z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
.00
.5000
.5398
.5793
.6179
.6554
.6915
.7257
.7580
.7881
.8159
.8413
.8643
.8849
.9032
.9192
.9332
.9452
.9554
.9641
STANDARD NORMAL PROBABILIT IES (p.2)
.07
.06
.05
.04
.03
.02
.01
.5040 .5080 .5120 .5160 .5199 .5239 .5279
.5438 .5478 .5517 .5557 .5596 .5636 .5675
.5832 .5871 .5910 .5948 .5987 .6026 .6064
.6217 .6255 .6293 .6331 .6368 .6406 .6443
.6591 .6628 .6664 .6700 .6736 .6772 .6808
.6950 .6985 .7019 .7054 .7088 .7123 .7157
.7291 .7324 .7357 .7389 .7422 .7454 .7486
.7611 .7642 .7673 .7704 .7734 .7764 .7794
.7910 .7939 .7967 .7995 .8023 .8051 .8078
.8186 .8212 .8238 .8264 .8289 .8315 .8340
.8438 .8461 .8485 .8508 .8531 .8554 .8577
.8665 .8686 .8708 .8729 .8749 .8770 .8790
.8869 .8888 .8907 .8925 .8944 .8962 .8980
.9049 .9066 .9082 .9099 .9115 .9131 .9147
.9207 .9222 .9236 .9251 .9265 .9279 .9292
.9345 .9357 .9370 .9382 .9394 .9406 .9418
.9463 .9474 .9484 .9495 .9505 .9515 .9525
.9564 .9573 .9582 .9591 .9599 .9608 .9616
.9649 .9656 .9664 .9671 .9678 .9686 .9693
.08
.5319
.5714
.6103
.6480
.6844
.7190
.7517
.7823
.8106
.8365
.8599
.8810
.8997
.9162
.9306
.9429
.9535
.9625
.9699
.09
.5359
.5753
.6141
.6517
.6879
.7224
.7549
.7852
.8133
.8389
.8621
.8830
.9015
.9177
.9319
.9441
.9545
.9633
.9706
Area a sinistra di z = 1.47
z
1.3
1.4
1.5
.00
.9192
TABLE A
STANDARD NORMAL PROBABILITIES (p.2)
.01
.02
.03
.04
.05
.06
.07
.9207
.9222
.9236
.9251
.9265
.9279
.9292
Tabelle on line:
http://econ.lse.ac.uk/ie/iecourse/
ec220course_statstables0203.pdf
.08
.09
.9306
.9319
-z
+z
Quali sono gli estremi dell’intervallo che contiene il
95% dei valori centrali? Cosa si può dire in tal caso
delle code della distribuzione?
La distribuzione normale
• Esempio. La distribuzione del livello di
colesterolo in un’ampia fascia di popolazione
della stessa età e dello stesso sesso è
approssimativamente normale. Per i ragazzi
di 14 anni la media è µ = 170mg di
colesterolo per decilitro di sangue (mg/dl) e
la dev. st. è σ = 30mg/dl. I livelli sopra
240mg/dl richiedono attenzione medica.
• Quale percentuale di ragazzi di 14 anni ha
più di 240mg/dl di colesterolo?
• 1) Scriviamo il problema. Sia x il livello di
colesterolo nel sangue. x ~ N(170,30).
Bisogna trovare la percentuale di ragazzi con
x>240.
• 2) Standardizziamo.
x > 240
x-170 > 240-170
30
30
z > 2.33
• 3) Usiamo le tavole.
P(z < 2.33)= 0.9901. Poichè 1-0.9901=0.0099
diciamo che circa l’1% dei ragazzi ha un
livello di colesterolo superiore a 240mg/dl
Come si valuta la “normalità” di una
distribuzione di dati?
• Come possiamo giudicare se i dati
provengono da una distribuzione che può
essere approssimata con una normale?
• Gli istogrammi, i diagrammi ramo-foglia e
alcuni indici possono rivelare caratteristiche
tipicamente non normali:
outlier, asimmetria, interruzioni dei valori
(gap), clusters.
• Se i grafici appaiono abbastanza simmetrici e
unimodali occorre un metodo più sensibile,
che possa rivelare l’adeguatezza del modello
normale (simmetria, outlier, peso delle code).
Plot dei quantili normali: metodo grafico
di controllo della normalità dei dati
• Ordinare i dati osservati in ordine crescente, e
calcolare i percentili campionari.
• Esempio: la più piccola osservazione in un
insieme di 20 è il quinto percentile (5%),
l’osservazione successiva è il 10-mo percentile
(10%), ….
• Trovare i valori z corrispondenti (che
corrispondono agli stessi percentili):
z = -1.645 è il quinto percentile della
distribuzione normale standard, z = -1.282 è il
10-mo percentile, ….
Plot dei quantili normali
• Tracciare un grafico riportando
l’osservazione x sull’asse orizzontale e il
valore z corrispondente sull’asse verticale.
• Se i punti del grafico si dispongono vicino
a una retta, la distribuzione dei dati è
vicina a una distribuzione normale.
• Usare un computer
Lunghezze dei germogli in un
campione di 20
Valori ordinati
5°percentile
Produzione annuale di latte (libbre x 100) di 100 vacche Jersey
di 2 anni (Sokal, Rohlf p.104)
Histogram of latte prodotto (libbrex100)
Normal
30
Mean
StDev
N
25
Percent
20
15
10
5
0
40
50
60
70
80
90
latte prodotto (libbrex100)
100
66,68
11,33
100
53
54
55
56
56
57
58
58
61
65
69
70
74
82
89
98
Sia n=5
la prima
osservazione
corrisponde al
20mo
percentile
z1
20
z2 40
z3 60
z4 80 z5
100
L’area sotto la curva normale standard è stata divisa in 5 parti
uguali ciascuna con area uguale a 1/5. I punti zi dividono a
metà ciascuna delle 5 parti.
z1 corrisponde al 10mo percentile, z2 corrisponde al 30mo
percentile ecc.
• Per un insieme di n = 5 dati normalmente
distribuiti ci aspettiamo che corrispondano
al 10mo, 30mo, 50mo, 70mo, 90mo
percentile, ossia
percentile di xi = (i - 0.5)/n
Alcuni autori hanno scelto formule
leggermente diverse per calcolare il
percentile di xi ottenendo risultati
leggermente diversi. Ma si ottengono plot
essenzialmente uguali.
La variabilità
naturale dei dati
causa le
fluttuazioni dei
dati intorno alla
retta
I dati presentano una
lunga coda a sinistra
I dati presentano una
lunga coda a destra
Code corte rispetto alla
normale, ossia varianza
minore rispetto a una
normale
Code lunghe rispetto alla
normale, ossia varianza
maggiore rispetto a una
normale
Modelli matematici
• Le distribuzioni di probabilità (con le loro formule)
sono modelli matematici adatti a descrivere molti
fenomeni naturali.
• Sono distribuzioni di frequenze teoriche per le
popolazioni che forniscono una rappresentazione
idealizzata dei fenomeni stessi. Riportano
un’immagina compatta del modello complessivo dei
dati, prescindendo da irregolarità minori.
• E’ possibile incontrare distribuzioni di probabilità,
generate empiricamente, che non possono essere
descritte dai modelli noti.
L’analisi dei dati con una variabile
fare un grafico dei dati
interpretare ciò che si
vede: forma, centro,
dispersione, outlier
riassunto numerico? x , s,
sommario a 5 numeri
modello matematico?
quale distribuzione?
Riassunto
• Le distribuzioni normali sono rappresentate
da una famiglia speciale di curve di densità
simmetriche a forma di campana, chiamate
curve normali.
• La media µ e la deviazione standard σ
specificano completamente una
distribuzione normale N (µ, σ).
• La standardizzazione trasforma un valore x
nel corrispondente valore z = (x- µ)/ σ.
• Tutte le distribuzioni normali sono identiche
quando le osservazioni sono trasformate in
scala standardizzata.
• Tutte le distribuzioni normali soddisfano la
formula 68-95-99.7.
• I plot dei quantili normali permettono di
valutare “la normalità” di una distribuzione
di dati.
Relazioni tra 2 variabili quantitative
• Esempio: un modello di comportamento studiato dagli
ecologi mette in relazione la taglia delle specie carnivore
( massa corporea in kg) con il numero di carnivori della stessa
specie che vivono in una data area (abbondanza della
specie). Più precisamente occorre calcolare quanti carnivori
della stessa specie sono presenti ogni 10000 Kg di prede
nell’area. La tabella riporta i dati relativi a 25 specie di
carnivori. Il modello prevede che l’abbondanza della specie
(variabile di risposta) vari in funzione della massa corporea
(variabile esplicativa).
E’ stata effettuata una trasformazione logaritmica su
entrambe le variabili.
Specie
Massa x
corporea
Abbondanza Specie
y
donnola
0.14 Kg
0.16
0.55
1.3
1656.49
406.66
514.84
31.84
lupo etiope
2.02
2.16
3.19
15.96
145.94
21.63
lupo
volpe rossa
4.6
32.21
lince rossa
10.0
lince canadese
11.2
13.0
ermellino
mangusta
martora
volpino
volpe ( Manica)
volpe artica
tasso
coyote
Massa x
corporea
Abbon
danza y
14.5 Kg
20.0
25.0
25.0
2.70
0.46
1.61
0.81
46.0
46.5
50.0
0.62
6.17
2.29
puma
51.9
0.94
9.75
iena
58.6
0.68
4.79
7.35
leone
142.0
181.0
3.40
0.33
Lince asiatica
cane selvaggio
dhole
leopardo
ghepardo
tigre
orso polare
Come si esplora una relazione tra due
o più variabili quantitative?
Rappresentare graficamente i dati
Descrivere gli andamenti generali e le
eventuali deviazioni da tali andamenti
Se l’andamento generale è piuttosto
regolare, utilizzare un modello (matematico,
statistico) per descrivere tale andamento
Diagramma
di
dispersione
Come si interpreta un diagramma di
dispersione
• Cercare l’andamento generale (trend)
• L’andamento generale si descrive
attraverso la forma, la direzione e la forza
della relazione
• Attenzione agli outlier
• I carnivori più grandi sono meno abbondanti.
• Associazione negativa moderatamente forte (r =
-0.9124)
• La forma dell’associazione è lineare.
• Animali che vivono in parti del mondo diverse
tendono a seguire un modello comportamentale
analogo e piuttosto semplice.
• Potremmo usare questo modello lineare (a linea
retta) per predire l’abbondanza di altre specie
carnivore conoscendo la massa corporea.
A occhio non è
possibile
giudicare
quanto una
relazione
lineare sia
forte.
 necessario
un indice
numerico
Correlazione
La correlazione misura la direzione e la forza della
relazione lineare fra due variabili quantitative. La
correlazione è solitamente indicata con r.
Supponiamo di essere in possesso di n osservazioni
riguardanti le variabili x e y. I valori per la prima unità
sono x1 e y1, i valori per la seconda unità sono x2 e
y2 e così via. Le medie e le deviazioni standard delle
due variabili sono ¯x e sx per i valori x e ¯y e sy per i
valori y. Il coefficiente di correlazione r fra x e y è
dato da
-1≤ r ≤ 1
Attenzione all’uso della correlazione
• 1) La relazione tra le 2 variabili deve essere
rettilinea (lineare) non curvilinea
• 2) Non si può concludere che poiché 2 variabili
sono correlate in modo significativo, una è
necessariamente la causa dell’altra. Un fattore
nascosto può essere la causa della variabilità
delle 2 variabili.
• 3) Se r=0 (correlazione lineare non significativa)
può esistere una relazione non lineare tra le
variabili.
• 4) La correlazione non è una misura robusta.
Cosa rivela un diagramma di dispersione?
Trend
lineare con
una
dispersione
moderata e
costante
lungo la
linea di
tendenza
Cosa rivela un diagramma di dispersione?
Trend non lineare
con poca
dispersione dei
dati intorno alla
curva
Relazione forte
Trend non
lineare con
dispersione non
costante
intorno alla
curva
Relazione
debole
A e B sono outlier
Dopo un controllo
B si è rivelato un
errore mentre A
è sembrato un
valore possibile
Regressione lineare
• Retta di regressione. Modello statistico che
descrive la relazione lineare tra due variabili
quantitative
• Una retta di regressione:
• descrive come cambia (linearmente) una variabile
di risposta y quando cambia la variabile esplicativa
x,
• spesso viene usata per prevedere nuovi valori di y
da nuovi valori di x,
• determina quanta parte della variabilità (incertezza)
di y può essere spiegata dalla relazione lineare con
x, e quanta di questa variabilità resta non spiegata.
• Esempio: le colonie degli uccelli.
Alcuni biologi hanno osservato per 2 anni consecutivi 13
colonie di sparvieri. Nel secondo anno in ogni colonia è
stata rilevata sia la percentuale di esemplari ritornati (v.
esplicativa), sia il numero di nuovi esemplari (v. di risposta).
Percentuale
che ritorna x
Nuovi adulti y
Percentuale
che ritorna x
Nuovi adulti y
74
66
81
52
73
62
52
5
6
8
11
12
15
16
45
62
46
60
46
38
17
18
18
19
20
20
Le colonie degli uccelli
• Per gli uccelli che hanno vita breve,
generalmente l’associazione tra queste
variabili è positiva: le variazioni climatiche e
le provviste di cibo alternano l’arrivo e la
partenza delle popolazioni di uccelli nuovi e
vecchi.
• Diverso è il rapporto per gli uccelli che
vivono a lungo: l’associazione è negativa
dato che gli uccelli che ritornano
pretendono i loro territori nella colonia e
non lasciano spazio ai nuovi arrivati.
r=0.7485
residuo
residuo
residuo
residuo
La retta di regressione dei minimi quadrati
• La retta di regressione dei minimi
quadrati
• La retta di regressione di y su x trovata
con il metodo dei minimi quadrati è la
linea retta che rende minima
la somma dei quadrati delle distanze
verticali tra i punti osservati e la retta
stessa. Tali distanze sono dette anche
residui o errori di previsione.
Retta di regressione dei minimi quadrati: formule
Supponiamo di avere dei dati su una variabile esplicativa x
e su una variabile di risposta y per n unità. In base ai dati,
ricaviamo le medie ¯x e ¯y e le deviazioni standard sx e sy
delle due variabili e la loro correlazione r. La retta di
regressione dei minimi quadrati è la linea
con coefficiente angolare
e intercetta
L’espressione del coefficiente angolare suggerisce che lungo
la retta, una variazione di una deviazione standard in x corrisponde ad una variazione di r deviazioni standard in y.
La retta di regressione
• La retta di regressione per l’esempio è:
ŷ = 31.9 – 0.3040x
ŷ =13.69
ad es. per x = 60 
• Il coefficiente angolare misura quanto cambia ŷ
quando x aumenta di 1 e dipende dalle unità di
misura di x e y.
• Nell’esempio, b=-0.3040 ci dice che per ogni punto
percentuale in più di “rientri” è possibile prevedere
circa 0.3 nuovi esemplari in meno.
• L’intercetta è il valore di ŷ quando x=0.
• Nell’esempio, x=0 equivale alla scomparsa della
colonia, perché nessun esemplare ritorna, perciò il
valore ŷ =31.9 non ha significato.
• Si possono fare previsioni con la retta.
• Nell’esempio, si può prevedere il numero di nuovi
esemplari quando si ha il 60% di “rientri”. Si avrà
ŷ = 13.69 che è un valore “in media” quando si
considerano più colonie con il 60% dei rientri.
ŷ
Residui
Il residuo è la differenza fra un valore osservato
della variabile di risposta e il valore previsto
dalla retta di regressione. Vale a dire
residuo = y osservato-y previsto
= y - ŷ
La somma dei residui dei minimi quadrati è pari a zero e perciò la
loro media è sempre zero
Grafico dei residui
Un grafico dei residui è un diagramma a dispersione
in cui i residui della regressione vengono rappresentati
rispetto alla variabile esplicativa.
I grafici dei residui aiutano a valutare l’adattamento
ai dati della retta di regressione.
Grafico dei residui
Posizionando la retta di regressione orizzontalmente, il grafico
permette di valutare meglio le deviazioni dei punti dalla retta.
Sarà più facile notare osservazioni anomale o comportamenti
Devianza spiegata e totale
• ESS= Varianza dei dati acquisiti dalla
retta di regressione rispetto alla media
• TSS= vera varianza dei dati
Variabilità della y spiegata e non spiegata dal modello
x,y
deviazio
ne tot.
y - y¯
deviazione non
spiegata
y - y^
x,y^
deviazione
spiegata y^ - y¯
x,y¯
media di y
retta di
regressione
Come si valuta la bontà del modello?
• Per valutare la bontà del modello si può considerare r2
• r2 è la proporzione di variabilità dei valori di y spiegata dal
modello di regressione di y su x.
variabilità spiegata
r2 = ------------------------- = coefficiente di determinazione
variabilità totale
Nell’esempio, r2 = 0.5603, ossia circa il 56% della variabilità
dei nuovi esemplari è spiegata tramite la relazione lineare
con la percentuale dei rientri. Osservando la figura, si vede
che il numero di nuovi esemplari che si aggiungono alla
colonia varia da 5 a 20 . Parte di questa variabilità di y è
spiegata dal fatto che la percentuale x dei “rientri” varia dal
38% all’81%.
r2 varia tra 0 e 1.
r2 prossimo a 1  buon adattamento
della retta di regressione ai dati
osservati.
r2 prossimo a 0  cattivo adattamento
della retta di regressione ai dati
osservati.
• Ma esiste anche una certa variabilità al di sopra e
al di sotto della retta che non può essere spiegata
dalla relazione lineare tra x e y.
• Nell’esempio: r = - 0.7485 e r2 = 0.5603. 44%
della variabilità totale è la variabilità interna delle
colonie che non è spiegabile dalla relazione
lineare.
• Nell’esempio dei carnivori ( r = -0.9124, r2 =
0.8325).
• Più dell’83% della variabilità nell’abbondanza dei
carnivori è spiegata dal modello lineare.
• Solo il 17% è la variabilità fra le specie con la
stessa massa.
• r2 non è il fattore più importante per valutare la
bontà del modello. Si possono osservare valori di
r2 vicini a 1 in regressioni in cui l’analisi dei residui
mostra l’inadeguatezza del modello.
Osservazioni influenti
• Outlier e osservazioni influenti nella
regressione
• Un outlier è un’osservazione che non segue il
modello generale assunto dalla maggior parte
delle osservazioni. I punti che, guardando un
diagramma di dispersione, possiamo
considerare outlier in direzione di y, hanno
residui elevati.
• Un’osservazione è influente se, eliminandola,
cambierebbe profondamente il risultato. I punti
che, in un diagramma di dispersione, possiamo
considerare outlier in direzione della x sono
spesso punti influenti nella determinazione della
retta di regressione dei minimi quadrati.
Attenzione all’estrapolazione
• Estrapolazione
• L’estrapolazione è l’utilizzo della retta di
regressione per fare previsioni al di fuori
dell’intervallo di valori, della variabile
esplicativa x, utilizzati per ottenere la linea.
Previsioni di questo tipo sono spesso
piuttosto imprecise.
Attenzione alla variabile nascosta
Variabile nascosta
Una variabile nascosta è una variabile che
ha un effetto importante sulla relazione fra le
variabili analizzate, ma che non è stata presa
in considerazione nello studio.
La correlazione e la regressione possono
essere ingannevoli se si ignorano variabili
nascoste significative.
Le associazioni non implicano rapporti di
causa ed effetto
• Le associazioni non implicano causa/effetto
• Un’associazione fra una variabile esplicativa x e
una di risposta y, anche se molto forte, non
comporta necessariamente che y venga modificata
ad opera di x.
• Esempio: esiste un’alta correlazione positiva tra il
numero di televisori per persona x e la vita media y
per diverse nazioni del mondo: nelle nazioni con
molti televisori si vive più a lungo (la ricchezza di
una nazione può essere una variabile nascosta).
• Correlazione spuria. Non c’è rapporto causa/effetto.
• In generale è consigliabile essere cauti
nell’affermare che esiste una relazione
causa-effetto fra 2 variabili, solo perché
sono associate fortemente.
• Una forte correlazione non implica
necessariamente un rapporto di causalità.
• Il modo migliore per valutare gli effetti di x
su y è attraverso un esperimento controllato
in cui modificando x si mantengono le
variabili nascoste sotto controllo.