LEZIONI DI
STATISTICA
MEDICA
Docente: Elisa Bianchini
Centro di Coordinamento Sperimentazioni Cliniche
U.O. Biostatistica
Presidio Villa delle Rose
Via Cosimo il Vecchio, 2 Firenze
Tel:055/32 697 947
[email protected]
 COS’E’ LA STATISTICA
La Statistica è la disciplina che comprende le tecniche
adatte alla raccolta, all’elaborazione dei dati e che
consente di trarre da essi delle informazioni.
 PERCHE’ CONOSCERE LA
SATISTICA


Leggere, comprendere ed analizzare
criticamente relazioni e documenti scientifici
Possibilità di effettuare ricerche che
comportino l’acquisizione, l’elaborazione e
l’analisi dei dati
LA STATISTICA MODERNA
OBIETTIVI
STATISTICA DESCRITTIVA

Raccolta dei dati

Sintetizzare le informazioni

Elaborazione numerica dei dati

Agevolare l’analisi e i processi
decisionali
STATISTICA INFERENZIALE

Trarre conclusioni sull’intera
popolazione, anche quando si
conoscono solamente i dati di 1 o
piu’ campioni
Procedimento che consente di pervenire
ad una conclusione su una popolazione di
interesse sulla base dell’informazione
contenuta in un campione che è stato
estratto da quella popolazione
insieme dei metodi che riguardano
raccolta, presentazione e sintesi di un
insieme di dati per descriverne le
caratteristiche essenziali
LA BIOSTATISTICA
Si occupa di acquisire ed elaborare informazioni su uno o più
fenomeni relativi alle scienze biologiche ed alla medicina
 lo scopo è quello di produrre statistiche, ovvero descrizioni
riassuntive di carattere quantitativo, riguardanti il collettivo di
interesse (popolazione o campione)
si parte dalla definizione degli obiettivi della ricerca e con
essa si programma la raccolta dei dati in funzione dei confronti
da effettuare.
lo studio prosegue con l’analisi dei dati e finisce con una
presentazione dei risultati ottenuti
La statistica interviene in tutte le tappe
CONCETTI DI BASE (1)
DATI
sono il materiale di base della statistica.
In Statistica si possono trovare dati che provengono o da Misure (peso, altezza,
temperatura …) oppure da Conteggi (# pazienti, # infortuni …)
LE FONTI DEI DATI
Entità attraverso la quale possono essere acquisite le informazioni necessarie
all’indagine.
•Rilevazioni periodiche (SDO, Cartelle Cliniche..)
•Indagini (Survey)
•Esperimenti
•Fonti esterne (Banche dati ISTAT, rapporti già pubblicati..)
CONCETTI DI BASE (2)
POPOLAZIONE
insieme finito o infinito di tutti i possibili elementi, di unità o individui
che sono soggetto della ricerca.
Queste, non interessano prese singolarmente ma per il contributo che
danno alle proprietà statistiche dell'insieme di appartenenza.
Con N si indica il numero complessivo di unità componenti la popolazione
Definire la popolazione obiettivo significa individuare con esattezza la
natura dei suoi elementi componenti, cioè delle unità oggetto di studio, e
la sua estensione spaziale e temporale.
CONCETTI DI BASE (3)
DALLA POPOLAZIONE AL CAMPIONE
Dal momento in cui è difficile ricavare misurazioni di una particolare
variabile per tutte le unità di una popolazione, si raccolgono informazioni
da un sotto-insieme che rappresenta il gruppo nella sua totalità:
CAMPIONE: un qualsiasi sottoinsieme di n unità della popolazione.
- L’aggregato rappresentato dal campione è la “popolazione di
riferimento”.
-Le unità che appartengono al campione sono dette “unità campionarie”
VARIABILE
CARATTERISTICA DI UNA POPOLAZIONE, CHE DIFFERISCE DA
INDIVIDUO A INDIVIDUO
Esempio di variabili sono: età, altezza, peso, temperatura, frequenza dei battiti
cardiaci, mobilità articolare, numero infortuni, tipo di malattia professionale, etc…
TIPOLOGIA DI VARIABILI

VARIABILI QUALITATIVE
Rappresentano caratteristiche o qualità delle unità statistiche che non
possono essere misurate (nel senso usuale del termine) ma solo
classificate
Esempio: diagnosi di malattia, appartenenza ad un gruppo etnico..

VARIABILI QUANTITATIVE
Rappresentano caratteristiche delle u.s. che forniscono informazioni sulla
loro grandezza
Esempio: statura, peso alla nascita, etc…
DATI NOMINALI:
Misure caratterizzate da presenza/assenza di una certa caratteristica,
ovvero che possono assumere solo modalità qualitative non ordinabili.
-
modalità senza un ordine naturale
-
i dati possono essere raggruppati in categorie, eventualmente
identificati con simboli (1,2; classe 1, classe, 2 etc)
-
gli individui attribuiti a classi diverse sono tra loro differenti; quelli
della stessa classe sono tra loro equivalenti rispetto alla proprietà
utilizzata nella classificazione
-
l'attribuzione di numeri per identificare le varie categorie nominali
(es.: i giocatori di squadre) non autorizza ad elaborare quei numeri
come tali
-
quesiti statistici: frequenze degli individui per categoria, per
confronti tra loro o rispetto a valori attesi
-
modalità mutuamente esclusive
• I dati nominali che possono assumere solo due valori distinti sono
chiamati DICOTOMICI
Es: sesso, stato civile, fumatore/non fumatore….
• I dati nominali che possono invece assumere più di 2 valori sono
chiamati POLITOMICI
Es: gruppo sanguigno, stagioni….
DATI ORDINALI:
Caratteri con modalità qualitative (categorie) con un proprio ordine
naturale (grado di ansietà, intensità di colore, scala di gravità di una ferita…)
- alla proprietà di equivalenza tra gli individui della stessa classe si
aggiunge quella di gradazione tra le classi
-impossibilità di valutare la distanza tra livelli (es.: tra insufficiente e
sufficiente c’è una distanza diversa che tra buono ed ottimo?)
- i valori numerici esprimono soltanto il grado di intensità, la differenza tra
le modalità non necessariamente deve essere costante passando da una
categoria all’altra
- modalità mutuamente esclusive
DATI DISCRETI:
misure quantitative per le quali è possibile operare confronti, per
differenza, tra le modalità
- modalità mutuamente esclusive e con un ordine naturale
- i valori numerici possono essere confrontati tra loro e le differenze
possono essere manipolate numericamente
- possono assumere solo valori specifici
Es: numero di incidenti stradali in un giorno, il numero di parti di una donna,
il numero di nuovi casi di tubercolosi in 1 anno…
DATI CONTINUI
caratteri quantitativi che possono assumere qualsiasi valore (altezza,
peso, età, reddito, temperatura in gradi etc…)
- modalità mutamente esclusive e con un ordine naturale
- non solo le differenze ma gli stessi valori possono essere moltiplicati o
divisi per quantità costanti senza che l'informazione ne risulti alterata
-0 (zero) significa quantità nulla
Osservazione 1: Le misure continue risentono dell’accuratezza dello
strumento di misurazione, più questo è accurato più sono i dettagli che
si possono conoscere sui nostri dati
Osservazione 2: E’ possibile ridurre il dettaglio passando da una
variabile continua ad una discreta o ordinale, questo è possibile creando
delle classi di dati.
IL PIANO DI RACCOLTA DATI
La statistica non interviene soltanto nella fase finale di una ricerca,
quando i dati sono già stati raccolti e vanno analizzati.
Se i dati sono carenti (disegno dello studio non adeguato, dati di scarsa
qualità …) i risultati di qualsiasi elaborazione statistica saranno affetti
dagli stessi errori.
- I dati devono essere raccolti seguendo procedure che ne garantiscano
precisione e accuratezza
- I dati devono essere pertinenti al problema sia rispetto alle variabili che
si intendono rilevare sia alle unità che si scelgono di studiare
PRECISIONE: è quella proprietà per cui la procedura tende a
fornire misure (stime) tra loro molto prossime (bassa variabilità). La
precisione è direttamente proporzionale alla numerosità campionaria
(è massima nelle indagini esaustive)
ACCURATEZZA: è quella proprietà per cui la procedura tende a
fornire misure (stime) coincidenti con la quantità effettivamente
misurata. L’inaccuratezza di un’indagine può provenire da errori di
rilevazione e/o dal passaggio dei dati su un supporto adeguato per
l’elaborazione automatica (errori di trascrizione). L’accuratezza
decresce all’aumentare della dimensione del campione!
Piano di raccolta dati (2)
PERTINENZA DELLE VARIABILI
- Modalità operativa di rilevazione
- Associazione al fenomeno che indaga
Esempio: Studio dell’invecchiamento biologico sulla mortalità in
età avanzate
Variabile pertinente  età in anni
Esempio: Studio della mortalità neonatale
Variabile pertinente  età in giorni
Piano di raccolta dati (3)
PERTINENZA DELLE UNITA’ STATISTICHE
- Unità di osservazioni pertinenti sono soggetti che possano
sia aver subito l’esposizione di interesse sia manifestare
l’effetto considerato
Esempio: Studio sull’effetto cancerogeno a livello uterino
dell’assunzione di farmaci
Unità non pertinenti  donne che hanno subito isterectomia
L’ANALISI DEI DATI
TRA LA SERIE GREZZA DI DATI (MISURE), OTTENUTI
ATTRAVERSO UNA RILEVAZIONE, E I RISULTATI DI UNO
STUDIO O DI UN ESPERIMENTO SI DEVE COLLOCARE
UN’INTELLIGENTE E CREATIVA MANIPOLAZIONE DEI DATI
LA STATISTICA DESCRITTIVA ORGANIZZA E
SINTETIZZA LE OSSERVAZIONI STATISTICHE E
CONSENTE UNA VISONE DI INSIEME SULLE
CARATTERISTICHE GENERALI DI UNA SERIE DI DATI
LA STATISTICA INFERENZIALE DEFINISCE LE
CARATTERISTICHE DI UNA POPOLAZIONE, DELLA QUALE
NON SI PUO’ AVERE UNA CONOSCENZA ESAUSTIVA,
ATTRAVERSO LO STUDIO DELLE CARATTERISTICHE DI UN
CAMPIONE DA ESSA ESTRATTO
STRUMENTI DI SINTESI
- DISTRIBUZIONI DI FREQUENZA
- GRAFICI
- MISURE DI SINTESI NUMERICA
!!!PRIMA DI DECIDERE QUALE TECNICA SIA LA
PIU’ ADATTA IN UNA DETERMINATA
SITUAZIONE E’ NECESSARIO AVERE CHIARO
IL TIPO DI DATI CHE SI DEVONO
MANIPOLARE
DISTRIBUZIONI DI FREQUENZA
Prima di qualunque elaborazione, una serie di dati va ordinata e
sintetizzata in una DISTRIBUZIONE DI FREQUENZA (o di
intensità).
Una serie non ordinata non permette quasi mai di evidenziare le
caratteristiche del fenomeno in esame.
Una Distribuzione di Frequenza è una rappresentazione
tabellare per variabili qualitative o per variabili quantitative
discrete.
Nella tabella sono riportate:
• le modalità della variabile
• le frequenze associate a ciascuna modalità
Frequenza assoluta
Misura quante volte una certa modalità è stata osservata nel collettivo
studiato. Solitamente si indica con il simbolo ni
Frequenza relativa
Rappresenta la proporzione (talvolta in percentuale) di osservazioni che
presentano una certa modalità della variabile analizzata
pi = (ni/n)×100
Frequenza cumulata
La frequenza cumulata assoluta (relativa) associata ad una modalità
della variabile indica il numero (la proporzione) di osservazioni che
presentano un valore minore o uguale rispetto a quello della modalità
Si indica con Ni (assoluta) e con Pi (relativa)
Si può utilizzare solo se il carattere è misurato almeno su scala
ordinale
DISTRIBUZIONI DI FREQUENZA PER DATI ORDINALI
n: numero di soggetti in ciascuna categoria della variabile
i: modalità del carattere
Proporzione (Fr.relativa): ni/numero totale di soggetti
% = proporzione * 100
% CUMULATA
14%
42%
67%
81%
100%
!!!!! % CUM: La
frequenza cumulativa è
somma della frequenza
delle osservazioni
con valore della
variabile inferiore od
uguale al valore
considerato.
DISTRIBUZIONE DI FREQUENZA PER DATI DISCRETI
Conteggio del numero di foglie (variabile discreta)
spuntate su 30 rami di uguale lunghezza di una pianta in
un dato intervallo di tempo :
563472323264393203346542367342
var1 |
Freq.
Percent
Cum.
-----------+----------------------------------0 |
1
3.33
3.33
2 |
6
20.00
23.33
3 |
9
30.00
53.33
4 |
5
16.67
70.00
5 |
2
6.67
76.67
6 |
4
13.33
90.00
7 |
2
6.67
96.67
9 |
1
3.33
100.00
-----------+----------------------------------Total |
30
100.00
VANTAGGI E SVANTAGGI DELLE DISTRIBUZIONI
DI FREQUENZA
+ Non si perde informazione rilevante (solo l’ordinamento va perduto)
- Scarso potere di sintesi se le modalità sono numerose
- Non utilizzabile per variabili continue
In realtà l’ultimo punto non è del tutto vero ...
DISTRIBUZIONI DI FREQUENZA PER VARIABILI
CONTINUE
Se siamo disposti a rinunciare ad ulteriore informazione, la
distribuzione di frequenza può essere costruita anche per
variabili continue
Generalmente si opera nel modo seguente:
• si suddivide l’insieme dei valori che la variabile può assumere in
intervalli, detti classi
• si determina il numero di osservazioni che cadono all’interno di
ciascuna classe
ESEMPIO:
QUANTE CLASSI ?
Non esistono regole assolute per la costruzione delle classi
In generale è buona norma:
• evitare di costruire classi con frequenze molto basse. Infatti se il
numero di classi è troppo basso: perdita d’informazione sulle
caratteristiche della distribuzione e la rende non significativa
• evitare di costruire classi con frequenze molto alte. Infatti se il
numero di classi è troppo alto: non si manifesta con evidenza la forma
della distribuzione
• modulare l’ampiezza delle classi in funzione della disponibilità di
informazione “locale” (elaborazioni precedenti o analoghe)
• se possibile, non variare l’ampiezza di classe (semplifica
l’interpretazione)
• una regola di buon senso comunemente usata indica che il numero di
classi dovrebbe variare tra 6 e 15
DEFINIRE LE CLASSI
1. definire il valore Massimo e Minimo della variabile
2. definire il numero delle classi (normalmente min 6 max 15)
3. definire l’ampiezza delle classi ((max-min):#classi)
4. predisporre l’elenco delle CLASSI, se ordinali riportarle in
ordine crescente e contare le osservazioni per ciascuna CLASSE
(frequenza assoluta)
5. calcolare le corrispondenti proporzioni (eventualmente
riportarle come percentuali – “frequenze relative”)
6. calcolare le frequenze cumulative (somma della frequenza delle
osservazioni con valore della variabile inferiore od uguale al
valore considerato) e le relative proporzioni o percentuali
cumulate.
ESEMPIO
Età dei 189 soggetti che parteciparono ad uno studio sull’efficacia di 3
terapie per smettere di fumare, combinate con una terapia cognitivocomportamentale.
LE DISTRIBUZIONI BIVARIATE
Spesso accade che si ottenga più di una osservazione da una unità (ad esempio si
possono misurare peso e altezza, sesso ed età, numero infortuni e giorno della
settimana, etc..INSIEME DI OSSERVAZIONI DI DUE VARIABILI DA OGNI
UNITA' IN UN CAMPIONE (O POPOLAZIONE) SONO CHIAMATI DATI
BIVARIATI
DISTRIBUZIONE DEL NUMERO DI MALATTIE PROFESSIONALI SEGNALATE DALLE A.S.L.TOSCANE DAL
2000 AL 2004 PER SESSO PER SOGGETTI NATI ALL’ESTERO
NAZIONE ESTERA DI NASCITA
MASCHI
FEMMINE
TOTALE
2
26
ALBANIA
24
BULGARIA
1
1
FRANCIA
1
1
IUGOSLAVIA (fino al 3 feb 2003)
2
2
POLONIA
1
1
ROMANIA
6
6
SVIZZERA
2
2
UCRAINA (dal 24 ago 1991)
1
1
UNGHERIA
CROAZIA (dal 8 ott 1991)
1
MOLDAVIA (dal 27 ago 1991)
CEYLON (SRI LANKA)
1
TOTALE
40
1
1
1
2
1
1
1
5
45
RAPPRESENTAZIONI GRAFICHE
L’INFORMAZIONE CONTENUTA IN UNA TABELLA NON E’ SUBITO
EVIDENTE.
AL FINE DI SEMPLIFICARE L’INTERPRETAZIONE DELL’INFORMAZIONE,
E PER FISSARE MODELLI E ANDAMENTI, I DATI POSSONO ESSERE
ELABORATI E TRASFORMATI MEDIANTE RAPPRESENTAZIONE VISIVA
ne esistono di svariati tipi, a seconda delle esigenze di analisi
alcune riproducono le stesse informazioni di una distribuzione di frequenza,
altre riassumono caratteristiche difficilmente rappresentabili mediante
tabelle
forniscono una sintesi visiva delle caratteristiche fondamentali delle
distribuzioni
DIAGRAMMI A BARRE PER DATI QUALITATIVI
Si tratta di rettangoli con basi uguali ed altezze proporzionali alle
intensità (o frequenze) corrispondenti ai vari gruppi considerati
• quando non esiste una logica specifica nell'ordine, i rettangoli o
colonne vengono disposti dal maggiore al minore
• se le classi qualitative sono composte da sottoclassi, è possibile
anche questa ulteriore rappresentazione grafica dividendo il
rettangolo relativo in più parti, le cui altezze devono essere
proporzionali alle frequenze delle sottoclassi
• avendo basi uguali, le aree sono proporzionali alle altezze,
pertanto anche i diagrammi a rettangoli distanziati sono
rappresentazioni areali
ISTOGAMMA DI UNA VARIABILE NOMINALE
CONFRONTO TRA REGIONE LOMBARDIA E REGIONE TOSCANA
SULLA DISTRIBUZIONE DI MALATTIE PROFESSIONALI SEGNALATE
PER FONTE DI SEGNALAZIONE
Toscana 2000-2004 % MP segnalate
Lombardia 1999-2003 % MP segnalate
Serv.PSAL
Patronato
Ospedale
Med.Spec.
Med.Base
Med.Az.
Ist.Univ.
Isp. Lav.
INAIL
Altro
A.Giud.
0.00
5.00
10.00
15.00
20.00
25.00
30.00
35.00
40.00
45.00
50.00
55.00
60.00
65.00
70.00
ISTOGRAMMA
Secondo L'UNI 4723 un istogramma è definito come la
"rappresentazione grafica di una distribuzione di frequenza di una
caratteristica costituita da una successione di rettangoli aventi come base
l'intervallo delle classi e come altezza un valore corrispondente alla frequenza
corrispondente“
L'istogramma è una rappresentazione grafica dei dati raccolti che presenta i
dati in una forma che rende più chiara la tendenza centrale e la dispersione
lungo la scala di misura, come anche la frequenza relativa dei singoli valori.
ISOGRAMMA PER DATI QUANTITATIVI:
- i rettangoli devono essere contigui
- gli intervalli devono essere definiti in modo che tutte le possibili
osservazioni cadano in una ed una sola classe
- è opportuno inoltre che gli intervalli siano di uguale ampiezza (se possibile)
Istogramma di frequenza
In un istogramma di frequenza ad ogni classe è associato un
rettangolo:
• la base del rettangolo è pari all’ampiezza di classe
• l’altezza del rettangolo è pari alla densità di frequenza, ovvero al
rapporto tra la frequenza e l’ampiezza di una classe
• l’area del rettangolo è per costruzione la frequenza (assoluta o
relativa) associata alla classe
ESEMPIO
ISTOGRAMMA SULLA VARIABILE ETA’ IN CLASSI
ISTOGRAMMA DELLE FREQUENZE RELATIVE
ISTOGRAMMA DELLE FREQUENZE CUMULATE
CARATTERISTICHE DELL’ISTOGRAMMA
Da un istogramma è possibile desumere alcune rilevanti caratteristiche
del fenomeno, per esempio:
• tendenza centrale
• dispersione
• grado di simmetria della distribuzione
Vantaggi e svantaggi delle rappresentazioni grafiche
+ Conservano la maggior parte dell’informazione contenuta nei dati
+ Sono di immediata comprensione
- Nonostante la (presunta) semplicità, non sempre è chiaro quale sia
la rappresentazione da utilizzare
- Possono essere usati in modo strumentale
COME MENTIRE CON UN GRAFICO
Rappresentazione ingannevole
Rappresentazione corretta
ALCUNE ALTRE RAPPRESENTAZIONI GRAFICHE
- Grafico circolare a a torta
- Diagrammi a barre orizzontali
- Diagrammi a punti o di dispersione
IL GRAFICO CIRCOLARE (O TORTA)
Mostra parti costitutive di un intero,come sezioni di un’unità
circolare. Caratteristiche sono la chiarezza e comprensibilità dovute
proprio al fatto che permette un confronto immediato tra più parti
percentuali di un insieme.
ESEMPIO DI GRAFICO CIRCOLARE (O TORTA)
ESEMPIO DI DIAGRAMMA A BARRE
IL DIAGRAMMA DI DISPERSIONE
Presenta i dati tracciati tra ascisse e ordinate, ma non connessi da alcuna
linea. Viene rappresentata l’influenza di una variabile su di un’altra e la
loro relazione funzionale.
ES: Distribuzione di una variabile continua (Concentrazione di Emoglobina),
separatamente per i due sottogruppi definiti dalla variabile Menopausa (0= no,
1= si).
ESEMPIO DI DIAGRAMMA DI DISPERSIONE
GLI INDICI SINTETICI
Le caratteristiche più rilevanti di una distribuzione, per esempio
• la tendenza centrale del fenomeno
• il grado di dispersione
• la simmetria
possono essere rappresentate mediante numeri, detti indici sintetici
Misure di tendenza centrale
Misure di Variabilità
MISURE DI TENDENZA CENTRALE
Le misure di tendenza centrale o posizione servono per
individuare il valore intorno al quale i dati sono raggruppati;
La tendenza centrale è la misura più appropriata per sintetizzare
l'insieme delle osservazioni, se una distribuzione di dati dovesse
essere descritta con un solo valore; è la prima indicazione della
dimensione del fenomeno.
Le misure proposte sono essenzialmente 3: la media, la moda e
la mediana.
La scelta della misura di tendenza centrale di una serie di dati
dipende dalle caratteristiche della distribuzione e dal tipo di
scala.
LA MEDIA ARITMETICA
La media può essere vista come il baricentro della distribuzione
campionaria, quando ogni singola osservazione è rappresentata da un
peso convenzionale, identico per tutte, lungo l'asse che riportai valori su
una scala di intervalli o di rapporti.
Per dimostrare graficamente che la media aritmetica corrisponde al
punto di bilanciamento o di equilibrio dei dati, si supponga di avere 5
misure: 10,9 11,5 12,3 12,8 15,4.
La loro media è uguale a 12,58.
La rappresentazione grafica dei dati e della media, riportata nella figura
seguente, mostra visivamente come la somma della distanza dalla media
dei valori collocati prima sia uguale alla somma della distanza dei valori
collocati dopo.
ESEMPIO
Da un gruppo di 25 dati, raggruppati nella seguente
distribuzione in classi calcolare la media.
Classe
xi
155
165
175
185
195
Frequenza
fi
3
5
8
6
3
Applicando la formula della media ponderata otteniamo
LA MEDIA ARITMETICA PER DISTRIBUZIONI
DI FREQUENZA
ESEMPIO 1:
Da un gruppo di 25 dati, raggruppati nella seguente
distribuzione in classi calcolare la media.
Applicando la formula della media ponderata otteniamo
LA MODA
La moda (detta più raramente anche dato prevalente) è il valore
più frequente di una distribuzione.
- Non è influenzata dalla presenza di nessun valore estremo;
tuttavia viene utilizzata solamente a scopi descrittivi, perché è
meno stabile e meno oggettiva delle altre misure di tendenza
centrale.
Può infatti differire nella stessa serie di dati, quando si formano
classi di distribuzione con ampiezza differente. Per individuare la
moda entro una classe di frequenza, non conoscendo come i dati
sono distribuiti, si ricorre all'ipotesi della uniforme ripartizione.
- Oltre alle distribuzioni di frequenza che hanno una sola moda e
che si chiamano distribuzioni unimodali, si trovano distribuzioni di
frequenza che presentano due o più mode; sono denominate
distribuzioni bimodali o plurimodali.
Le distribuzioni plurimodali possono essere il risultato della scarsità
di osservazioni o dell’arrotondamento dei dati.
Di norma, sono dovute alla sovrapposizione di più distribuzioni con
tendenza centrale differente.
Per esempio, misurando le altezze di un gruppo di giovani in cui la
parte maggiore sia formata da femmine e la minore da maschi si
ottiene una distribuzione bimodale, con una moda principale ed una
secondaria, come la seguente.
Quando la distribuzione dei dati evidenzia due o più mode, il
ricercatore deve quindi sospettare che i dati non siano
omogenei, ma formati da altrettanti gruppi con differenti
tendenze centrali.
E’ pertanto errato fondare le analisi sulla media generale
della distribuzione, poiché non è vera l’assunzione
fondamentale che siano dati tratti dallo stesso universo o
popolazione con una sola tendenza centrale.
La media di una distribuzione bimodale, formata in quota pari
da maschi e da femmine, sarebbe un valore “assurdo” che non
descrive né i maschi né le femmine, ma un individuo
inesistente, non essendo né maschio né femmina.
LA MEDIANA
La mediana è il valore che occupa la posizione centrale in un
insieme ordinato di dati.
E’ una misura robusta, in quanto poco influenzata dalla presenza
di dati anomali.
La sua utilizzazione è indispensabile nel caso di scale ordinali o di
ranghi.
La sue caratteristiche più importante sono due:
-è calcolata sul numero di osservazioni; si ricorre al suo uso quando
si vuole attenuare l'effetto di valori estremi o comunque prendere
in considerazione solo l’informazione fornita dai ranghi;
- in una distribuzione o serie di dati, ogni valore estratto a caso ha
la stessa probabilità di essere inferiore o superiore alla mediana.
CALCOLO DELLA MEDIANA
- disporre i valori in una fila ordinata in modo crescente oppure
decrescente e contare il numero totale n di dati;
A: se il numero (n) di dati è dispari, la mediana corrisponde al valore
numerico del dato centrale, quello che occupa la posizione
(n+1)/2
B: se il numero (n) di dati è pari, la mediana è stimata utilizzando i due
valori centrali che occupano le posizioni n/2 e n/2+1;
(n/2 + (n/2)+1)/2
OSS: con poche osservazioni, come mediana viene assunta la media
aritmetica di queste due osservazioni intermedie; con molte osservazioni
raggruppate in classi, si ricorre talvolta alle proporzioni
ESEMPIO:
Calcolare la mediana nella serie di 6 dati: 10,1 10,8 13,1 13,9 14,2
14,5 .
- Il numero di osservazioni è pari e i due valori centrali sono 13,1 e
13,9; la mediana è individuata dalla loro media aritmetica e quindi è
uguale a 13,5.
Per meglio comprendere le differenze tra media aritmetica e
mediana, con la stessa serie di 6 dati (10,1 10,8 13,1 13,9 14,2 14,5 )
in cui
- la media è 12,85 e la mediana 13,5
la rappresentazione grafica evidenzia come la media sia il
baricentro della distribuzione e la mediana sia collocata tra i valori
più addensati.
CALCOLO DELLA MEDIANA IN UNA DISTRIBUZIONE
DI FREQUENZA
Qualora sia disponibile la distribuzione di frequenza cumulata, la
mediana (classe mediana) corrisponde alla modalità (classe)
associata alla prima frequenza cumulata relativa superiore al 50%
La classe mediana della distribuzione è “Buono”
ESEMPIO RIASSUNTIVO
id
Peso
(Xi)
1
70
2
65
3
54
4
71
5
70
6
67
7
65
8
45
2) n=10
9
55
10
70
Moda = osservazione che si verifica con maggiore
frequenza
Moda=70 Kg
Media = i=1..n xi = (70+65+…..+55+70)/10=63,2
n
Mediana
1) Ordino i dati: 45 54 55 65 65 67 70 70 70 71
Se n dispari
Se n pari
XMed=X(n+1)/2
XMed=(Xn/2+X(n)/2+1)/2
XMed= (65+67)/2=66
GLI INDICI DI DIPERSIONE:
Media moda e mediana sono valori sintetici che indicano la “tendenza
centrale” della distribuzione, ma da soli non bastano per
descrivere una distribuzione
GLI INDICI DI DISPERSIONE:

cercano di misurare quanto i dati siano dispersi: più i dati sono
raggruppati , minore è il valore dell'indice di dispersione e maggiore
è la significatività dell'indice di posizione a rappresentare l'insieme
dei dati; viceversa, se i dati sono dispersi il valore dell'indice di
dispersione è alto e l'indice di posizione è poco significativo.

danno anche un'idea della significatività della media (e della
mediana e della moda), e vanno perciò sempre considerati
insieme.
Per questo fa un errore chi sostiene che la statistica sia una
materia opinabile indicando il classico esempio delle due persone con
a disposizione due polli che vengono mangiati dalla stessa, ma che in
media ne mangerebbero uno a testa. In questo caso il valore
dell'indice di dispersione è assai alto, indicando subito che la media
non ha assolutamente alcuna attendibilità.
IL CAMPO DI VARIAZIONE (O INTERVALLO DI VARIAZIONE O
RANGE)
E’ la differenza tra il valore massimo e il valore minimo
- intuitivo e semplice, in particolare quando i dati sono ordinati
- incapace di misurare come i dati sono distribuiti entro l'intervallo
- risente della presenza di valori anomali
QUANTILI (O FRATTILI) :
Sono misure di posizione non-centrale con esclusive finalità
descrittive (ogni gruppo parziale contiene la stessa frazione
di osservazioni)
- DECILI ––> dividono i dati ordinati in decine
- PERCENTILI ––> dividono i dati ordinati in centesimi
• Proprietà : individuano i valori che delimitano una % o
frazione stabilita di valori estremi (es.: nel monitoraggio
dell'inquinamento indicano i valori che rientrano nell’x% dei
massimi o minimi)
• Si usano :
- quando non si conosce la forma della distribuzione
- quando la distribuzione è fortemente asimmetrica
DIFFERENZA INTERQUARTILE
Differenza tra il 3° ed il 1° quartile. (tra il valore della mediana
della seconda metà e quello della mediana della prima metà
della distribuzione)
DIFF. INT. = 3q-1qs
Serve per eliminare il problema dei valori estremi
VARIANZA (O Quadrato Medio, Mean Square)
DEVIAZIONE STANDARD
Gradi di libertà:Poichè la somma degli
scarti dalla media è necessariamente
uguale a zero, fissata la media solo n
− 1 scarti sono liberi di variare (ossia
di assumere un qualunque valore). Lo
scarto rimanente deve assumere l’unico
valore che consente di soddisfare il
vincolo
DEVIAZIONE STANDARD PER DATI RAGGRUPPATI
x  175.4
S

f ( x  x) 2
n 1
S = [3*( 155-175.4)2+….3*(195-175.4)2]/24 = 12.06
IL COEFFICIENTE DI VARIAZIONE
Il coefficiente di variazione è dato da
• E’ un numero puro (adimensionale)
• Elimina l’effetto dell’intensità media del fenomeno studiato
• Serve per fare confronti
INDICI DI FORMA: ASIMMETRIA
-Nelle distribuzioni unimodali si ha simmetria quando media, moda e
mediana coincidono;
-l'asimmetria è detta destra (più correttamente, a destra) quando i
valori che si allontanano maggiormente dalla media sono quelli più elevati,
collocate a destra dei valori centrali; nell’asimmetria destra, la
successione delle 3 misure di tendenza centrale da sinistra a destra è:
moda, mediana, media;
- l'asimmetria è detta sinistra (o a sinistra) quando i valori estremi,
quelli più distanti dalla media, sono quelli minori Nell’asimmetria sinistra,
la successione delle 3 misure di tendenza centrale da sinistra a destra è
invertita rispetto all'ordine precedente: media,mediana, moda.
ESEMPI DI DISTRIBUZIONI ASIMMETRICHE
DIAGRAMMA A SCATOLA E BAFFI
I diagrammi Box-and-Whisker (scatola-e-baffi), chiamati anche
semplicemente boxplot e presentati in modo organico da John W. Tukey
nel suo testo del 1977 (Exploratory Data Analysis, pubblicato da
Addison-Wesley, Reading, Mass.), sono un metodo grafico diffuso
recentemente dai programmi informatici, per la facilità con la quale
possono essere costruiti.
Servono per rappresentare visivamente tre caratteristiche fondamentali
di una distribuzione statistica:
- il grado di dispersione o variabilità dei dati, rispetto alla mediana e/o
alla media;
- la simmetria;
- la presenza di valori anomali.
BOX-PLOT
Secondo il metodo originale proposto da Tukey nel 1977 e come
riportato nella figura precedente, la costruzione di un diagramma
Box-and-Whisker o boxplot è costruita di fianco ad una scala che
riporta le modalità o valori del carattere; tale diagramma:
a)ha origine da una linea orizzontale, interna alla scatola che
rappresenta la mediana, mentre
b) le due linee esterne orizzontali che delimitano la scatola
rappresentano il primo quartile (la linea inferiore indicata con Q1) e
il terzo quartile (la linea superiore indicata con Q3);
c) la distanza tra il terzo (Q3) e il primo quartile (Q1), detta
distanza interquartilica, è una misura della dispersione della
distribuzione. Tra questi due valori (Q1 e Q3) per definizione sono
compresi il 50% delle osservazioni.
Quindi un intervallo interquartilico piccolo indica che la metà delle
osservazioni ha valori molto vicini alla mediana. L’intervallo
aumenta al crescere della dispersione (varianza) dei dati. Inoltre,
esso fornisce informazioni anche sulla forma della distribuzione
(simmetria): se la linea inferiore e superiore hanno distanze
differenti dalla mediana, la distribuzione dei valori rilevati è
asimmetrica.
d) Le linee che si allungano dai bordi della scatola e si concludono
con due altre linee orizzontali (baffi) individuano gli intervalli in
cui sono posizionati i valori minori di Q1 (nella parte inferiore) e
quelli superiori a Q3 (nella parte superiore); questi punti estremi,
evidenziati dai baffi, sono i valori adiacenti.
e) Indicando con r la differenza interquartilica
r = Q3 – Q1
si definiscono
-Valore Adiacente Inferiore (VAI) il valore osservato
più piccolo che sia maggiore o uguale a Q1 - 1,5r
VAI ≥ Q1 - 1,5r
-Valore Adiacente Superiore (VAS) il valore osservato
più grande che risulta minore o uguale a Q3 + 1,5r
VAS ≤ Q3 + 1,5r
Il valore 1,5 proposto da Tukey non ha particolari proprietà; per
stessa affermazione di Tukey è stato scelto sulla base della sua
“esperienza”, del suo “buon senso” statistico.
f) Se i due valori estremi dei dati osservati sono contenuti entro
l’intervallo tra VAI e VAS, i due baffi rappresentano i valori estremi.
g) I valori esterni a questi limiti sono definiti valori anomali. Nella
rappresentazione grafica del box-plot, sono segnalati individualmente,
poiché costituiscono una anomalia rispetto agli altri dati della
distribuzione.
I valori che si discostano dalla mediana tra 1,5 e 3 volte
la distanza interquartile possono essere considerati nella
norma; quelli che si discostano oltre 3 volte dovrebbero
essere molto rari e meritano una verifica ulteriore, per
escludere con sicurezza banali errori di misura o
trascrizione.
Essi devono essere verificati, per capire le cause eventuali
che li hanno determinati e così apportare le eventuali correzioni.
h) Anche i due valori adiacenti, con la loro distanza dai quartili,
forniscono informazioni circa la variabilità dei dati e la forma della
distribuzione. Se la distribuzione è normale, nel box-plot le distanze
tra ciascun quartile e la mediana saranno uguali; così pure avranno
lunghezza uguale le due linee che partono dai bordi della scatola e
terminano con i baffi. In una distribuzione normale, essi distano dalla
mediana (me) una quantità pari a 2,69796 volte la deviazione standard
(σ). Questo intervallo comprende il 99,3% delle osservazioni