Igiene e sanità pubblica Prof. Paolo Contu Lezione 3 (I ora) 9 aprile

Igiene e sanità pubblica
Prof. Paolo Contu
Lezione 3 (I ora)
9 aprile 2013
Teresa Perra
COMUNICAZIONE: il 4 maggio avremo 5 ore di lezione e l’11 maggio avremo 4 ore di lezione.
Oggi facciamo la prima lezione di statistica, sostanzialmente. Siamo partiti l’altra volta sul fatto che noi
abbiamo due tipi di dati che dobbiamo cercare di interpretare e abbiamo visto i tipi di variabili. Abbiamo
anche visto come le variabili, che avevamo analizzato per quanto riguarda i determinanti di patologia
cardiovascolare, sono molte volte variabili quantitative, su cui poi vengono definite delle classificazioni che
le rendono qualitative, con due o tre classi o binarie, o con due classi ordinabili, dando dei cut-off, cioè dei
punti limite.
Il problema è che in molti altri casi noi non abbiamo una classificazione così chiara, perché mentre se la
variabile è quantitativa, è chiaro che io posso dire abbastanza facilmente che oltre un certo livello di
pressione arteriosa io lo considero iperteso e sotto quel livello lo considero normale, ed eventualmente
sotto un altro livello ipoteso; quando parliamo di altre variabili, dobbiamo costruire un criterio di
classificazione (per esempio vedremo qual è il criterio di classificazione che usiamo per classificare le
malattie). Però, prima di andare sulle malattie, vediamo quali sono i criteri sostanziali con cui si dovrebbe
cercare di classificare qualche cosa.
Un primo elemento è l’esaustività. Cosa vuol dire esaustività? É chiaro che se io faccio una classificazione
dei batteri (l’avete fatta
anche in microbiologia),
questa classificazione
deve comprendere tutti
i batteri, cioè non mi
può arrivare un batterio
che non mi sta in
nessuno di quei gruppi
(alla fine deve stare in
uno dei gruppi che ho
previsto
nella
mia
classificazione).
Qui parliamo della
Classificazione
Internazionale
delle
malattie (ICD) e anche
in questa è chiaro che
chiunque
vi
capiti
davanti, voi dovete
poterlo
classificare
dentro una classe di malattie, dentro una malattia (cioè ogni malattia deve essere prevista).
Se io faccio una classificazione in zoologia, ogni animale deve stare all’interno di quella classificazione, deve
trovare un suo spazio. Questa è l'esaustività.
Il secondo è la mutua esclusività, su cui abbiamo delle classificazioni tipo quella probabilmente zoologica,
che sono piuttosto ordinate, cioè non è che voi avete il dubbio di dove andare a mettere un canguro (un
canguro sta all'interno di una serie di classi, generi, specie, ecc., per cui il canguro sta certamente lì, c'è
tutta la filologia del canguro). Per i batteri è così? Cioè, se un qualunque batterio sta in una sola classe di
batteri, dovrebbe starlo anche se i criteri di classificazione cominciano a essere un po’ diversi. Perché voi
avete criteri Gram+ e Gram−, avete criteri aerobio e anaerobio, che non sono di per sé criteri logici. Io
classifico una cosa secondo il colore, secondo l’altezza, secondo le dimensioni. Qui praticamente sono dei
batteri, li classifico secondo la colorazione, secondo l’ambiente in cui vivono, secondo la forma, secondo la
parete, cioè secondo tutta una serie di elementi che sono diversi tra loro.
La stessa cosa succede per le malattie, perché quale sarebbe un modo logico di classificare le malattie? Se
voi doveste classificare tutte le malattie esistenti, per esempio, le potreste classificare per apparati e organi
e questa è una cosa che si usa (per esempio, abbiamo le malattie dell’apparato digerente, le malattie
respiratorie, le malattie cardiovascolari), e sarebbe una classificazione logica, sulla base di un criterio
anatomico. All’interno delle malattie dell’apparato digerente, poi, ci metto le malattie dello stomaco, del
fegato, ecc. Questo, però, non è l'unico criterio, perché un altro criterio è un criterio eziologico (cioè
malattie infettive, malattie traumatiche, o malattie tumorali, malattie cronico degenerative, che sono più
legate all'eziologia e alla patogenesi). Allora, un tumore del polmone, una broncopolmonite o un
pneumotorace legato a un trauma, secondo un criterio anatomico sono tutte malattie dell'apparato
respiratorio, secondo un criterio eziologico, una è una malattia infettiva, una è tumorale, una è traumatica;
e se ci metto l'asma mi trovo una malattia più di tipo cronico degenerativo autoimmune. Quale dei due
criteri dovrei usare (posto che devo comunque avere la mutua esclusività, cioè io devo poter mettere la mia
malattia solo in una classe)? Per quanto riguarda le malattie, si è andati semplicemente a fare una
classificazione internazionale delle malattie, che è un volume in cui tutte le malattie note sono state
definite e quindi sono inserite e hanno un codice: per esempio, sono quelli che si usano quando si dimette
una persona da un reparto ospedaliero per scrivere per che cosa lo curate. Scrivo la malattia principale per
cui l’ho curato e poi una serie di altre malattie. Quindi ho definito la singola malattia, però una volta che ho
definito la singola malattia, queste malattie le devo raggruppare. Allora si è arrivati a una classificazione un
po’ di compromesso. I tumori finiscono tutti tra i tumori: un tumore dello stomaco o un tumore del
polmone sono tutti e due neoplasie e quindi vanno in una grande classe “Neoplasie”. Le malattie infettive,
tranne le polmoniti, vanno tutte tra le malattie infettive: per cui, una tubercolosi, che sia del polmone o che
sia del fegato, è sempre una tubercolosi in prima battuta, e poi una malattia infettiva; quindi la tubercolosi
del polmone, la tubercolosi del fegato confluiscono come secondo livello nella classe “Tubercolosi” e come
livello ancora superiore nella classe “Malattie infettive”. Mentre il tumore del polmone e il tumore del
fegato confluiscono poi in “Tumori”. Se però ho la cirrosi alcolica e l'asma, queste andranno da una parte
[la cirrosi] verso le “Malattie del fegato” e poi la grande classe “Malattie dell’apparato digerente” e
dall’altra, invece, l’asma va a finire tra le “Malattie respiratorie”, poi sarà della laringe o… poi vedremo la
classe. Quindi noi abbiamo un criterio di organo, apparato, da cui si fanno uscire i capitoli speciali: malattie
infettive, malattie dello sviluppo, traumi; per esempio, tutta la patologia congenita va a finire in una classe
“Patologia congenita”; tutte le malattie accidentali vanno a finire in una classe che, più che dall’organo, può
dipendere anche dalla causa, cioè malattia da avvelenamento, o frattura, così via. Alla fine voi vi ritrovate
che ogni malattia la dovete classificare secondo questi elementi. Come fate a saperlo? Sostanzialmente
dovete scrivere il nome e poi questo nome un tempo andandolo a cercare nel libro, attualmente
chiedendolo a un software, ve lo ripoterà e vi darà un codice: per esempio, 326 vuol dire tubercolosi,
326.03 vuol dire tubercolosi del polmone, 326.031 mi dice anche in quale punto del polmone c’è la
tubercolosi in quel momento; però, quel 3, essendo tubercolosi, è il 3 delle malattie infettive, quindi vi
troverete che una varicella sarà 358 perché comunque ha un 3 di partenza. Allora con questo voi potete
fare tutta la classificazione delle malattie. Perché vi serve? Vi serve a fini epidemiologici, perché io devo
comunque poi poter dire quanti tumori ho in un territorio, quante malattie infettive; ma soprattutto vi
serve, in via più immediata, per classificare il lavoro che voi fate in ospedale, cioè ogni volta che voi
dimetterete uno da un ospedale, dovrete dire esattamente per che cosa l’avete seguito, quindi qual è stata
la sua malattia principale per cui l’avete seguito in quel ricovero e quali altre malattie possono aver influito.
Sulla base di quello che voi scriverete in quel momento, verrà valutato se lo dovevate ricoverare, oppure se
il ricovero non si sarebbe dovuto fare e sarebbe stato, invece, più opportuno vederlo ambulatorialmente, e
l’ospedale verrà pagato per la prestazione. Nel senso che se voi scrivete A l’ospedale riceve 3000 € per quel
ricovero, se voi scrivete B ne riceve 600 e se voi scrivete C ne riceve 20000. Quindi è un tipo di
classificazione che ha un effetto immediato e questa è una cosa che voi dovrete fare appena entrerete in
scuola di specializzazione, perché una delle cose che normalmente farete sarà compilare la scheda di
dimissione e quindi indicare la classificazione della malattia.
Ci sono dei problemi anche nuovi: malattie tipo l'artrite reumatoide. Deve essere comunque classificata. In
base a che cosa la classifico? Potrei classificarla in base alle articolazioni che colpisce, quindi se è legata più
al gomito, o più al ginocchio, a tutte e due. La posso classificare sulla base del tipo di degenerazione e poi
sintomatologia che provoca, quindi dà dolore, dà gonfiore, dà impotenza funzionale, o che cosa dà? La
posso classificare sulla base di criteri anatomopatologi. Per esempio, i tumori sono molto classificati sulla
base di criteri anatomopatologi, cioè carcinoma epidermoidale, carcinoma a piccole cellule. Quindi, ogni
volta, a seconda di quello che è più utile per quello che si sta facendo, le malattie le devo andare anche a
decidere in nuove classificazioni, per esempio, perché in base a una classificazione o a un’altra, verrà curato
in un modo o in un altro. Quindi il problema di classificare ce l’avrete sul vecchio nell’interpretare
correttamente quello che vedete, poi anche sul nuovo sull'introdurre nuove classificazioni se vi sono utili
per qualche attività. Le classificazioni comunque riguardano tutti dati qualitativi, di solito neanche
ordinabili.
Poi abbiamo situazioni di questo genere, che sono situazioni che traggono un po’ in inganno, false
quantitative. Questa è una classificazione (la scala si chiama EDSS) della gravità di una patologia come la
sclerosi multipla, ma le trovate simili per molte patologie degenerative o, per esempio, anche per un
tumore. È chiaramente un tipo di dato qualitativo ordinabile, perché il livello 0 viene definito come
obiettività neurologica normale; il livello 1 e 1,5 non c’è disabilità, ma avete dei segni della malattia in un
sistema o più sistemi; il 2,5-3 avete disabilità da minima a moderata e vedete che confina come gravità non
disabilità, disabilità minima, lieve e moderata in un sistema o in più sistemi, che vuol dire che uno può
avere difficoltà della vista, difficoltà del movimento e difficoltà dell'equilibrio. Se ne ha una sola va su un
numero più basso, se ne ha più di una va su un numero più alto. A livello 4 abbiamo la capacità di muoversi
per 500 metri senza problemi; a 4,5 abbiamo possibilità di movimento fino a 300 metri; a 5 cominciamo ad
avere perdita dell’autonomia; a 6 necessita di assistenza, di bastone o grucce per 100 metri; a 7 oramai
avete la sedia a rotelle; e poi si va avanti fino al livello 10.
Allora questo è un modo di classificare le malattie che è molto utile per esempio per valutare una terapia,
cioè se io riesco a tenere una persona molto a lungo a livello 4 e misuro il tempo in cui passa da 4 a 6 con o
senza terapia, sono in grado di capire se una terapia funziona o non funziona.
Questi numeri però hanno una differenza rispetto ai numeri che usiamo per misurare la colesterolemia.
Mentre la colesterolemia, o l’altezza, o il peso derivano da misure fisiche, quindi chiunque lo faccia, in
qualunque modo, è evidente che se uno è alto 1,70 m o 1,75 m, è indiscutibile, ed è anche indiscutibile che
pesare 40 kg è il doppio che pesare 20 kg. Mentre qui dentro non posso dire che essere obbligato a letto
per tutta la giornata o in carrozzella è il doppio che essere autonomo o deambulante; pur avendo usato dei
numeri (8, 7), da 10Kg a 20Kg passano 10 kg e da 20 kg a 30 kg passano lo stesso 10 kg, ma non è che quello
che mi passa qui da 1 a 2 (non disabilità a minimi segni, disabilità minima, che praticamente non sto
discernendo niente) è come quando io dico da 5 siete tutti autonomi e camminare per 200 metri, a 6 che
devo usare comunque qualcosa per muovermi, a 7 che uno è in sedia a rotelle. È evidente che questi
passaggi 5, 6, 7 nel passaggio di 1 cambia molto la vita, mentre nei primi passaggi cambia pochissimo. Allora
non è corretto, anche se molte volte lo si fa, calcolare una media di questi dati, come non è molto corretto
per certi aspetti calcolare una media dei vostri voti, anche se si fa. Perché i voti che voi prendete in un
esame sono realmente dei dati quantitativi? Del mio esame io potrei dire sono dati quantitativi, do 16
domande, se rispondete giusto a 16 prendete 16, se rispondete sbagliato a tutte prendete 0, quindi il conto
è numero di domande a cui la risposta data è corretta, è un dato quantitativo. Se però il vostro è un
risultato di un esame orale, esiste la stessa differenza tra un 27 e un 28 che esiste tra un 21 e un 22?
Probabilmente c’è uno scarto maggiore tra 27 e 28. Quindi quel dato è un dato quantitativo, che però
esprime una realtà qualitativa, non quantitativa. Questo significa che usare calcoli come le medie o gli altri
che vedremo è discutibile, perché in realtà abbiamo più dati qualitativi ordinabili. Qualche volta lo si fa, ma
bisogna sapere quali sono i limiti.
Non so se avete mai visto un’altra situazione di questo tipo, i test che molte volte si fanno con i punteggi di
tipo psicologico (è il classico quoziente d'intelligenza per esempio). Sono dei risultati quantitativi, che sono
espressi su che cosa? Su una serie di combinazioni di risposte. Posso dire che sono quantitativi? In linea
strettamente teorica no, perché non sto misurando un’altezza, sto combinando delle risposte per cui se
uno dice si, si, no, si, no, arriva a 32, se invece fa un’altra cosa arriva a 28, quindi devo stare anche in quel
caso attento a come li sto interpretando. In generale però è chiaro che se io tiro fuori un punteggio di
intelligenza che può andare da 0 a 100, che occupa tutti gli spazi da 0 a100, in cui tutti i risultati sono
possibili, probabilmente alla fine se lo tratto come quantitativo non succede niente; ma in una scala di
tumori dove i valori vanno solo da 0 a 4, è difficile dire che io sto lavorando su una media di 2, perché è
evidente che è molto più logico dire: c’è qualcuno che ha 0, c’è qualcuno che ha 1, c’è qualcuno che ha 2.
Quando i numeri sono molto pochi, le classi sono poche, anche se sono espresse coi numeri, è molto
meglio esprimere come qualità; e quindi non lavorare su misurare le medie, ma lavorare semplicemente
come se fossero delle classi e dire che un certo numero sta in una classe e un certo numero sta nell’altra.
Quindi messaggio breve di questa slide è: non tutto ciò che è un numero è per forza quantitativo; molte
cose che sono espresse con numeri in realtà sono qualità.
Adesso dobbiamo cercare di misurare queste qualità. Vediamo tre distribuzioni. Partiamo dai dati
quantitativi.
(Queste
probabilmente le avete
viste abbastanza, in molte
situazioni, assi cartesiani,
asse delle ascisse, asse
delle ordinate). Nell’asse
delle ascisse ho i vari valori
(potrebbero essere i valori
di colesterolemia) e se
conto
l’altezza
dell’istogramma, so quanti
individui
o
quale
percentuale di individui ha
quel valore. Quindi io che
cosa vedo qui [si riferisce
alla terza distribuzione
nella slide] per esempio?
Che pochi hanno valori di
questo tipo, poi si sale,
molti hanno un valore più
o meno qua e poi si riscende. In questa seconda distribuzione (quella che sta subito sopra) che cosa vedo?
Più o meno la stessa cosa. Qual è la differenza? Che si sale in fretta e si scende piano. Cioè nella terza
distribuzione il valore più frequente è 20, però a 25 e a 15 ne trovo più o meno lo stesso numero. Nella
seconda distribuzione il valore più frequente è a 18, ma 15 ne ha molto meno di 21. Quindi è una di quelle
situazioni in cui si sale in fretta e si scende piano, ma potrebbe valere anche il contrario. Nella prima
distribuzione che cosa succede? Che ho 2 picchi. Prima salgo, quindi ci sono molti individui che hanno un
valore intorno al 20-21, pochi che l’hanno intorno al 26, e di nuovo una certa quota intorno al 29-30-31.
Allora quando io ho dei dati quantitativi, posso avere tutte queste distribuzioni. La terza distribuzione è una
distribuzione simmetrica, mentre la seconda distribuzione non è simmetrica.
Queste due [la seconda e la terza distribuzione] posso dire che hanno un’unica moda. La moda è il picco e si
riferisce a quel valore in cui io ritrovo più individui. La seconda e la terza distribuzione hanno un’unica
moda, mentre quella di su [la prima distribuzione] di moda ne ha due. Quindi la prima la posso definire
bimodale, le altre due unimodali.
Quando io devo andare a dire dove sta il centro, in questo caso [nella terza distribuzione] posso dire che
chiunque direbbe che il centro sta qui. Che caratteristiche ha questo valore 20? Di essere quello che ha la
frequenza maggiore e lo chiamo moda, però ha anche un’altra caratteristica, che se io rovesciassi il lato
destro sul lato sinistro lo coprirei totalmente, quindi c’è una simmetria. Quindi l’ultima distribuzione è
unimodale e simmetrica. Quella che c’è sopra [la seconda distribuzione] è sempre unimodale, però non è
simmetrica, perché se io rovesciassi, andrei molto oltre l’altro. La prima non è neanche unimodale.
Qual è il significato che hanno in natura e dove troviamo queste tre distribuzioni? Partiamo dalla terza
distribuzione. Cos’ha la terza? Per esempio, l'altezza degli esseri umani è distribuita sostanzialmente in
questo modo. Cioè noi abbiamo che la maggior parte delle persone ha un’altezza centrale e se io mi sposto
da quella centrale dove sta la maggior parte degli individui, trovo una certa quota sempre un po’ più alta,
fino a pochissimi molto alti e dall’altro lato scendo fino a pochissimi molto bassi.
La stessa cosa vale per molte delle misure che noi possiamo avere nella popolazione umana, animale,
batterica, ma anche se voi prendete dei fenomeni quasi tecnologici. Quante ore dura accesa una
lampadina? Probabilmente avrà una situazione di questo genere, però poi qualcuna si fulmina un po’
prima, qualcuna un po’ dopo, sino agli estremi di quella che dura moltissimo e di quella che si fulmina.
Avete fatto forse anche in fisica gli errori di misurazione. Quando io faccio un errore di misurazione, la
maggior parte delle volte che misuro misuro giusto, se sbaglio, se per esempio misuriamo le altezze,
sbaglierò di un po’, qualche volta si sbaglia di molto e si prende una misura completamente diversa.
Vedremo che questa poi è la distribuzione gaussiana e ne parleremo più a lungo.
Dov’è che potremmo immaginarci la seconda distribuzione? Per esempio, voi avete studiato i valori di
glicemia e di colesterolemia, qual è il valore giusto di colesterolemia? Dove mettereste la moda? Diciamo
180. Quanto è una colesterolemia molto alta? Più di 300 può essere? Possiamo andare dall’altra parte nello
stesso modo? Cioè se io ho 300, dovrei scendere a 60. La glicemia a 3 esiste (non esageriamo… ), però se la
glicemia è 1 normalmente, non posso andare a -2 dall’altro lato, per cui è evidente che la glicemia potrà
salire più di quanto possa scendere.
Se voi andate in segreteria per fare qualche pratica. Ammettiamo che mediamente normalmente ci
vogliano 20 minuti da quando entrate dalla porta a quando uscite; capita che ci vogliano 40, 60 o 80 minuti,
ma meno di 5 minuti è difficile perché comunque anche se andate allo sportello per il tempo di darvi la
risposta, i 5 minuti ce li mettono. Quindi in tutte le situazioni, per esempio, di code, la distribuzione è molto
più simile a questa.
Se io considero la lunghezza di un ricovero ospedaliero per un intervento chirurgico, normalmente io dico:
un giorno prima di operarlo, il giorno che lo opero, e poi a seconda della pesantezza dell’operazione due,
tre giorni dopo. È chiaro che però il giorno prima, il giorno dell’intervento e probabilmente anche un giorno
dopo ci sono sempre, però se succede qualcosa, quei 5 giorni normali diventano 10, ma non possono
diventare meno di 2, perché comunque due giorni mi servono solo per farlo.
Quindi è evidente in molti fenomeni, per esempio quantità di alcol bevuta. È evidente che sotto la moda
abbiamo persone che bevono poco o sono astemie; lì potremmo addirittura andare molto più su.
Se io vado sulle sigarette fumate, probabilmente la mia moda è addirittura zero nella popolazione, cioè la
maggior parte della popolazione non fuma neanche una sigaretta, e poi scendo.
Questa terza [si riferisce alla prima distribuzione] per esempio può essere la situazione della glicemia o
della colesterolemia, dove ho due popolazioni, di cui una che ha una malattia. A questo punto, io ho prima
la mia gaussiana dei sani e poi ho una seconda gaussiana dei malati, con una popolazione che sta qui in
mezzo che è fatta dai sani che hanno i valori più alti, che esistono, e dai malati che hanno i valori più bassi.
Cioè se io avessi un problema genetico sull’altezza, che mi condiziona lo sviluppo, diciamo sul gigantismo, è
chiaro che a 2 metri di altezza io che cosa ho? Ho i sani che sono alti 2 metri per l’estremo della variabilità
della popolazione standard e ho i giganti piccoli, che sono 2 metri perché sono i nani di quelli che hanno
quella caratteristica genetica. A questo punto diventa per voi (che l’avete già visto in medicina di
laboratorio) uno dei grossi problemi diagnostici, perché quando avete quelle distribuzioni, voi avete il
problema: quello che sta a metà dove lo metto verso il sano o verso il malato? E quindi le scelte del cut-off
della colesterolemia o della glicemia sono proprio scelte che se io metto il cut-off a 100, io sto prendendo
molti sani e gli sto dicendo che sono malati; se lo metto a 140, io sto dicendo a molti malati che sono sani; e
poi devo decidere se preferisco dire ai malati che sono sani o ai sani che sono malati. Quindi la scelta dei
valori limite mi dipende molto da quello.
Davanti a questi dati e davanti a tutti i dati noi non possiamo immaginarci di sintetizzarli facendo sempre
vedere il grafico. In molti casi noi abbiamo bisogno di sintetizzarli con pochi valori. Quello a cui voi siete
probabilmente abituati è a sintetizzarli innanzitutto con una media. Ha sempre senso sintetizzarli con una
media? Cioè qui la media ha un senso [nella prima distribuzione]? Probabilmente nella prima la media non
mi dice niente. Che cosa devo dare? Probabilmente devo dare le due mode; e devo dire che noi in quella
popolazione riscontriamo due mode a questi livelli. In quell’altro [nella seconda distribuzione] la media
potrebbe sembrare abbastanza accettabile, però che problema ha la media? Che questa media tende a
portarsi molto in qua [verso destra], perché è molto condizionata da questi ultimi [i valori a destra]. Quindi
mentre qui [nella terza distribuzione] la media coincide con la moda, in questi casi [nella prima e nella
seconda distribuzione] la media si sposta molto dalla moda. Nel primo addirittura avrei la media dove ho il
minimo o giù di lì, nel secondo comunque io rischio di dire che ho una media di 24.
Pensiamo ai ricoveri. Io ricovero quasi tutti per 5 giorni, qualcuno starà 4 o 3, me ne capitano un paio che
hanno una complicanza per cui stanno 30 giorni. Voi sapete che per far la media si somma tutto e poi si
divide. Quei due che fanno 30 mi tirano su [la media], io rischio di avere che per quei due la mia media vada
a 10, dove non c’è praticamente nessuno. Quindi avete il 90% della popolazione che viene dimessa entro 6
giorni e un paio che fanno 25-30 giorni, la mia media va intorno ai 10, che non rappresentano
assolutamente niente. Perché in realtà se io dico la media dei ricoveri è 10 giorni, uno che viene ricoverato
pensa che starà 10 giorni, invece quasi certamente resterà 5, 6, 7 e quel 10 non rappresenta quasi niente.
Allora devo trovarmi qualche
cosa che sia adatto, che può
essere la moda, ma vedremo
sarà un’altra misura, che è la
mediana; mentre in quella di su,
che è unimodale, simmetrica, io
ho tranquillamente la possibilità
di utilizzare la media. Moda,
media e mediana coincidono e
la media è somma dei valori
diviso la dimensione della
popolazione, simbolizzato in
questo [vedi slide]: sigma che è
sommatoria, sommatoria di x,
con x di quei valori, diviso n. È
quella che fate per sapere qual
è la vostra media di voti (poi ci
sarebbe la ponderata, che è un
altro problema).
L’altra misura che mi interessa è
la mediana. Che cos’è la
mediana? La mediana è quel
valore che divide simmetricamente in due, che nel caso di sopra [nella distribuzione in alto nella slide]
coincide con la media e con la moda; ma in questo caso [nella distribuzione in basso] probabilmente la
mediana va un po’ più in qua, cioè mentre la moda è qui, la mediana è qui, ma la media finisce qua. Come
misuro la mediana? Se voi adesso vi alzaste tutti in piedi e vi allineaste lungo la parete dal più alto al più
basso, ognuno di voi, oltre alla vostra altezza, potrebbe tenere una paletta in mano con 1, 2, 3, 4, 5, fino a
60 (se siete 60 in tutto). La mediana sarebbe il ventinovesimo, il trentesimo, il trentunesimo, quello che ne
ha lo stesso numero a destra e lo stesso numero a sinistra. Quindi io per misurare la tendenza centrale
della vostra altezza ho due possibilità. Una è chiedere a ognuno quanto è alto, sommare tutte queste
altezze e dividerle per il numero di persone. La seconda possibilità è mettervi in ordine di altezza, prendere
quello che sta al centro, cioè che ne ha esattamente lo stesso numero a destra e a sinistra, e lui è la
tendenza centrale. Quindi la tendenza centrale mi è data in un caso dalla somma di tutti diviso n, nel
secondo caso dalla misurazione di uno solo, che sta esattamente al centro. Questa è la mediana.
La mediana è più stabile della media. Quindi se io non sono sicuro che la distribuzione sia come quella di su
[della distribuzione in alto], è meglio che usi la mediana per indicare la tendenza centrale.
Quindi, per esempio, io dovrei parlare di degenza mediana, più che di degenza media. Forse anche per
alcune valutazioni sul vostro andamento universitario potrebbe andar bene dire qual è la mediana del
vostro voto, perché se uno prendesse 30 in tutti [gli esami], poi in un esame andasse male e prendesse 18,
la sua media cambierebbe un po’, o su pochi esami rischierebbe anche di scendere a 29; la sua mediana
resterebbe 30. Stesso discorso per uno che prende tutto 18 e prende un 30.
Per esempio, un’altra misura è quanto tempo ci mettete a laurearvi, sei anni ce li dovreste mettere, sette
può essere anche modale (adesso è un po’ meglio, anni fa poteva essere modale). Se però io calcolassi la
media, che cosa vi capiterebbe? Che quello che è iscritto da vent’anni o da trent’anni e si laurea dopo
trent’anni che è iscritto, mi incide molto sulla durata media, perché avendo quasi tutti intorno ai 6, 7, 8
anni, quei pochi che mi fanno 10, 15, 20, 25 (dovrebbe esistere ancora qualcuno che deve essersi iscritto
intorno al 1976, il che vuol dire 35 anni; se quello arriva a laurearsi, a questo punto quello nel mio calcolo
della media mi porta 35) rischiano di spostare la mia media che era 7,5 direttamente a 8, solo per effetto di
un paio di questi, mentre la mia mediana probabilmente mi resta a 7. Cioè anche se metà di voi si laureasse
in sei anni, la mia mediana dovrebbe essere 6 e mi starebbe dando un’idea abbastanza precisa. Allora l’uso
in distribuzioni fortemente asimmetriche della mediana è… (?)[min. 37:47]
Quindi la prima cosa che voi dovete fare è decidere cosa dovete usare.
Ammettiamo di accettare questa distribuzione, simmetrica, unimodale. Questa distribuzione, simmetrica,
unimodale ha sicuramente una sua posizione centrale. Se devo guardare la verde e la blu, la blu ha sempre
valori un po’ più alti della verde, come il centrale. Abbiamo anche un’altra distinzione, perché se noi
guardiamo verde e blu, che sono diverse come valore centrale, i tre strati hanno anche un’altra
caratteristica, qual è? Qui dentro [si riferisce al terzo grafico della slide] tutti gli individui sono praticamente
uguali tra loro, cioè dal più basso al più alto c’è pochissima differenza, in questa [si riferisce al secondo
grafico della slide] dal più
basso al più alto c’è una
differenza enorme, quindi è
molto
più
spalmata.
Probabilmente se voi andate
a prendere l’altezza tra i
giocatori di serie A di
pallacanestro vi ritrovate una
situazione sicuramente alta,
ma anche molto compatta. Se
andate a prenderla in un altro
sport vi ritrovate un aspetto
di popolazione che può essere
molto più largo invece,
perché l’altezza non è un
punto discriminante. Allora
noi oltre alla tendenza
centrale, dobbiamo dire qual è la dispersione dei dati. Perché è importante una dispersione dei dati?
Quando si va a valutare il corso di laurea, per esempio, uno degli elementi che si valuta è l’esistenza di voti
bassi in un determinato esame. L’ho visto non per medicina, ma per altre lauree, per esempio c’era un
esame, dato praticamente da chimica e fisica, quindi l’esame di base, e in molti corsi di laurea quel voto ha
una media di 24, anche se la media degli altri [esami] per più o meno tutti gli studenti è 27-28. Quindi ci
sono degli esami che hanno un voto molto più basso degli altri. A questo punto, se devo valutare i problemi
di un esame, è chiaro che un esame in cui gli studenti prendono 24 ha dei problemi diversi rispetto a un
esame in cui il voto medio è 28. Quindi io mi sto rendendo conto che qui il voto è 28, qui il voto è 24, qui
devo capire che cosa sta succedendo. Questo 24 mi può derivare da due cose diverse: dal fatto che ci sono
studenti che prendono tutti 23, 24, 25, oppure una situazione di questo genere, in cui i voti vanno dal 18 al
30. Ha lo stesso significato dal punto di vista diagnostico? Probabilmente se io vedo che tutti prendono 23,
24, 25, dovrei anche avere il sospetto che il docente tende a dare voti bassi, perché se in un esame vedo
tutti 28, 30, in un altro 23, 24, 25 probabilmente dipende molto dal docente. Oppure se vedo 23, 24, 25,
dico quell’esame è totalmente al di fuori, è sproporzionato alle competenze iniziali degli studenti per fare
quello; cioè uno non sa per esempio niente di fisica, l’esame parte supponendo che nelle scuole superiori
fisica sia stata fatta in un determinato modo, viene chiesto quello e quindi fisica va male. Se invece avessi
che quel 24 deriva da avere sia molti 30 che molti 18, vorrebbe dire probabilmente che nelle scuole
superiori la preparazione è molto diversa e quindi alcuni arrivano e l’esame diventa facilissimo, perché
praticamente gli viene fatto quello che già sapevano; per altri è difficilissimo, perché proprio non sono in
grado di farlo. E prendo decisioni diverse su come comportarmi per intervenire su quell’esame. È più facile
agire se il voto è 24, perché dico: a questo punto bisogna abbassare il livello e farlo più facile. Se però i voti
andassero dal 18 al 30, situazione di questo genere, se io lo faccio più facile, veramente per alcuni diventa
[troppo facile], tanto vale che gli dica di non andare neanche a seguire le lezioni.
Per esempio, per l’inglese, quello che si fa è un test all’inizio. A cosa serve il test? Sostanzialmente ad agire
su una situazione di questo tipo. Siccome io so che gli studenti che arrivano all’università hanno
competenze di inglese di questo genere. Io faccio un test, in modo che a questi non faccio fare niente, a
questi faccio fare solo la parte avanzata, questi li prendo dall’inizio. Quindi non mi interessa soltanto
valutare dove sta la media, perché se fosse così, io semplicemente decido che faccio fare a tutti corsi
avanzati perché i corsi di base non servono più a nulla e non li faccio neanche.
Dov’è che si usano cose di questo tipo? Per esempio, le troverete l’anno prossimo in igiene ambientale nel
nostro stesso corso. La temperatura dell’acqua che esce da una sorgente vi interessa che sia calda o che sia
fredda? Cioè dov’è la media? Probabilmente no. Non mi interessa niente se esce a 20 gradi, a 15 o a 10. Mi
interessa il fatto che invece abbia una grande variabilità, che ogni giorno esca diversa? Quello mi interessa
molto, perché se la temperatura cambia, vuol dire che non è acqua di sorgente, perché l’acqua di sorgente
è stabile. Conducibilità elettrica, temperatura, tutti i parametri, derivando dall’interno del suolo, dal
sottosuolo, non cambiano; però se dopo che piove, la portata di quella sorgente cambia subito, e quindi
una forte variabilità di portata, vuol dire che non c’è nessun filtraggio di acqua e che quell’acqua mi arriva
sporca. Quindi non mi interessa niente se la sorgente mi dà un litro al secondo o cento litri al secondo per
sfruttarla, però se un giorno mi dà un litro e un altro giorno me ne dà 20, vuol dire che non è una sorgente
vera. Quindi misurare la variabilità può diventare fondamentale.