Igiene e sanità pubblica Prof. Paolo Contu Lezione 3 (I ora) 9 aprile 2013 Teresa Perra COMUNICAZIONE: il 4 maggio avremo 5 ore di lezione e l’11 maggio avremo 4 ore di lezione. Oggi facciamo la prima lezione di statistica, sostanzialmente. Siamo partiti l’altra volta sul fatto che noi abbiamo due tipi di dati che dobbiamo cercare di interpretare e abbiamo visto i tipi di variabili. Abbiamo anche visto come le variabili, che avevamo analizzato per quanto riguarda i determinanti di patologia cardiovascolare, sono molte volte variabili quantitative, su cui poi vengono definite delle classificazioni che le rendono qualitative, con due o tre classi o binarie, o con due classi ordinabili, dando dei cut-off, cioè dei punti limite. Il problema è che in molti altri casi noi non abbiamo una classificazione così chiara, perché mentre se la variabile è quantitativa, è chiaro che io posso dire abbastanza facilmente che oltre un certo livello di pressione arteriosa io lo considero iperteso e sotto quel livello lo considero normale, ed eventualmente sotto un altro livello ipoteso; quando parliamo di altre variabili, dobbiamo costruire un criterio di classificazione (per esempio vedremo qual è il criterio di classificazione che usiamo per classificare le malattie). Però, prima di andare sulle malattie, vediamo quali sono i criteri sostanziali con cui si dovrebbe cercare di classificare qualche cosa. Un primo elemento è l’esaustività. Cosa vuol dire esaustività? É chiaro che se io faccio una classificazione dei batteri (l’avete fatta anche in microbiologia), questa classificazione deve comprendere tutti i batteri, cioè non mi può arrivare un batterio che non mi sta in nessuno di quei gruppi (alla fine deve stare in uno dei gruppi che ho previsto nella mia classificazione). Qui parliamo della Classificazione Internazionale delle malattie (ICD) e anche in questa è chiaro che chiunque vi capiti davanti, voi dovete poterlo classificare dentro una classe di malattie, dentro una malattia (cioè ogni malattia deve essere prevista). Se io faccio una classificazione in zoologia, ogni animale deve stare all’interno di quella classificazione, deve trovare un suo spazio. Questa è l'esaustività. Il secondo è la mutua esclusività, su cui abbiamo delle classificazioni tipo quella probabilmente zoologica, che sono piuttosto ordinate, cioè non è che voi avete il dubbio di dove andare a mettere un canguro (un canguro sta all'interno di una serie di classi, generi, specie, ecc., per cui il canguro sta certamente lì, c'è tutta la filologia del canguro). Per i batteri è così? Cioè, se un qualunque batterio sta in una sola classe di batteri, dovrebbe starlo anche se i criteri di classificazione cominciano a essere un po’ diversi. Perché voi avete criteri Gram+ e Gram−, avete criteri aerobio e anaerobio, che non sono di per sé criteri logici. Io classifico una cosa secondo il colore, secondo l’altezza, secondo le dimensioni. Qui praticamente sono dei batteri, li classifico secondo la colorazione, secondo l’ambiente in cui vivono, secondo la forma, secondo la parete, cioè secondo tutta una serie di elementi che sono diversi tra loro. La stessa cosa succede per le malattie, perché quale sarebbe un modo logico di classificare le malattie? Se voi doveste classificare tutte le malattie esistenti, per esempio, le potreste classificare per apparati e organi e questa è una cosa che si usa (per esempio, abbiamo le malattie dell’apparato digerente, le malattie respiratorie, le malattie cardiovascolari), e sarebbe una classificazione logica, sulla base di un criterio anatomico. All’interno delle malattie dell’apparato digerente, poi, ci metto le malattie dello stomaco, del fegato, ecc. Questo, però, non è l'unico criterio, perché un altro criterio è un criterio eziologico (cioè malattie infettive, malattie traumatiche, o malattie tumorali, malattie cronico degenerative, che sono più legate all'eziologia e alla patogenesi). Allora, un tumore del polmone, una broncopolmonite o un pneumotorace legato a un trauma, secondo un criterio anatomico sono tutte malattie dell'apparato respiratorio, secondo un criterio eziologico, una è una malattia infettiva, una è tumorale, una è traumatica; e se ci metto l'asma mi trovo una malattia più di tipo cronico degenerativo autoimmune. Quale dei due criteri dovrei usare (posto che devo comunque avere la mutua esclusività, cioè io devo poter mettere la mia malattia solo in una classe)? Per quanto riguarda le malattie, si è andati semplicemente a fare una classificazione internazionale delle malattie, che è un volume in cui tutte le malattie note sono state definite e quindi sono inserite e hanno un codice: per esempio, sono quelli che si usano quando si dimette una persona da un reparto ospedaliero per scrivere per che cosa lo curate. Scrivo la malattia principale per cui l’ho curato e poi una serie di altre malattie. Quindi ho definito la singola malattia, però una volta che ho definito la singola malattia, queste malattie le devo raggruppare. Allora si è arrivati a una classificazione un po’ di compromesso. I tumori finiscono tutti tra i tumori: un tumore dello stomaco o un tumore del polmone sono tutti e due neoplasie e quindi vanno in una grande classe “Neoplasie”. Le malattie infettive, tranne le polmoniti, vanno tutte tra le malattie infettive: per cui, una tubercolosi, che sia del polmone o che sia del fegato, è sempre una tubercolosi in prima battuta, e poi una malattia infettiva; quindi la tubercolosi del polmone, la tubercolosi del fegato confluiscono come secondo livello nella classe “Tubercolosi” e come livello ancora superiore nella classe “Malattie infettive”. Mentre il tumore del polmone e il tumore del fegato confluiscono poi in “Tumori”. Se però ho la cirrosi alcolica e l'asma, queste andranno da una parte [la cirrosi] verso le “Malattie del fegato” e poi la grande classe “Malattie dell’apparato digerente” e dall’altra, invece, l’asma va a finire tra le “Malattie respiratorie”, poi sarà della laringe o… poi vedremo la classe. Quindi noi abbiamo un criterio di organo, apparato, da cui si fanno uscire i capitoli speciali: malattie infettive, malattie dello sviluppo, traumi; per esempio, tutta la patologia congenita va a finire in una classe “Patologia congenita”; tutte le malattie accidentali vanno a finire in una classe che, più che dall’organo, può dipendere anche dalla causa, cioè malattia da avvelenamento, o frattura, così via. Alla fine voi vi ritrovate che ogni malattia la dovete classificare secondo questi elementi. Come fate a saperlo? Sostanzialmente dovete scrivere il nome e poi questo nome un tempo andandolo a cercare nel libro, attualmente chiedendolo a un software, ve lo ripoterà e vi darà un codice: per esempio, 326 vuol dire tubercolosi, 326.03 vuol dire tubercolosi del polmone, 326.031 mi dice anche in quale punto del polmone c’è la tubercolosi in quel momento; però, quel 3, essendo tubercolosi, è il 3 delle malattie infettive, quindi vi troverete che una varicella sarà 358 perché comunque ha un 3 di partenza. Allora con questo voi potete fare tutta la classificazione delle malattie. Perché vi serve? Vi serve a fini epidemiologici, perché io devo comunque poi poter dire quanti tumori ho in un territorio, quante malattie infettive; ma soprattutto vi serve, in via più immediata, per classificare il lavoro che voi fate in ospedale, cioè ogni volta che voi dimetterete uno da un ospedale, dovrete dire esattamente per che cosa l’avete seguito, quindi qual è stata la sua malattia principale per cui l’avete seguito in quel ricovero e quali altre malattie possono aver influito. Sulla base di quello che voi scriverete in quel momento, verrà valutato se lo dovevate ricoverare, oppure se il ricovero non si sarebbe dovuto fare e sarebbe stato, invece, più opportuno vederlo ambulatorialmente, e l’ospedale verrà pagato per la prestazione. Nel senso che se voi scrivete A l’ospedale riceve 3000 € per quel ricovero, se voi scrivete B ne riceve 600 e se voi scrivete C ne riceve 20000. Quindi è un tipo di classificazione che ha un effetto immediato e questa è una cosa che voi dovrete fare appena entrerete in scuola di specializzazione, perché una delle cose che normalmente farete sarà compilare la scheda di dimissione e quindi indicare la classificazione della malattia. Ci sono dei problemi anche nuovi: malattie tipo l'artrite reumatoide. Deve essere comunque classificata. In base a che cosa la classifico? Potrei classificarla in base alle articolazioni che colpisce, quindi se è legata più al gomito, o più al ginocchio, a tutte e due. La posso classificare sulla base del tipo di degenerazione e poi sintomatologia che provoca, quindi dà dolore, dà gonfiore, dà impotenza funzionale, o che cosa dà? La posso classificare sulla base di criteri anatomopatologi. Per esempio, i tumori sono molto classificati sulla base di criteri anatomopatologi, cioè carcinoma epidermoidale, carcinoma a piccole cellule. Quindi, ogni volta, a seconda di quello che è più utile per quello che si sta facendo, le malattie le devo andare anche a decidere in nuove classificazioni, per esempio, perché in base a una classificazione o a un’altra, verrà curato in un modo o in un altro. Quindi il problema di classificare ce l’avrete sul vecchio nell’interpretare correttamente quello che vedete, poi anche sul nuovo sull'introdurre nuove classificazioni se vi sono utili per qualche attività. Le classificazioni comunque riguardano tutti dati qualitativi, di solito neanche ordinabili. Poi abbiamo situazioni di questo genere, che sono situazioni che traggono un po’ in inganno, false quantitative. Questa è una classificazione (la scala si chiama EDSS) della gravità di una patologia come la sclerosi multipla, ma le trovate simili per molte patologie degenerative o, per esempio, anche per un tumore. È chiaramente un tipo di dato qualitativo ordinabile, perché il livello 0 viene definito come obiettività neurologica normale; il livello 1 e 1,5 non c’è disabilità, ma avete dei segni della malattia in un sistema o più sistemi; il 2,5-3 avete disabilità da minima a moderata e vedete che confina come gravità non disabilità, disabilità minima, lieve e moderata in un sistema o in più sistemi, che vuol dire che uno può avere difficoltà della vista, difficoltà del movimento e difficoltà dell'equilibrio. Se ne ha una sola va su un numero più basso, se ne ha più di una va su un numero più alto. A livello 4 abbiamo la capacità di muoversi per 500 metri senza problemi; a 4,5 abbiamo possibilità di movimento fino a 300 metri; a 5 cominciamo ad avere perdita dell’autonomia; a 6 necessita di assistenza, di bastone o grucce per 100 metri; a 7 oramai avete la sedia a rotelle; e poi si va avanti fino al livello 10. Allora questo è un modo di classificare le malattie che è molto utile per esempio per valutare una terapia, cioè se io riesco a tenere una persona molto a lungo a livello 4 e misuro il tempo in cui passa da 4 a 6 con o senza terapia, sono in grado di capire se una terapia funziona o non funziona. Questi numeri però hanno una differenza rispetto ai numeri che usiamo per misurare la colesterolemia. Mentre la colesterolemia, o l’altezza, o il peso derivano da misure fisiche, quindi chiunque lo faccia, in qualunque modo, è evidente che se uno è alto 1,70 m o 1,75 m, è indiscutibile, ed è anche indiscutibile che pesare 40 kg è il doppio che pesare 20 kg. Mentre qui dentro non posso dire che essere obbligato a letto per tutta la giornata o in carrozzella è il doppio che essere autonomo o deambulante; pur avendo usato dei numeri (8, 7), da 10Kg a 20Kg passano 10 kg e da 20 kg a 30 kg passano lo stesso 10 kg, ma non è che quello che mi passa qui da 1 a 2 (non disabilità a minimi segni, disabilità minima, che praticamente non sto discernendo niente) è come quando io dico da 5 siete tutti autonomi e camminare per 200 metri, a 6 che devo usare comunque qualcosa per muovermi, a 7 che uno è in sedia a rotelle. È evidente che questi passaggi 5, 6, 7 nel passaggio di 1 cambia molto la vita, mentre nei primi passaggi cambia pochissimo. Allora non è corretto, anche se molte volte lo si fa, calcolare una media di questi dati, come non è molto corretto per certi aspetti calcolare una media dei vostri voti, anche se si fa. Perché i voti che voi prendete in un esame sono realmente dei dati quantitativi? Del mio esame io potrei dire sono dati quantitativi, do 16 domande, se rispondete giusto a 16 prendete 16, se rispondete sbagliato a tutte prendete 0, quindi il conto è numero di domande a cui la risposta data è corretta, è un dato quantitativo. Se però il vostro è un risultato di un esame orale, esiste la stessa differenza tra un 27 e un 28 che esiste tra un 21 e un 22? Probabilmente c’è uno scarto maggiore tra 27 e 28. Quindi quel dato è un dato quantitativo, che però esprime una realtà qualitativa, non quantitativa. Questo significa che usare calcoli come le medie o gli altri che vedremo è discutibile, perché in realtà abbiamo più dati qualitativi ordinabili. Qualche volta lo si fa, ma bisogna sapere quali sono i limiti. Non so se avete mai visto un’altra situazione di questo tipo, i test che molte volte si fanno con i punteggi di tipo psicologico (è il classico quoziente d'intelligenza per esempio). Sono dei risultati quantitativi, che sono espressi su che cosa? Su una serie di combinazioni di risposte. Posso dire che sono quantitativi? In linea strettamente teorica no, perché non sto misurando un’altezza, sto combinando delle risposte per cui se uno dice si, si, no, si, no, arriva a 32, se invece fa un’altra cosa arriva a 28, quindi devo stare anche in quel caso attento a come li sto interpretando. In generale però è chiaro che se io tiro fuori un punteggio di intelligenza che può andare da 0 a 100, che occupa tutti gli spazi da 0 a100, in cui tutti i risultati sono possibili, probabilmente alla fine se lo tratto come quantitativo non succede niente; ma in una scala di tumori dove i valori vanno solo da 0 a 4, è difficile dire che io sto lavorando su una media di 2, perché è evidente che è molto più logico dire: c’è qualcuno che ha 0, c’è qualcuno che ha 1, c’è qualcuno che ha 2. Quando i numeri sono molto pochi, le classi sono poche, anche se sono espresse coi numeri, è molto meglio esprimere come qualità; e quindi non lavorare su misurare le medie, ma lavorare semplicemente come se fossero delle classi e dire che un certo numero sta in una classe e un certo numero sta nell’altra. Quindi messaggio breve di questa slide è: non tutto ciò che è un numero è per forza quantitativo; molte cose che sono espresse con numeri in realtà sono qualità. Adesso dobbiamo cercare di misurare queste qualità. Vediamo tre distribuzioni. Partiamo dai dati quantitativi. (Queste probabilmente le avete viste abbastanza, in molte situazioni, assi cartesiani, asse delle ascisse, asse delle ordinate). Nell’asse delle ascisse ho i vari valori (potrebbero essere i valori di colesterolemia) e se conto l’altezza dell’istogramma, so quanti individui o quale percentuale di individui ha quel valore. Quindi io che cosa vedo qui [si riferisce alla terza distribuzione nella slide] per esempio? Che pochi hanno valori di questo tipo, poi si sale, molti hanno un valore più o meno qua e poi si riscende. In questa seconda distribuzione (quella che sta subito sopra) che cosa vedo? Più o meno la stessa cosa. Qual è la differenza? Che si sale in fretta e si scende piano. Cioè nella terza distribuzione il valore più frequente è 20, però a 25 e a 15 ne trovo più o meno lo stesso numero. Nella seconda distribuzione il valore più frequente è a 18, ma 15 ne ha molto meno di 21. Quindi è una di quelle situazioni in cui si sale in fretta e si scende piano, ma potrebbe valere anche il contrario. Nella prima distribuzione che cosa succede? Che ho 2 picchi. Prima salgo, quindi ci sono molti individui che hanno un valore intorno al 20-21, pochi che l’hanno intorno al 26, e di nuovo una certa quota intorno al 29-30-31. Allora quando io ho dei dati quantitativi, posso avere tutte queste distribuzioni. La terza distribuzione è una distribuzione simmetrica, mentre la seconda distribuzione non è simmetrica. Queste due [la seconda e la terza distribuzione] posso dire che hanno un’unica moda. La moda è il picco e si riferisce a quel valore in cui io ritrovo più individui. La seconda e la terza distribuzione hanno un’unica moda, mentre quella di su [la prima distribuzione] di moda ne ha due. Quindi la prima la posso definire bimodale, le altre due unimodali. Quando io devo andare a dire dove sta il centro, in questo caso [nella terza distribuzione] posso dire che chiunque direbbe che il centro sta qui. Che caratteristiche ha questo valore 20? Di essere quello che ha la frequenza maggiore e lo chiamo moda, però ha anche un’altra caratteristica, che se io rovesciassi il lato destro sul lato sinistro lo coprirei totalmente, quindi c’è una simmetria. Quindi l’ultima distribuzione è unimodale e simmetrica. Quella che c’è sopra [la seconda distribuzione] è sempre unimodale, però non è simmetrica, perché se io rovesciassi, andrei molto oltre l’altro. La prima non è neanche unimodale. Qual è il significato che hanno in natura e dove troviamo queste tre distribuzioni? Partiamo dalla terza distribuzione. Cos’ha la terza? Per esempio, l'altezza degli esseri umani è distribuita sostanzialmente in questo modo. Cioè noi abbiamo che la maggior parte delle persone ha un’altezza centrale e se io mi sposto da quella centrale dove sta la maggior parte degli individui, trovo una certa quota sempre un po’ più alta, fino a pochissimi molto alti e dall’altro lato scendo fino a pochissimi molto bassi. La stessa cosa vale per molte delle misure che noi possiamo avere nella popolazione umana, animale, batterica, ma anche se voi prendete dei fenomeni quasi tecnologici. Quante ore dura accesa una lampadina? Probabilmente avrà una situazione di questo genere, però poi qualcuna si fulmina un po’ prima, qualcuna un po’ dopo, sino agli estremi di quella che dura moltissimo e di quella che si fulmina. Avete fatto forse anche in fisica gli errori di misurazione. Quando io faccio un errore di misurazione, la maggior parte delle volte che misuro misuro giusto, se sbaglio, se per esempio misuriamo le altezze, sbaglierò di un po’, qualche volta si sbaglia di molto e si prende una misura completamente diversa. Vedremo che questa poi è la distribuzione gaussiana e ne parleremo più a lungo. Dov’è che potremmo immaginarci la seconda distribuzione? Per esempio, voi avete studiato i valori di glicemia e di colesterolemia, qual è il valore giusto di colesterolemia? Dove mettereste la moda? Diciamo 180. Quanto è una colesterolemia molto alta? Più di 300 può essere? Possiamo andare dall’altra parte nello stesso modo? Cioè se io ho 300, dovrei scendere a 60. La glicemia a 3 esiste (non esageriamo… ), però se la glicemia è 1 normalmente, non posso andare a -2 dall’altro lato, per cui è evidente che la glicemia potrà salire più di quanto possa scendere. Se voi andate in segreteria per fare qualche pratica. Ammettiamo che mediamente normalmente ci vogliano 20 minuti da quando entrate dalla porta a quando uscite; capita che ci vogliano 40, 60 o 80 minuti, ma meno di 5 minuti è difficile perché comunque anche se andate allo sportello per il tempo di darvi la risposta, i 5 minuti ce li mettono. Quindi in tutte le situazioni, per esempio, di code, la distribuzione è molto più simile a questa. Se io considero la lunghezza di un ricovero ospedaliero per un intervento chirurgico, normalmente io dico: un giorno prima di operarlo, il giorno che lo opero, e poi a seconda della pesantezza dell’operazione due, tre giorni dopo. È chiaro che però il giorno prima, il giorno dell’intervento e probabilmente anche un giorno dopo ci sono sempre, però se succede qualcosa, quei 5 giorni normali diventano 10, ma non possono diventare meno di 2, perché comunque due giorni mi servono solo per farlo. Quindi è evidente in molti fenomeni, per esempio quantità di alcol bevuta. È evidente che sotto la moda abbiamo persone che bevono poco o sono astemie; lì potremmo addirittura andare molto più su. Se io vado sulle sigarette fumate, probabilmente la mia moda è addirittura zero nella popolazione, cioè la maggior parte della popolazione non fuma neanche una sigaretta, e poi scendo. Questa terza [si riferisce alla prima distribuzione] per esempio può essere la situazione della glicemia o della colesterolemia, dove ho due popolazioni, di cui una che ha una malattia. A questo punto, io ho prima la mia gaussiana dei sani e poi ho una seconda gaussiana dei malati, con una popolazione che sta qui in mezzo che è fatta dai sani che hanno i valori più alti, che esistono, e dai malati che hanno i valori più bassi. Cioè se io avessi un problema genetico sull’altezza, che mi condiziona lo sviluppo, diciamo sul gigantismo, è chiaro che a 2 metri di altezza io che cosa ho? Ho i sani che sono alti 2 metri per l’estremo della variabilità della popolazione standard e ho i giganti piccoli, che sono 2 metri perché sono i nani di quelli che hanno quella caratteristica genetica. A questo punto diventa per voi (che l’avete già visto in medicina di laboratorio) uno dei grossi problemi diagnostici, perché quando avete quelle distribuzioni, voi avete il problema: quello che sta a metà dove lo metto verso il sano o verso il malato? E quindi le scelte del cut-off della colesterolemia o della glicemia sono proprio scelte che se io metto il cut-off a 100, io sto prendendo molti sani e gli sto dicendo che sono malati; se lo metto a 140, io sto dicendo a molti malati che sono sani; e poi devo decidere se preferisco dire ai malati che sono sani o ai sani che sono malati. Quindi la scelta dei valori limite mi dipende molto da quello. Davanti a questi dati e davanti a tutti i dati noi non possiamo immaginarci di sintetizzarli facendo sempre vedere il grafico. In molti casi noi abbiamo bisogno di sintetizzarli con pochi valori. Quello a cui voi siete probabilmente abituati è a sintetizzarli innanzitutto con una media. Ha sempre senso sintetizzarli con una media? Cioè qui la media ha un senso [nella prima distribuzione]? Probabilmente nella prima la media non mi dice niente. Che cosa devo dare? Probabilmente devo dare le due mode; e devo dire che noi in quella popolazione riscontriamo due mode a questi livelli. In quell’altro [nella seconda distribuzione] la media potrebbe sembrare abbastanza accettabile, però che problema ha la media? Che questa media tende a portarsi molto in qua [verso destra], perché è molto condizionata da questi ultimi [i valori a destra]. Quindi mentre qui [nella terza distribuzione] la media coincide con la moda, in questi casi [nella prima e nella seconda distribuzione] la media si sposta molto dalla moda. Nel primo addirittura avrei la media dove ho il minimo o giù di lì, nel secondo comunque io rischio di dire che ho una media di 24. Pensiamo ai ricoveri. Io ricovero quasi tutti per 5 giorni, qualcuno starà 4 o 3, me ne capitano un paio che hanno una complicanza per cui stanno 30 giorni. Voi sapete che per far la media si somma tutto e poi si divide. Quei due che fanno 30 mi tirano su [la media], io rischio di avere che per quei due la mia media vada a 10, dove non c’è praticamente nessuno. Quindi avete il 90% della popolazione che viene dimessa entro 6 giorni e un paio che fanno 25-30 giorni, la mia media va intorno ai 10, che non rappresentano assolutamente niente. Perché in realtà se io dico la media dei ricoveri è 10 giorni, uno che viene ricoverato pensa che starà 10 giorni, invece quasi certamente resterà 5, 6, 7 e quel 10 non rappresenta quasi niente. Allora devo trovarmi qualche cosa che sia adatto, che può essere la moda, ma vedremo sarà un’altra misura, che è la mediana; mentre in quella di su, che è unimodale, simmetrica, io ho tranquillamente la possibilità di utilizzare la media. Moda, media e mediana coincidono e la media è somma dei valori diviso la dimensione della popolazione, simbolizzato in questo [vedi slide]: sigma che è sommatoria, sommatoria di x, con x di quei valori, diviso n. È quella che fate per sapere qual è la vostra media di voti (poi ci sarebbe la ponderata, che è un altro problema). L’altra misura che mi interessa è la mediana. Che cos’è la mediana? La mediana è quel valore che divide simmetricamente in due, che nel caso di sopra [nella distribuzione in alto nella slide] coincide con la media e con la moda; ma in questo caso [nella distribuzione in basso] probabilmente la mediana va un po’ più in qua, cioè mentre la moda è qui, la mediana è qui, ma la media finisce qua. Come misuro la mediana? Se voi adesso vi alzaste tutti in piedi e vi allineaste lungo la parete dal più alto al più basso, ognuno di voi, oltre alla vostra altezza, potrebbe tenere una paletta in mano con 1, 2, 3, 4, 5, fino a 60 (se siete 60 in tutto). La mediana sarebbe il ventinovesimo, il trentesimo, il trentunesimo, quello che ne ha lo stesso numero a destra e lo stesso numero a sinistra. Quindi io per misurare la tendenza centrale della vostra altezza ho due possibilità. Una è chiedere a ognuno quanto è alto, sommare tutte queste altezze e dividerle per il numero di persone. La seconda possibilità è mettervi in ordine di altezza, prendere quello che sta al centro, cioè che ne ha esattamente lo stesso numero a destra e a sinistra, e lui è la tendenza centrale. Quindi la tendenza centrale mi è data in un caso dalla somma di tutti diviso n, nel secondo caso dalla misurazione di uno solo, che sta esattamente al centro. Questa è la mediana. La mediana è più stabile della media. Quindi se io non sono sicuro che la distribuzione sia come quella di su [della distribuzione in alto], è meglio che usi la mediana per indicare la tendenza centrale. Quindi, per esempio, io dovrei parlare di degenza mediana, più che di degenza media. Forse anche per alcune valutazioni sul vostro andamento universitario potrebbe andar bene dire qual è la mediana del vostro voto, perché se uno prendesse 30 in tutti [gli esami], poi in un esame andasse male e prendesse 18, la sua media cambierebbe un po’, o su pochi esami rischierebbe anche di scendere a 29; la sua mediana resterebbe 30. Stesso discorso per uno che prende tutto 18 e prende un 30. Per esempio, un’altra misura è quanto tempo ci mettete a laurearvi, sei anni ce li dovreste mettere, sette può essere anche modale (adesso è un po’ meglio, anni fa poteva essere modale). Se però io calcolassi la media, che cosa vi capiterebbe? Che quello che è iscritto da vent’anni o da trent’anni e si laurea dopo trent’anni che è iscritto, mi incide molto sulla durata media, perché avendo quasi tutti intorno ai 6, 7, 8 anni, quei pochi che mi fanno 10, 15, 20, 25 (dovrebbe esistere ancora qualcuno che deve essersi iscritto intorno al 1976, il che vuol dire 35 anni; se quello arriva a laurearsi, a questo punto quello nel mio calcolo della media mi porta 35) rischiano di spostare la mia media che era 7,5 direttamente a 8, solo per effetto di un paio di questi, mentre la mia mediana probabilmente mi resta a 7. Cioè anche se metà di voi si laureasse in sei anni, la mia mediana dovrebbe essere 6 e mi starebbe dando un’idea abbastanza precisa. Allora l’uso in distribuzioni fortemente asimmetriche della mediana è… (?)[min. 37:47] Quindi la prima cosa che voi dovete fare è decidere cosa dovete usare. Ammettiamo di accettare questa distribuzione, simmetrica, unimodale. Questa distribuzione, simmetrica, unimodale ha sicuramente una sua posizione centrale. Se devo guardare la verde e la blu, la blu ha sempre valori un po’ più alti della verde, come il centrale. Abbiamo anche un’altra distinzione, perché se noi guardiamo verde e blu, che sono diverse come valore centrale, i tre strati hanno anche un’altra caratteristica, qual è? Qui dentro [si riferisce al terzo grafico della slide] tutti gli individui sono praticamente uguali tra loro, cioè dal più basso al più alto c’è pochissima differenza, in questa [si riferisce al secondo grafico della slide] dal più basso al più alto c’è una differenza enorme, quindi è molto più spalmata. Probabilmente se voi andate a prendere l’altezza tra i giocatori di serie A di pallacanestro vi ritrovate una situazione sicuramente alta, ma anche molto compatta. Se andate a prenderla in un altro sport vi ritrovate un aspetto di popolazione che può essere molto più largo invece, perché l’altezza non è un punto discriminante. Allora noi oltre alla tendenza centrale, dobbiamo dire qual è la dispersione dei dati. Perché è importante una dispersione dei dati? Quando si va a valutare il corso di laurea, per esempio, uno degli elementi che si valuta è l’esistenza di voti bassi in un determinato esame. L’ho visto non per medicina, ma per altre lauree, per esempio c’era un esame, dato praticamente da chimica e fisica, quindi l’esame di base, e in molti corsi di laurea quel voto ha una media di 24, anche se la media degli altri [esami] per più o meno tutti gli studenti è 27-28. Quindi ci sono degli esami che hanno un voto molto più basso degli altri. A questo punto, se devo valutare i problemi di un esame, è chiaro che un esame in cui gli studenti prendono 24 ha dei problemi diversi rispetto a un esame in cui il voto medio è 28. Quindi io mi sto rendendo conto che qui il voto è 28, qui il voto è 24, qui devo capire che cosa sta succedendo. Questo 24 mi può derivare da due cose diverse: dal fatto che ci sono studenti che prendono tutti 23, 24, 25, oppure una situazione di questo genere, in cui i voti vanno dal 18 al 30. Ha lo stesso significato dal punto di vista diagnostico? Probabilmente se io vedo che tutti prendono 23, 24, 25, dovrei anche avere il sospetto che il docente tende a dare voti bassi, perché se in un esame vedo tutti 28, 30, in un altro 23, 24, 25 probabilmente dipende molto dal docente. Oppure se vedo 23, 24, 25, dico quell’esame è totalmente al di fuori, è sproporzionato alle competenze iniziali degli studenti per fare quello; cioè uno non sa per esempio niente di fisica, l’esame parte supponendo che nelle scuole superiori fisica sia stata fatta in un determinato modo, viene chiesto quello e quindi fisica va male. Se invece avessi che quel 24 deriva da avere sia molti 30 che molti 18, vorrebbe dire probabilmente che nelle scuole superiori la preparazione è molto diversa e quindi alcuni arrivano e l’esame diventa facilissimo, perché praticamente gli viene fatto quello che già sapevano; per altri è difficilissimo, perché proprio non sono in grado di farlo. E prendo decisioni diverse su come comportarmi per intervenire su quell’esame. È più facile agire se il voto è 24, perché dico: a questo punto bisogna abbassare il livello e farlo più facile. Se però i voti andassero dal 18 al 30, situazione di questo genere, se io lo faccio più facile, veramente per alcuni diventa [troppo facile], tanto vale che gli dica di non andare neanche a seguire le lezioni. Per esempio, per l’inglese, quello che si fa è un test all’inizio. A cosa serve il test? Sostanzialmente ad agire su una situazione di questo tipo. Siccome io so che gli studenti che arrivano all’università hanno competenze di inglese di questo genere. Io faccio un test, in modo che a questi non faccio fare niente, a questi faccio fare solo la parte avanzata, questi li prendo dall’inizio. Quindi non mi interessa soltanto valutare dove sta la media, perché se fosse così, io semplicemente decido che faccio fare a tutti corsi avanzati perché i corsi di base non servono più a nulla e non li faccio neanche. Dov’è che si usano cose di questo tipo? Per esempio, le troverete l’anno prossimo in igiene ambientale nel nostro stesso corso. La temperatura dell’acqua che esce da una sorgente vi interessa che sia calda o che sia fredda? Cioè dov’è la media? Probabilmente no. Non mi interessa niente se esce a 20 gradi, a 15 o a 10. Mi interessa il fatto che invece abbia una grande variabilità, che ogni giorno esca diversa? Quello mi interessa molto, perché se la temperatura cambia, vuol dire che non è acqua di sorgente, perché l’acqua di sorgente è stabile. Conducibilità elettrica, temperatura, tutti i parametri, derivando dall’interno del suolo, dal sottosuolo, non cambiano; però se dopo che piove, la portata di quella sorgente cambia subito, e quindi una forte variabilità di portata, vuol dire che non c’è nessun filtraggio di acqua e che quell’acqua mi arriva sporca. Quindi non mi interessa niente se la sorgente mi dà un litro al secondo o cento litri al secondo per sfruttarla, però se un giorno mi dà un litro e un altro giorno me ne dà 20, vuol dire che non è una sorgente vera. Quindi misurare la variabilità può diventare fondamentale.