Lezione di STATISTICA del 18-10-2013 Sbobinata da Giuseppe

Lezione di STATISTICA del 18-10-2013
Sbobinata da Giuseppe Pablo Gasparro
Prof. Vita
Di che cosa si è parlato fino a questo momento? Si è parlato di tipologia di studi che noi
dovremmo poter conoscere per poi applicare un modello matematico. Questa diversa tipologia di
studi noi ce la ritroveremo poi nelle slide a seguire, però sotto un’altra angolatura e con ripetuti
esempi.
Altra cosa su cui voglio mettere a fuoco l’attenzione è il protocollo dello studio, cioè come si
va a disegnare la nostra indagine.
PRIMO PUNTO. Devo andare a selezionare le mie unità, i miei elementi secondo dei criteri:
- Se sono soggetti, persone, pazienti, quali includere;
- Con quali criteri prendere, selezionare questi pazienti(supponiamo che siano pazienti),
e
- quali escludere.
Quindi devo andare a determinare quelli che per me sono per quel quesito i criteri di inclusione
e quali quelli di esclusione.
Questo è un punto molto importante perché se si sbaglia in questa fase noi ci ritroveremo poi a
valle ad avere un campione distorto con BIAS, quindi errore. Bias è un termine generico con cui
si intende errore, poi ci sono vari tipi di bias. Questo sarebbe un bias di selezione. Quindi
bisogna decidere quali sono i criteri di inclusione che mi indurranno a selezionare i miei soggetti.
Poi, quando e come reclutarli.
Come faccio a procacciarmi le unità che andranno a costituire il mio campione? Devo descrivere
quella che è la mia tecnica di reclutamento. E quale seguire? Ce n’è una migliore dell’altra?
NO. Dipende dall’oggetto che io devo andare a studiare. Quindi, bisogna rimodularla in base al
tipo di impegno.
ALTRA FASE. Devo chiedere il consenso ai pazienti/soggetti. Se sono volontari coloro ai quali
chiedo il consenso di partecipare, tutti devono firmare il consenso a partecipare all’indagine
finalizzata a blablabla che io dovrò portare a conoscenza.
DEFINIRE IL TIPO DI INTERVENTO. Quindi mi richiamo il concetto alla tipologia di studio.
-
Interventistico, se io devo implementare un farmaco, una terapia;
oppure no, osservazionale, quindi non interventistico.
Definire quello che è l’OBIETTIVO FINALE, l’outcome, il risultato e le modalità di misurazione.
Io come vado a procurarmi, ad avere il risultato? Con quale metodologia matematica, con quale
tecnica? Questo fa riferimento al tipo di approccio matematico, statistico che io utilizzo.
Poi, definire le modalità da utilizzare per verificare che lo studio proceda correttamente.
Quindi devo indicare nel disegno dello studio quale metodo utilizzo per assicurarmi che sia
quanto più possibilmente corretto. Visto da un’altra angolatura, devo andare a definire qual è
1
l’errore che io mi presuppongo, che io mi impegno a non superare. L’errore o la percentuale di
errore.
Definire le modalità di azione in caso di circostanze sfavorevoli come imprevisti (come
dropouts, gli errori nella raccolta dei dati, etc).
Se io ho selezionato -mi viene in mente l’esempio dell’asma- lo studio ISAYA (Italian Study on
Asthma in Young Adults) :
Devo partire dal presupposto che devo raccogliere quel tipo di [mi riferisco a quell’esempio in
particolare] tremila soggetti, perché da studi pilota fatti precedentemente si è stabilito ciò.
Quindi io parto con questa linea guida.
Quindi se il mio campione deve essere, alla fine, di giovani adulti etc etc che ….. dell’asma
correlato al fumo,
Se io parto dal presupposto che devo raccogliere tremila soggetti, devo poter prevedere che il
mio campione resti stabile come grandezza -in quel caso è uno studio di osservazione quindi
richiede un tempo, quindi è prospettico : incomincio oggi, però poi prima che mandi questi
dati, che mi ritornino e che li analizzo passerà del tempo. Quindi io devo poter prevedere che il
mio campione resti stabile come grandezza. Nell’eventualità che io perda dei campioni, dei
pazienti, dei soggetti, devo andare oltre i tremila! Questo oltre tremila è un piccolo rapporto
che si chiama dropout. Quindi devo farmi carico di procurarmi una piccola scorta
nell’eventualità che qualcuno non vada bene -qualcuno significa qualche questionario che io
devo eliminare perché non va bene, o qualcuno si trasferisce.
Siccome quell’esempio sempre dell’ISAYA prevede sempre che vengano censiti soggetti maschili
e femminili, in quella fascia di età che sono residenti nella zona in cui prende avvio la ricerca e
per fare tutto ciò devo matcharli con l’elenco, come faccio ad essere sicuro che i soggetti tizio e
sempronio sono residenti? Perché faccio il doppio incrocio, ovvero vado a vedere se questi sono
iscritti nelle liste dei pazienti dei medici di base, e nel contempo vado a matchare questo dato
con quello che mi risulta dal comune, devono risultare che sono iscritti nel comune. Perché se
così non fosse io avrei un soggetto che non va bene, chiaro? Quindi se ci sono soggetti di questo
tipo io vado a perdere unità. Ecco,quindi,l’utilità di andare ad attingere in questi casi ai drop
outs, a un altro piccolo campione che mi procaccio e non considero, per assicurarmi che alla
fine il mio campione su cui andrò a studiare quel fenomeno, l’asma, è di 3000, perché le linee
guida mi dicono questo, e non al di sotto! Certo, se è di più mi va bene, ma non deve essere di
meno. Poi possono verificarsi errori nella raccolta : ho fatto l’esempio dei questionari sbagliati,
non attendibili che sono poco esaustivi, quindi devo eliminarli.
Poi tutto questo lo devo descrivere sotto forma di DIAGRAMMA A FLUSSO, cioè devo dare un
aspetto più elegante, grafico di quello che è il disegno dello studio.
Come vado a selezionare i soggetti.
Abbiamo detto che i soggetti vanno selezionati secondo certi criteri di eleggibilità : quelli che
rientrano a far parte, che hanno QUELLE caratteristiche.
La selezione deve poter fornire un campione random. Che significa campione random?Vado a
prendere tutto l’elenco dei pazienti iscritti alle liste dei medici di base, vado a randomizzare le
mie unità.
2
La casualità del campione è l’aspetto fondamentale, e deve essere sempre salvaguardata.
Il mio campione si avvicina a quello che è dipinto come campione rappresentativo di tutta la
popolazione, e in questo caso di tutti i soggetti scritti nelle liste dei medici di base.
I criteri di selezione devono essere sempre specificati in anticipo. Quindi se io in corso d’opera
volessi cambiare, non posso. Devo ricominciare tutto da capo, perché una volta che stabilisco e
dico come intenderò procedere, così devo mantenere.
Fin qui è emerso che io ho una popolazione generale che è quella dei soggetti iscritti nelle liste
di medicina di base, moltiplicate in tutto per il numero di medici di base. Quindi esce fuori una
certa popolazione, cioè quello è il mio target.
Questa slide in maniera grafica espone ancora meglio il concetto fino adesso espresso. Io ho
parlato di popolazione target e poi di tremila, di un campione scelto secondo questa tecnica che
assicuri la casualità.
-
-
Il mio campione, la mia popolazione obiettivo, sono i pazienti iscritti nelle liste dei
medici di base.
Vado a procurarmi questa popolazione campionaria, questo campione, quell’esempio era
già codificato in 3000 unità.
Mi vado ad osservare il mio fenomeno.
A me che cosa interessa? A me interessa andare a vedere la correlazione tra asma e
fumo, e per fare questo devo andare a vedere quanti hanno l’asma, quanti non ce
l’hanno, quanti invece dell’asma hanno patologie molto similari all’asma. Da questo
questionario uscirà fuori tutta un’infinità di risposte che io dovrò cercare di interpretare.
Quindi dovrò andare a descrivere il mio campione secondo quelle variabili che io già ho
identificato, quindi, per prima cosa, avere o non avere l’asma, poi l’età, il sesso.
Dopo aver descritto il mio campione, io sintetizzo il mio risultato secondo un certo
procedimento che andremo a vedere oggi.
Cioè a dire, io descrivo il mio campione, quindi che cosa faccio?
La prima cosa che faccio, quindi nell’esempio del peso o dell’età, l’idea in generale è
quella, è chiaro, ma io devo andare a vedere qual è l’età media dei maschi e
differenziarla dalle femmine, o dei maschi che hanno l’asma e delle femmine che hanno
l’asma, per esempio.
Quindi io utilizzerò degli indicatori descrittivi che mi descrivono il campione. Dopo aver
descritto questo, io sintetizzo il mio risultato utilizzando un indicatore per eccellenza
che è la media aritmetica.
Nell’esempio di una variabile quantitativa -richiamo un altro concetto, quello della variabile,
quantitativa- che posso andare a misurare (l’età, il peso), andrò a indicare l’età media, facendo
una stima di questo parametro, e poi questo risultato, questa informazione relativa all’età,
eccetera eccetera, io la inferirò alla popolazione generale.
Quindi l’inferenza in tutto questo diagramma a flusso non è altro che riguarda la statistica
inferenziale. Fare inferenza significa:
1. Estrarre una popolazione campionaria o campione della popolazione generale;
3
2. Osservare il fenomeno sul campione, cioè a dire descriverlo;
3. Sintetizzare il risultato che altro non è che la media, o alcuni indicatori verranno ad essere
inferiti, cioè verranno ad essere spalmati sulla popolazione.
Ciò significa che quello che io osservo nel mio campione, accade nella popolazione generale
con una certa probabilità, non in senso assolutistico, perché io son partito andando a studiare
un campione, non tutta la popolazione. Cioè a dire, se io dovessi fare la stessa rilevazione su
tutta la popolazione con una certa probabilità, con un errore molto basso, otterrei lo stesso
risultato, solo che non la faccio sull’intera popolazione, per due motivi :
1. Perché costa troppo;
2. Perché potrebbe essere impossibile farla su tutta la popolazione, anche se questa è una
popolazione finita.
Immaginate una popolazione infinita, ancora peggio non si potrebbe fare. Questa retta
sarebbe irrealizzabile.
Io la faccio su una piccola parte della popolazione, cioè a dire su una popolazione
campionaria, però se seguo certe metodologie, vedi randomizzazione, io mi assicuro di
ottenere lo stesso risultato che potrei ottenere se la facessi rispetto a tutta la popolazione
generale.
Quindi in questo modo io risparmio energie, tempo, e ottengo lo stesso risultato. Io avrei un
risultato assoluto qualora utilizzassi tutta la popolazione, cosa facile in teoria, e molte volte
si può fare, ma molte altre no. Ma anche quando si può fare, non si fa per fare prima e per
raggiungere lo stesso risultato attendibile, utilizzo questa tecnica.
Però devo seguire quelle linee guida, quella metodologia rigorosamente tale da
assicurarmi che il campione rappresenti la popolazione.
Se il campione non è una fotografia della popolazione, non ho concluso niente, quindi
l’inferenza cade.
La statistica inferenziale è una statistica che si avvale della statistica descrittiva. Io per
fare inferenza devo descrivere il campione, devo applicare degli indicatori che descrivano il
mio campione, per esempio media e poi ne vediamo altri.
Abbiamo dunque due tipi di statistica: la statistica inferenziale e la statistica descrittiva.
La statistica inferenziale è una statistica probabilistica, perché, non potendola fare su tutta la
popolazione, applico il teorema della probabilità. In che modo? Ammettendo qual è l’errore che
io presuppongo di non superare e dando risultati attendibili.
Quindi la media che io vado a misurare di questo campione entro un certo intervallo di errore è
la stessa media che io devo avere nella popolazione, a condizione però che io abbia utilizzato
una metodologia che mi assicuri che questo campione sia la fotografia della popolazione, cioè a
dire che sia rappresentativo. Per essere rappresentativo devono esserci due, non uno o l’altro,
contemporaneamente, peculiarità:
-
-
Rappresentatività, cioè l’omogeneità del campione che mi è assicurata con questa
tecnica o tecniche molto similari, però tecniche probabilistiche come lo è la
randomizzazione;
La grandezza.
Nel caso dello studio ISAIA, si è determinato con studi pilota che 3000 era il campione definito
rappresentativo.
4
Noi avremo a che fare con una statistica probabilistica e con una statistica non probabilistica.
La statistica probabilistica presuppone che la scelta del campione sia casuale, affidata alla
probabilità, ma ci sono anche tecniche che non sono affidate alla probabilità, quindi la statistica
inferenziale crolla, perché si basa sulla probabilità.
Quale metodo utilizzare? Metodo probabilistico o non probabilistico? Dipende dai casi.
Ad esempio, se io devo fare un censimento non posso utilizzare una tecnica di scelta casuale,
devo andare a prendere tutta la popolazione a tappeto. Questo è un metodo non probabilistico,
perché l’obiettivo di questo studio non è di scegliere un campione casuale che rappresenta la
popolazione, ma di sceglierla tutta per avere la … quanti sono gli abitanti nell’area. E quindi
aggiornare il numero, per esempio.
Tra i metodi probabilistici abbiamo la randomizzazione semplice, quella sistematica, e quella
stratificata.
Tra i metodi non probabilistici ci sono metodi per esempio a cluster, a grappolo. Io utilizzo,
secondo una certa tecnica, la scelta di entro una certa area di questa unità, escludendo gli altri.
L’utilizzo dipende dai casi, dal tipo di studi che vado ad intraprendere.
Il campionamento è quindi la tecnica che vi assicura la scelta delle unità, l’abbiamo detto.
Quindi, il campionamento probabilistico è la scelta delle unità da sottoporre allo studio che è
regolata dalle leggi di probabilità ed ha senso parlare di inferenza se utilizzo una metodologia
probabilistica.
Non probabilistico, se la scelta delle unità da sottoporre allo studio non è di tipo probabilistico.
CAMPIONAMENTO CASUALE
Campionamento casuale semplice , campionamento random in cui ogni soggetto ha la stessa
possibilità di essere scelto. Se ad esempio devo andare a prendere tre unità, perché stabilisco
che tre rappresenta il mio campione sufficiente, in che modo vado a scegliere tre unità in mezzo
a centottanta? Mi devo affidare a un metodo rigorosamente scientifico che mi assicuri una scelta
casuale. Ci sono alcune tecniche che me lo consentono.
La tecnica più semplice, la più elementare, è quella di andare a visionare una cartella, in un
qualsiasi tipo di statistica, di numeri random. Se siete avvezzi all’uso della settimana
enigmistica, sapete che significa. Ho dei numeri orizzontali, verticali, quindi io scelgo una certa
area e vado a scegliere una stringa di numeri dopo la terza fila per esempio di tre numeri, che
saranno per esempio 24, 35 e 72. Questa è una scelta casuale.
Una tecnica più raffinata per effettuare un campionamento più ampio, utilizza un software che
va a generare un numero random, stabilisco qual è il range entro 3000 per esempio, e lui mi va a
selezionare questi 3000 soggetti. E’ chiaro che se io devo scegliere tremila soggetti, che
corrispondono al numero complessivo dei pazienti iscritti alle liste dei medici di base, non devo
fare come range 0-3000, devo dare come range 0-4000, per essere compreso, solo che col
software si fa tutto più velocemente.
CAMPIONAMENTO SISTEMATICO
L’ennesimo soggetto è scelto dalla popolazione partendo da un punto di partenza random.
Quindi io scelgo un punto e da quel punto io vado a fare sistematicamente, cioè a dire, ogni
5
seconda fila ne scelgo quattro, poi vado all’altra fila e ne scelgo quattro e sono otto, e così via.
CAMPIONAMENTO SISTEMATICO NON RANDOM
Quando la scelta del campione non è affidata alla casualità.
CAMPIONAMENTO DI CONVENIENZA
Se devo scegliere 3 soggetti, vado per comodità a scegliere quelli che mi stanno più vicini perché
li raggiungo meglio, quindi un campionamento di tipo non probabilistico sicuramente.
Nel metodo di scelta casuale, il campione che abbiamo scelto con metodo garantisce la
casualità. Cioè a dire con questa metodologia io assicuro a tutti gli studenti la possibilità di
essere scelti.
Qui ho una certa popolazione di unità, scelgo a caso questo campione costituito da cinque
secondo questa estrazione. Se io devo farla stratificata sulla base di diversa etnia, di diverso
colore, di diverso sesso, la devo fare più volte, ma è sempre una scelta casuale.
A grappolo è sicuramente una tecnica non probabilistica, però, per esempio, obiettivo del mio
studio è conoscere come si diffonde, qual è l’incidenza della carie dentaria tra i ragazzi in età
scolare, e identificare i fattori di rischio. Quindi il mio target è la scuola, il mio campione lo
devo prelevare da diverse aree geografiche, in modo tale da coprire tutta la città e poi metto
dentro altre situazioni, altre variabili, le condizioni socio economiche, il tipo di scuola, e così
via, mi vado a costituire dei sotto campioni secondo le mie necessità. Un campione di selezione
all’interno di ogni plesso da aggregare a tutti gli alunni delle sezioni … Quindi a seconda
dell’obiettivo che io mi presuppongo di raggiungere, mi vado a disegnare uno studio con una
certa metodologia che vado ad indicare prima di iniziare.
Devo fare questo, perché devo poter dare evidenza che io seguo un criterio
metodologicamente scientifico, quanto più possibilmente corretto per poi dire “guardate che i
miei risultati sono abbastanza attendibili”.
Altro tipo di campionamento non probabilistico, campionamento a …, campionamento a
valanga: sono tecniche che si utilizzano molto in campo socio-economico e poco in ambito
medico, dove si utilizza la tecnica random, la tecnica probabilistica di scelta casuale.Ciò non
toglie che in ambito medico si possa dover avere a che fare con campioni di tipo non
probabilistico.
Un esempio molto pratico. Perché voi mi potreste dire, si parla sempre di campione
rappresentativo, ma se io non ce l’ho,come faccio? Posso aumentare il numero del mio
campione con un atto di magia? No, perché non seguo un metodo rigorosamente scientifico. Non
posso imbrogliare le carte. Se io ho raccolto un certo numero di pazienti che afferisce ad una
clinica da gennaio a ottobre, quelli sono i pazienti, non è che posso aumentare il campione. Per
cui, devo partire dal presupposto che quel campione non sia lo specchio della popolazione, non
sia una fotografia della popolazione che rappresenta, quindi io non avrei un campione
rappresentativo. Per assicurarsi, per bypassare questo errore, che faccio?
6
O aumento il campione allungando il tempo, se non ci riesco ed è sufficiente quel numero devo
poter assicurarmi che la mia variabile quantitativa per esempio, abbia un andamento normale,
poi vediamo che significa questo. Ma, se il campione è troppo piccolo, io so in partenza che non
può essere così. Avere un andamento normale significa che una variabile biologica in natura ha
comunque un andamento normale. In questo caso specifico, se il campione è piccolo, non ha
un andamento normale, quindi devo utilizzare delle tecniche che non prevedono questo criterio
di normalità, perché il campione è troppo piccolo. E come faccio a vedere? Come faccio io a
sgamare? Perché posso ipotizzare che il campione è troppo piccolo e non è casuale. Utilizzo
delle tecniche che non prevedono la casualità, quindi aggiro l’ostacolo per studiare il mio
campione.
Altro tipo di campionamento, a scelta ragionata, quindi si tratta sempre di campionamento non
random.
I campioni non probabilistici non consentono la generalizzazione, non permettono di fare
inferenza. E’ chiaro, se io ho un campione non probabilistico non posso fare inferenza, devo
solamente dire nelle mie conclusioni, “guardate, io ho osservato, ho avuto questo riscontro nella
descrizione di questi casi, di soggetti reclutati dal .. al .. “, quindi già mi paro il colpo.
Non posso fare un discorso di inferenziale, perché il campione non è rappresentativo.
Che succede? Succede che quando io ho a che fare con un campione non probabilistico, di
convenienza, scelta agiata comunque che non segue i principi della probabilità, è un errore che
già è BIASato, cioè è distorto.
Allora, in questi casi quando io sono davanti a un campione non randomizzato, devo utilizzare
una metodologia di statistica non probabilistica. Si apre quindi uno scenario, avrei una statistica
inferenziale, descrittiva, una statistica probabilistica e non probabilistica.
CODIFICARE I DATI
I dati possono essere codificati o rielaborati secondo certi criteri.
Se io ho raccolto in un campione l’età, vado a quantificare l’età andando a vedere la media, poi
vediamo come si fa. Se vado a vedere il sesso, la variabile sesso, che è una variabile di tipo
qualitativo, in questo caso dicotomica, devo andare a dire quanti sono i maschi e quanti sono le
femmine, quindi io devo fare un altro tipo di calcolo, cioè mi calcolo il numero, vedi frequenza.
Nel contesto dello studio può,però, tornare comodo utilizzare questa variabile codificando. Cioè
a dire, indicando 0 i maschi e 1 le femmine, codificandole, così nel mio database, avrò tot 0 e
tot 1.
Se io ho la variabile condizione socio-economica,avrò tre quattro, quindi avrò una variabile di
tipo …parativa politomica. Dopo io vado a codificare i dati, e siccome la variabile è sotto forma
alfabetica posso trasferire, codificare ciò in numero, perché ho una variabile categorica. La
variabile socio-economica l’ho categorizzata in 3, 4. Il livello di studi:
1. licenza elementare,
2. licenza liceale,
3. laurea,
Tre tipi, l’ho categorizzata 0-2.
7
Come faccio tutto questo? Se avete un’idea di come possa essere fatto un foglio elettronico in
excel, dico al computer di trasformare i maschi in 0 e le femmine in 1 e così via, molto
semplice, e da qui ricavare la frequenza.
Lo scopo della mia indagine è quello di trovare dei rapporti causa-effetto fra eventi. Per
esempio , l’esposizione a un fattore e causa di una malattia, vedi il fumo, fattore di condizione,
è legato all’asma, la malattia generica. L’esposizione a un farmaco, oppure a una condizione
clinica e così via.
Uno degli scopi dell’analisi è quello di distinguere un effetto reale dovuto a un rapporto causaeffetto. Nel caso specifico di quello studio, io devo andare a vedere se c’è un rapporto di causa
e effetto per cui ho l’asma. Ma andrò a vedere poi [lo vedremo a fine lezione rivedendo sempre
questo esempio] che ci saranno dentro delle variabili che si dicono di confondimento, che vi
possono creare un disturbo dei calcoli. Quindi devo andare a vedere se la variabile provoca o
enfatizza il disturbo, cioè ti provoca la patologia oppure no. D’altronde mi pare di aver fatto
l’esempio della pizza. Fumo-asma- pizza,la pizza è una variabile confondente. Oppure cirrosi
correlata a un fattore di rischio, all’alcool, uso di pizza, no, quella è una variabile confondente.
La cirrosi è comunque provocata dall’alcool.
Poi, nell’indagine si è parlato di errore generico, si è parlato di BIAS inteso come errore a
diverso livello, ne abbiamo visto uno di questi che era nel campionamento, nei criteri di
eleggibilità.
Errori random : sono errori che possono essere previsti, ma come dice la stessa parola sono
errori dovuti alla casualità, quindi in quanto casuali io non li posso eliminare. Se resta random,
se l’errore resta tale, posso accettarlo perché non è tale che mi inficia il risultato, se si
mantiene random. Ma se sistematicamente si ripete, allora è un BIAS che vi può inficiare il
risultato.
Quindi devo andare a distinguere l’errore random da quello sistematico che devo attenzionare.
Il BIAS, è chiaro che l’errore in uno studio non è eliminabile completamente, ma il problema non
è eliminarlo, bensì monitorare un certo tipo di errore, non random, perché monitorandolo posso
evitare che aumenti, perché se aumenta mi inficia il risultato, devo cercare di tenerlo il più
contenuto possibile, per poi avere un outcome valido, attendibile.
La soglia di errore che non intendo superare nel mio studio, per quanto riguarda l’errore
random, va dichiarata prima di cominciare lo studio, pena la nullità dell’outcome. Questo in
teoria. In pratica, comincio uno studio, dopo due mesi mi accorgo ad un certo step dell’indagine
che l’errore mi aumenta. Che faccio? Devo correggere e ritornare indietro e ridefinire quella che
è la mia soglia di errore, ma è chiaro che l’errore non può essere esponenziale. La soglia, il cut
off di validità dell’errore deve essere quello del 5%, questa è la soglia di massima. Un errore
molto più grande di questo diventa sistematico e sarà tale da inficiarmi il risultato. Nella realtà
può capitare che io superi quest’errore, ma deve essere contenuto tra il 5 e l’8%.
Gli errori random sono dovuti alla casualità, sono fluttuazioni, dovute all’andamento della mia
variabile, che fluttua nel mio campione.
Vedi l’età. Pur essendo voi un campione di studendi al terzo anno, sarà presente tra di voi
qualcuno che è andato prima a scuola e pertanto è più piccolo, quindi quello esce fuori, però
entra sempre nella… del campione. Quindi, gli errori random non sono prevedibili, ma in quanto
8
tali a me non interessa prevederli, perché se sono tali io posso farmene carico, perché non sono
quelli che mi inficiano il risultato. Il problema è se l’errore non è più random, allora è un
BIAS, quindi un errore che mi distorce i risultati e che devo monitorare.
Vediamo ora il tipo di BIAS.
ERRORE SISTEMATICO 48
Allora immaginiamo di fare del tiro al bersaglio con le freccette. Questi pallini, in questa
posizione della corona, indicano una serie di colpi delle freccette che è molto precisa perché è
in un’area determinata, quindi è iperprecisa, però è BIASata perché non è colpito il centro, è
lontano dal centro. Perché per me il risultato più attendibile si trova nella corona più interna.
Quindi questi sono raccolti in una piccola area, ma sono nella zona periferica, e pertanto, per
quanto possa essere una misurazione precisa, è sempre BIASata.
Questo invece è alquanto impreciso, perché non solo non è nella parte centrale (la parte
centrale corrisponde a quello che è la mia popolazione, il mio target), ma è alla periferia, ed è
molto disperso rispetto al precedente, ed è quindi BIASato e impreciso. Questo la stessa cosa, è
impreciso, non è BIASato, cioè, non è come un errore, però è molto impreciso, perché non è
nella corona più interna, è distribuito in maniera più ampia. Quello invece che è molto più
preciso, e non è BIASato, è questo qua, perché è nella corona più interna.
Quindi l’errore sistematico, traducete questo che è un altro esempio, e vi rendete conto che
devono essere due le caratteristiche. Deve poter essere quanto più preciso possibile, quanto
meno BIASato, quanto BIASato negativamente, cioè deve essere BIAS zero, ma questo in teoria,
nella pratica io mi ritrovo comunque il BIAS. Una cosa è la teoria, nella pratica è tutta un’altra
cosa. Nella pratica io mi ritroverò ad avere un random, un errore random che me lo prendo,
perché il random non mi inficia il risultato, però il BIAS devo attenzionarlo perché se aumenta
mi andrà a produrre un out come sbagliato, non attendibile, devo poterlo identificare per meglio
non azzerarlo ma abbatterlo, contenerlo.
Quindi BIAS significa pregiudizio. In senso lato si definisce BIAS qualsiasi errore che può
alterare la validità del risultato a qualsiasi punto.
Esempi.
BIAS di campionamento
All’inizio, quando vi feci vedere come si raccolgono i campioni, secondo certi criteri di
eleggibilità, quei criteri che escludono quegli, quei campioni, quelle validità, quello è un errore
di campionamento.
Errori di stima, BIAS di stima. BIAS cognitivi, e così via.
BIAS di pubblicazione, errori possono essere pure i dati digitati male, anche quello è un errore,
ma quello è correggibile, basta accorgersene e quindi correggere, è chiaro. Quindi io tengo a
parte sempre quella che è la percentuale di errore.
Come possono esserci anche gli errori che derivano dai fattori confondenti, dalle variabili di
confondimento.
9
Quindi l’errore non random è presente in qualsiasi punto. Come anche per esempio è l’errore di
metodo, anche quello è un BIAS, sono errori molto più grossolani e meno importanti, però
bisogna attenzionarli in quanto non casuali.
Per evitare nello specifico il BIAS, l’errore di selezione, occorre identificare la popolazione di
interesse e la popolazione realmente accessibile, il target, poi applicare il metodo appropriato
al campionamento che garantisce la … [casualità?]. Non ho detto nulla di nuovo, l’ho anticipato
prima. Gira e rigira, il metodo con cui mi assicuro l’abbattimento del BIAS, almeno quello di
selezione, è quello della randomizzazione.
Il problema può essere più importante negli studi retrospettivi, per esempio negli studi di co… o
negli studi di comparazione, vedi quello per eccellenza il caso … [controllo?] coi punti che
vengono matchati, in cui l’esposizione alla malattia è già avvenuta prima della selezione. Nello
studio di caso controllo io raccolgo dei casi, quali sono? E’ il gruppo, è costituito dal gruppo dei
soggetti che hanno avuto già questa funzione, quindi è uno studio retrospettivo, l’abbiamo
capito. Oppure quando la selezione è di tipo non probabilistico, vedi il campionamento per
accessibilità, oppure per convenienza.
A seconda della tipologia di studio che io vado a implementare mi ritrovo un certo tipo di BIAS,
fermo restando che l’errore random ci sarà comunque.
Altro esempio, negli studi clinici i Trial, i cosiddetti Trial randomizzati, lo dice la stessa parola,
RCT, randomizzato controllato, è un tipo di campionamento che si utilizza perché mi assicura
l’attendibilità del mio campione.
Errori di misurazione, anche questi possono essere errori da eliminare o da abbattere. Nella
misurazione dei fattori di esposizione, oppure e/o nell’outcome della risposta.
Errori sistematici sono quelli dovuti a un difetto di calibrazione dello strumento. Se la mia
variabile è la temperatura, io devo assicurarmi che il metodo con cui io misuro la temperatura
sia attendibile. E qual è la migliore medicina per assicurarsi questo? Quello che l’apparecchio sia
funzionante. Perché se non è funzionante io introduco un errore sistematico che me lo ritrovo
sempre, che mi inficia il risultato.
Riassumo quelli molto più importanti.
Errori nella raccolta dei dati. Molti BIAS sono dovuti all’influenza dell’atteggiamento del
paziente. In uno studio sulla ipertensione, per esempio, immaginiamo di andare a pianificare uno
studio mirato a quanti, a come nell’ipertensione agisce, si comporta, in uno specifico gruppo.
Chi raccoglie i dati può trattare i gruppi in maniera diversa, per esempio misurare la pressione in
un modo più accurato in coloro che sono affetti, mentre nell’altro, in un gruppo più
accuratamente e nell’altro meno accuratamente. Quelli sono errori che si devono comunque
eliminare, e si possono eliminare. Chiaro no?
Questo invece è molto importante enfatizzarlo, perché lo ritrovate quasi sempre. O meglio
potremmo ritrovarlo. Quindi il confondimento è dovuto alla presenza di variabili nascoste,
variabili che non sono legate al rapporto causa-effetto.
Esposizione, fumo, malattia, l’outcome l’asma. Si chiede, il fattore di confondimento è legato
10
all’esposizione oppure no?
Eccolo qua. Bevitore di birra, consumo di birra e cirrosi. Cioè, la variabile di confondimento e
che io mi ritrovo, perché nel questionario vado a estrapolare i dati e mi ritrovo l’uso di pizza,
oltre all’uso di bere, e quindi l’outcome :quanti hanno la cirrosi e quanti non ce l’hanno, e mi
ritrovo anche questa variabile. Come gestirla? Perché potrebbe anche non essere una variabile
confondente, ma potrebbe essere legata alla birra.
Immaginate un’altra, una variabile tale che rafforza il danno che può provocare la birra,
immaginando che non sia la birra. Cioè a dire, la variabile confondente, confondente fino a
quando si mette in mezzo e mi confonde le idee come dice la stessa parola. Quindi io devo
andare a vedere se la cirrosi è veramente legata al consumo di pizza oppure no. Assolutamente
no, ma è legata al consumo di birra. Quindi, il consumo di pizza sarebbe un fattore confondente
se fosse fattore di rischio, cioè non è una variabile che enfatizza il fattore di rischio, ma è una
confondente che interferisce semmai, quindi io lo devo trattare come variabile di
confondimento che non agisce sull’outcome. Ecco perché di confondimento, perché se non
fosse tale sarebbe una variabile che accresce il fattore di rischio. Vedi per esempio questo.
Fumo di sigaretta, consumo di birra. Ci si chiede, il fumare può aumentare l’azione dannosa
della birra nel provocare l’ulcera? Bisognerà andare a vedere quanto è confondente e quanto no.
Quindi i fumatori che non bevono birra hanno un tasso di ulcera peptica maggiore dei non
fumatori. Perché? Com’è possibile che quelli che non fanno uso di birra, hanno un tasso
maggiore di ulcera dei non fumatori? Allora la sigaretta non è una variabile di confondimento,
è una variabile che si associa al fattore di rischio, potenziando questa azione.
Nell’esempio che scorreva poco fa, si parlava dei fattori di rischio e della malattia. Birra e
cirrosi. Questo esempio è calato nel tipo di studio caso controllo. Io ho raccolto due gruppi, uno
di casi, e uno di controlli. Come faccio a determinare i possibili fattori di confondimento? Quali
sono i possibili fattori di rischio associati alla malattia? Quali di questi associati anche
all’esposizione, rafforzandone l’azione? Questi saranno i possibili fattori confondenti.
Quindi una buona ricerca deve poter avere una assenza di BIAS, o comunque un BIAS
contenuto da monitorare perché potrebbe aumentare in maniera esponenziale. BIAS dovuto
a diversa tipologia di errore.
Esempio pratico. Immaginiamo che un direttore generale di una ASP intende sapere qual è la
diffusione della patologia nella popolazione del suo territorio della ASP, avendo come obiettivo
un migliore e più mirato utilizzo delle risorse. Commissiona quindi una indagine. Qual è la
tecnica che utilizzo per questo studio commissionato? Intervista effettuata a domicilio.
Questionario semi-strutturato. Che cos’è un questionario semi-strutturato? E’ un questionario
dove io vado a calare delle domande mirate ad arte, fatte prima, per avere un certo tipo di
risposta. E’ chiaro che questa tecnica ha sia dei vantaggi che degli svantaggi. Uno svantaggio più
macroscopico è quello che le domande vengono fatte a caso, però nell’intervista si evita,
l’operatore evita di avere delle risposte così, buttate la, quindi questo è un vantaggio. Contiene
le caratteristiche anagrafiche con delle variabili. Che variabile è il sesso? Qualitativa
dicotomica. L’età che variabile è? Quantitativa! Infatti l’unità di misura qual è? Anni! Giorni, se
sono neonati.
Altra cosa, quando io vado a mettere nel mio studio la variabile, devo andare a dire quale unità
utilizzo. Il peso, chilogrammi. Non posso nel corso dell’opera cominciare in un modo e cambiare,
11
devo tornare indietro a ridefinire quello che è lo studio, quindi ciò che è stabilito a priori non
dovrebbe essere, in teoria, cambiato. Ma se ci sono vari eventi sfavorevoli che mi portano a
cambiare, devo tornare indietro a ricorreggere, a ridefinire.
Stato civile, che variabile è? Qualitativa politomica, che si presta ad essere codificata,
principalmente per motivi pratici, perché i dati vanno ad essere inseriti in un foglio di Excel, e
se inseriti come variabile, ad esempio “coniugato, vedovo, etc.” diventa indaginoso nel calcolo
1.11.33successivo, e allora io lo codifico con un numero, la categorizzo, secondo un certo
criterio.
Scolarità, variabile di tipo? Qualitativa. Se ci fosse stato grado di malattia, che tipo?
Qualitativa, politomica.
Quindi, inserirò tutte queste caratteristiche anagrafiche, diverse domande indaganti lo stato di
salute di ogni rispondente rispetto alla presenza o alla assenza di cardiopatie. Perché l’obiettivo
era quello, delle malattie cronico degenerative. Quindi devo andare a vedere quanti soggetti
hanno questa patologia o patologie molto prossime a questa. Non metterò l’asma, perché non
me ne frega niente, ma se ci fosse una correlazione, io inserirei nel questionario anche
quell’informazione, quanti hanno quella caratteristica e quanti non ce l’hanno. Perché questo?
Perché potrebbe essere anche interessante andare a correlare la cardiopatia con situazioni che
molto spesso possono essere associate. Per esempio il fumo. Se io già a priori so che la patologia
cronico degenerativa può essere dovuta al fumo, devo andare a monitorare e a vedere quanto
incide il fumo su questo campione.
Ciascuna informazione raccolta è detta variabile. Non vi ho detto nulla di nuovo. Questi sono
parametri o variabili.
Alcune delle variabili misurano la presenza di determinati stati con cui una caratteristica si può
presentare. Colore dei capelli, che variabile è? Qualitativa, politomica.
Altre misure, in termini quantitativi, come una determinata caratteristica si presenta ed
esprimere questo modo di presentarsi con un numero. Quindi andate a fare bene le variabili,
quantitative, qualitative. Delle quantitative quelle continue e quelle discontinue, perché ognuna
avrà la sua caratteristica.
Sulla base di questo, poi, andando avanti, sapremo quale test è più corretto utilizzare.
Tutte queste informazioni che vengono fuori dal questionario, cioè a dire dall’intervista,
verranno messi in una matrice di dati, in un banalissimo foglio di excel. Perché in un foglio di
excel? Perché questo si presta molto bene per essere importato in software che poi andranno a
gestire la mia … (rimane in sospeso la frase).
Da che cosa è data una matrice di dati? Da righe e colonne. Le righe rappresentano una cosa e
le colonne un’altra cosa. Le colonne cosa rappresentano? La sequenza numerica. Le righe
rappresentano le variabili, se io lo studio in quella maniera. Molte volte si fa così. La variabile
sta nelle colonne, mentre nelle righe sta l’informazione, che è al singolo soggetto. Di ogni riga
avrò di un soggetto notizie di tutte le variabili (quando si dice esprimersi con il culo).
Tutto questo in gergo è una matrice di dati.
Altra cosa. Si è parlato di variabili, si è parlato di indicatori, in maniera molto trasversale,
all’inizio di indicatori descrittivi, vedi media e così via. Adesso ci stiamo avvicinando, se state
12
notando, rispetto all’altra volta, allo studio della statistica, piano piano. Cioè io la pillola ho
cercato di darvela molto lentamente, per farla assorbire molto lentamente. Non ho cominciato
subito col test, perché il test è una formula che si deve identificare, capire e poi da li uno si
trova. Questo, se tu togli la parte anteriore, non capisci niente. Si si può fare, sì può imparare la
regola a memoria, però poi, alla fine, dietro quella regola, qual è la condizione per poterla
applicare? E’ correttamente applicata oppure no?
Secondo. Quando tu svolgi un’operazione matematica, come interpretare il risultato che ti viene
fuori, che è un numero? Quindi, tutte queste cose sono consequenziali alle conoscenze di base.
Perché quello dell’altra volta era solo un’introduzione, se vogliamo, della tipologia di studio che
andavamo a calare nella nostra analisi.
Le SCALE che cosa sono?
Sulla base del tipo di relazione si possono individuare quali caratteristiche un soggetto
appartiene a un collettivo. Per collettivo s’intende n soggetti, cioè sono le unità che
compongono la mia popolazione campionaria.
Quali sono queste scale di misura?
Nominale. Se io ho raccolto un campione … costituito da Roberto, Giacomo, Genoveffa,
Sempronio eccetera, io ho un elenco di nomi, la cui scala è nominale. Quindi devo utilizzare nei
miei calcoli quel tipo di scala, perché ho identificato i soggetti sotto il nome, in forma diciamo
alfabetica,quindi secondo un un un un nome.
Ordinale. Immaginate i gradi militari. Seguono una sequenza, dal generale fino al lavapiatti. IO
adesso non me li ricordo tutti, comunque è quello. Quella scala di militari è rappresentata
secondo un certo ordine. E’ una scala ordinale, non posso io sovvertire l’ordine, ok?
Scala d’intervallo. Se misuro la temperatura, la temperatura che variabile è? Quantitativa.
Perché? Perché la posso quantificare e utilizzo un apparecchio che sia tarato sennò mi produce
risultati sbagliati. La temperatura, cioè l’apparecchio per la temperatura come è fatto? Secondo
una scala dove io so in partenza che l’intervallo piccolo è uno, l’intervallo grande, medio, è 5,
tutto è 10. Quella è una scala a intervalli. Quindi se è una variabile di tipo di quel tipo,
utilizzerò no una scala nominale, ma utilizzerò una scala a intervalli.
Scala di rapporti. Lo dice la stessa cosa.
Questi poi li rivediamo meglio negli esempi.
SI parla di misurazioni, di quantificare una variabile, però per essere tale, per essere valida una
misura, devo poterla riferire a quello che è uno standard per eccellenza. Il gold standard non è
altro che uno strumento di misura, diciamo quello più perfetto possibile.
Immaginate l’ora. L’ora che noi utilizziamo ora, in questo momento, scusate la cacofonia, si rifà
a che cosa? Al meridiano di Greenwich. Di riferimento è quello, per noi è il golden standard.
Quindi è la tecnica, il modello di riferimento.
Quindi, abbiamo cominciato con la popolazione, siamo passati alla popolazione campionaria, e
quindi, inevitabilmente, abbiamo tirato in ballo la statistica inferenziale, l’inferenza che cos’è,
e quindi la statistica inferenziale tira in ballo che cosa? La statistica descrittiva. Per fare
statistica inferenziale devo fare statistica descrittiva. E non il contrario. Se ho una popolazione
probabilistica, un campione probabilistico, non posso fare prima la statistica descrittiva e poi la
statistica inferenziale. Al contrario, perché è logico no? Il procedimento è logico.
13
Quindi, la statistica descrittiva è quella che presuppone… (frase incompleta.) Come dice la
stessa parola, io vado a osservare il mio fenomeno nel campione, descrivo.
Una tecnica che consente di sintetizzare da un punto di vista di calcolo è la media aritmetica.
Mentre quella che descrive in maniera grafica, in maniera non tabellare, non numerica, è il
grafico.
La frequenza che cos’è? In pratica, quante volte io conto le donne in quest’area, in questo
campione rispetto agli uomini. Quello è il numero, quante volte si ripete un certo sesso, la
variabile del sesso.
Per esempio, se io devo andare a studiare l’ipertensione, io devo sapere quanti sono gli ipertesi,
quanti sono quelli che hanno valori normali di pressione. E’ necessario scegliere la colonna della
matrice nella quale vado a trovare l’informazione sul soggetto iperteso. E’ chiaro che se la mia
variabile è ipertensione sì/no, quella è una variabile di tipo dicotomico. Siccome l’ipertensione
è dovuta alla variazione della pressione, io posso avere sia la pressione arteriosa quantitativa,
sia l’effetto, cioè a dire assenza/presenza di ipertensione, variabile dicotomica. Quindi bisogna
intenderla in una certa maniera. E’ evidente che in questo caso l’ipertensione è
presenza/assenza, quindi è variabile dicotomica. Quindi nella matrice io avrò un certo numero
della frequenza di quelli che hanno l’ipertensione e di quelli che non ce l’hanno. Se poi vi
interessa saperlo, quanti sono quelli che hanno la pressione normale e quanti quelli che hanno la
pressione alterata che mi riconduce all’ipertensione. Anche quella è un’altra frequenza.
E allora, se io vado a contare, la conta totale è la frequenza assoluta. L’ipertensione, nel mio
campione sono 201, quelli invece che non ce l’hanno sono, su un totale di 500 persone 201 ce
l’hanno e 299 non hanno invece ipertensione. Che cosa significa questo? Significa che io devo
andare a vedere a 201 rispetto a tutto il campione selezionato quante… Basta fare il rapporto,
200 diviso il totale e avrò la frequenza in percentuale, avrò una frequenza relativa. 0,40, quindi
il 40 percento. Quindi avrò un’informazione che è molto più dettagliata di questo. Perché dire
201, e dire il 40% è un’altra cosa. Ma sono due facce della stessa medaglia. E’ una misurazione di
frequenze. Quindi io sto descrivendo in merito alla presenza dell’ipertensione. Non sto facendo
altro che una banalissima conta. Poi questo io lo posso rappresentare sotto forma tabellare,
come lo posso rappresentare sotto forma grafica, è la stessa cosa.
Questa rappresentazione grafica è quella che si presta meglio per dare più visibilità dei risultati,
rispetto alla tabella, a condizione però che il grafico sia leggibile, anche da chi non capisce
l’argomento. La bontà del grafico diciamo è quello che da una risposta migliore all’osservatore.
Più della tabella, perché la tabella bisogna andare a leggerla. Fino a quando la tabella è
semplice, va bene. Quando invece ci sono molti dati, molte righe, molte colonne, diventa
impossibile interpretarla subito, mentre con il grafico io faccio subito.
Questo è il mio grafico, questa è la tabella iniziale, sotto forma di frequenza assoluta e relativa
e percentuale.
Questo invece è il grafico effettuato come? Allora io utilizzo comunque un sistema di assi
cartesiani, dove vado a mettere sull’asse delle X la mia variabile. Cos’era, l’ipertensione? La
pressione? Avrò la pressione. La pressione quali unità misura utilizza? mmHg. Qui invece viene
portato l’esempio non per singolo valore, non andrò a mettere da 0 a valore massimo, ma andrò
a mettere dei valori incasellati in un certo numero di classi. Perché c’è l’esigenza di mettere
queste classi? Dal al. Da 100 a 120, da 120 a 130 eccetera eccetera? Esattamente due quattro sei
14
classi. Perché dividendo tutta la mia stringa di valori della variabile, dividendola per 6 io che
faccio? Comprimo quello che è il mio grafico. Se io lo dovessi fare per singolo valore, avrei un
grafico più lungo. Quindi per convenienza si utilizza la divisione in classi.
UN esempio pratico. Se io devo andare a vedere com’è la colesterolemia in questo campione, io
che faccio? Raccolgo tutti i valori di colesterolo, e ho, quanti siete 45? 45 valori. Posso farlo per
singolo valore come posso farlo per classi. E qual è il criterio per dividerlo per classi? E’ un
criterio arbitrario, cioè, più classi ci sono più lungo è il grafico. Meno classi ci sono e meno lungo
è il grafico. E’ chiaro che per dividere, nell’organizzare la variabile in classi bisogna tenere
conto anche della stringa, è chiaro. Perché se voi riducete il numero di classi, il grafico si vede
un po’ più stretto.
Che cosa osserviamo poi? Se unite tutti i punti centrali della parte superiore del grafico, avrete
una linea. Avrete diciamo una forma di campana che è asimmetrica, lo vedete? Avrà questo lato
e questo plesso più lungo rispetto a questo. Immaginate di togliere i rettangoli, e di vedere
queste linee.
Quindi il grafico lo posso fare sia per rettangoli che per linee, per punti. Quindi, il grafico in
questione si chiama Istogramma. Quindi l’istogramma che cos’è? E’ un grafico di frequenza.
Quindi dire istogramma e dire grafico di frequenza è la stessa cosa.
Ma come può essere il grafico di frequenza? Grafico a barre, grafico a colonne, grafico a
punti, grafico a linee. E sono tutti la stessa cosa, sono grafici di frequenza. Per istogramma
s’intende quello a barre, a colonne. Poi, se voi avrete la pazienza e vi divertite, un poco andate
su excel e vedrete questo istogramma come si può descrivere. Colonne parallele, colonne
impilate l’una sull’altra, basta divertirsi un poco, quindi vengono distinti in base al colore, sono
la stessa cosa, sono sempre grafici di frequenza.
Qual è il vantaggio? Certo se sono moltissimi dati conviene fare non questo a barre, in questa
maniera, conviene fare diviso per classi, quelle impilate, perché occupa meno spazio. Dipende
dalla mole di numeri che avete.
Stavo dicendo l’esempio del colesterolo che vi stavo finendo. Se io vado a valutare il colesterolo,
solitamente il mio grafico come si rappresenta? Non si rappresenta secondo tutti i valori, ma si
rappresenta sempre in classi. Perché? Per una questione molto pratica. Il colesterolo ha un range
di normalità che va da a. A me interessa che saranno dieci, ventimila, adesso non ricordo. A me
interessa, è molto migliore rappresentare questa variabile sotto forma di classi, perchè mi dice
quanti sono quelli che ricadono nei valori normali, e quanti quelli che sono ipocolesterelomici o
ipercolesterolemici. Quindi, per una questione anche di convenienza, di praticità di lettura, io
non utilizzo la mia stringa di dati, ma i valori organizzati in classi.
Che cosa emerge da qua? Che i soggetti che maggiormente incidono sono quelli tra 200 e 250.
Vedete? Quelli invece che hanno valori molto alti, sono una piccola percentuale. Cioè i valori al
massimo, oltre l’ipercolesterolemia. Ma tre quanti sono? Basta fare il rapporto. Tre diviso il
totale. Ventiquattro diviso il totale.
Quindi abbiamo fatto la frequenza assoluta, la semplice, la frequenza in percentuale, la
frequenza relativa percentuale, la frequenza cumulata. Da dove si ricava? Da quella
precedente sommandola. la prima più a seconda e la terza e così via. Quindi noi sappiamo per
esempio, se questo è il range di 200-220 che mi rappresenta la maggior parte, cumulando questo
dato io ho 61% di quelli che ricadono in questa fa..citura. Quindi io a discrezione posso utilizzare
15
una o l’altra, vedere qual è secondo il mio arbitreio andare a descrivere.
Quello che abbiamo visto poco fa era un grafico a barre,quindi istogramma, o a colonne.
Diagramma a torta. Diagramma a torta non è altro che un diagramma circolare, dove un singolo
spicchio rappresenta una percentuale, un settore di tutto che è 360gradi, ok? Quando si presta
meglio il grafico a torta? Se io utilizzo frequenze in percento, quello si utilizza meglio del grafico
a barre.
Cartogrammi. Altra tipologia. Questa la stessa tipologia di informazione, soltanto che nel grafico
a barre, la percentuale cioè la frequenza si nota di più, perché il grafico a torta si manifesta,
diciamo rende meglio quello che deve essere il risultato.
Poi ci sono grafici a barre attaccate e a barre distanziate. Grafico a linee. Anche questo un
cartogramma che si presta per altri motivi.
Abbiamo parlato di popolazione, ritorno sempre all’osso, cercando di fare il link con gli
argomenti di prima. Popolazione campione. La sintesi del campione che cosa è poi alla fine? Un
numero, che è la media. La media. Come ottengo io la media? Io per sintetizzare il campione,
che cosa faccio? La variabile relativa al peso. Ho una stringa di valori, sommo, e divido per il
numero, avrò ottenuto la media normale. La media aritmetica è un indicatore statistico di
tendenza centrale, poi ci sono medie e medie, ma quella che io utilizzo per rappresentare il mio
campione è la media. Però la media, come indicatore di tendenza centrale, o indicatore di
posizione, perché conduce al valore che occupa la posizione centrale della mia stringa di valori,
avrò a che fare anche con indicatori di dispersione o variazione. Ora ci ritorniamo.
Facciamo un passo indietro. Sintetizziamo le nostre variabili.
Variabili qualitative. I valori non sono grandezze numeriche ma modalità. Modalità,
maschio/femmina. Gruppo 0/A/B. Queste sono le modalità.
Scala nominale e scala ordinale. Dipende dalla tipologia di variabile. Quindi, c’è una variabile,
ed identificata quella variabile andiamo a scegliere il tipo di scala da utilizzare.
Variabili quantitative, possono essere discrete, quando sono valori interi, continue, quando,
età per esempio, hanno valori all’interno di un intervallo range. In un campione vado a misurare
l’età, quest’età ha un range, grossomodo è quello, se il campione è omogeneo.
Quindi questo è molto importante, sapere identificare il tipo di variabile, perché da questo esce
fuori, emerge il tipo di scala, il tipo di unità di misura da utilizzare e quindi il tipo di test da
utilizzare.
Media. Non mi soffermo a lungo. Sommatoria dei singoli valori, quindi si parla di variabile
quantitativa, se io parlo di media, parlo di variabile quantitativa. Sommatoria di valori diviso…
Quindi io avrò fatto due calcoli, somma, il primo calcolo di base, con la media aritmetica io
rappresento il campione, quella variabile nella popolazione probabilmente, poi lo vedremo,
andrà attorno a quel valore. Però io non ho utilizzato tutta la popolazione, ho utilizzato una
parte della popolazione, quindi io so in partenza che ci sarà un errore. Qual è l’errore? Se io
vado a misurare l’altezza, l’età, l’età più o meno è quella, ma dovrebbe essere uguale, ma non
è così, ci sarà quella che è più grande è quella che è più piccola. Quindi, se andiamo a sommare
avremo una media, attorno a questa media ci sarà quello che è l’errore, cioè a dire la
16
variazione, la dispersione. La media aritmetica è un indicatore che risente molto dei singoli
valori, dei valori estremi. Immaginiamo che in questo collettivo ci siano persone che sono
entrate molto dopo, e quindi sono più grandi. Quelle persone mi sposteranno quello che è il
valore medio, perché aumentano l’errore. Quindi mentre l’età media so qual è, quei tre, quattro
ragazzi mi aumenteranno l’errore. Quindi questa media sarà influenzata da questo errore. Più
ragazzi ci sono più grandi, più la media diventa poco accurata, inattendibile, quindi questo
errore inteso come indicatore di dispersione, è una variazione che mi dice quanto è accurata la
mia… se io ho scelto il mio campione più possibilmente omogeneo, questa media non è un valore
assoluto, ma una media con un errore piccolissimo, ok? Quindi ritorna al discorso del campione
rappresentativo.
La media ponderata invece non è come la media aritmetica. Molte volte può capitare di dover
dare un’enfasi maggiore ad un valore. La media presuppone che si dia un certo peso quando noi
andiamo a fare la frequenza, perché la media presuppone aver fatto una frequenza prima, è
chiaro questo, no? La media ponderata tiene conto del singolo valore, e come si calcola? Primo
valore per n1, più secondo valore per n2 e così via, il tutto diviso n. E allora è una media un
poco più precisa, che abbatte l’errore. La media ponderata non segue lo stesso difetto della
media aritmetica. Poi ci saranno altre medie che vi interessano relativamente. Quello che a voi
interessa invece è questa, poi la media aritmetica e poi la mediana.
La mediana è un altro indicatore di posizione, differente dalla media aritmetica, e che darà
origine a due tipi di statistica. Vengo e mi spiego. Perché da questa emerge un altro concetto
molto importante, però se manca questa percezione di questo concetto non si capisce che
significa test parametrico e test non parametrico, statistica parametrica e non parametrica. Da
che cosa deriva? Da questo concetto, dalla mediana e dalla media aritmetica. Allora, qual è la
differenza? La mediana, come dice la stessa parola ,è il valore che sta al centro di una
disposizione. Per calcolare il valore mediano, io non devo sommare tutti i valori, sennò sarebbe
una media aritmetica, ma devo organizzare la mia stringa di valori secondo un ordine.
La mediana presuppone che io disponga la mia variabile, il peso, secondo un ordine. Tipo e
grado di ordine, dal primo all’ultimo, dall’ultimo al primo, è la stessa cosa, quindi in ordine
ascendente o discendente non cambia niente. Il valore che sta al centro è la mediana. Che
significa mediana? Quel valore che rappresenta il 50%. Perché? Perché il 50% dei valori che sta
alla mia destra sono i valori più bassi, e dall’altro lato i valori più alti. Quindi la mediana non
risente dei valori estremi. Per ottenere la mediana di una stringa di valori pari, si fa la media
aritmetica dei due valori centrali.
Fra media e mediana esiste quindi una differenza sostanziale. La media presuppone che i dati
siano normalmente, che significa normalmente? Se foste tutti clone, se io vado misurare il peso,
il peso sarebbe sempre lo stesso, non avrebbe differenze. Ma siccome non siete cloni, questa
variabile biologica ha un certo andamento nel campione. Questo andamento più grande o più
piccolo, è quello che mi dipinge l’errore attorno, e quindi cambia la media. La media è un dato
parametrico che risente dei valori estremi, dell’andamento normale. Io per andamento normale
intendo dire una variabile che si distribuisce secondo la variabile di gauss, il teorema di gauss, la
campana, quindi una variabile biologica si distribuisce secondo una campana. Ma quella è quella
teorica, nella pratica non avrò mai una distribuzione di variabile a campana. Però se io ho
adottato quegli accorgimenti, la mia variabile è prossima all’essere a campana, che significa
prossima ad essere normale. Normale significa, come vedremo dopo, che se io divido dal punto
più alto verso l’asse delle y il grafico in due parti, io avrò il grafico diviso in due parti una
17
speculare dell’altra. Ora la variabile normale si distribuisce in quella maniera nella popolazione,
ma non nel mio campione, perché io avrò un errore, quindi dirò che il mio campione sarà
prossimo alla normalità.
Quindi questo è un altro indicatore di posizione descrittivo.
La moda che cos’è? La moda è un altro indicatore che descrive la frequenza più elevata in una
distribuzione, il valore con frequenza più elevata, cioè a dire quello che si ripete più volte,
quello è il valore modale.
Anticipo, il valore medio aritmetico e il valore modale, quando coincidono nello stesso punto del
grafico? Solamente in una condizione, nella curva a campana di Gauss, in cui media mediana e
moda corrispondono allo stesso valore.
In una distribuzione possono esserci più mode, riconducibili a popolazioni diverse. Esempio.
Supponiamo che qui ci siano 45 ragazzi di etnia caucasica, e tre americani, che escono fuori
range, quindi quei tre appartengono a un’altra popolazione, perché avranno un altro valore
modale, quindi la curva non sarà con una moda, ma con due mode perché è riconducibile a due
popolazioni.
I percentili che sono? I percentili, come la media, la moda e la mediana, sono indicatori di
posizione. Intanto i percentili, come dice la stessa parola, divide la serie ordinata, secondo un
ordine cronologico, in cento parti. Considerando quindi questa divisione in percentili, la mediana
sarà data dal 50esimo percentile, mentre il singolo valore della mia stringa rappresenta l’1%
delle mie osservazioni. Il 25 percentile è quel valore che lascia da una parte, a sinistra, il 25%
delle osservazioni, a destra rappresenterà la differenza per arrivare… Ok? 100 meno 25 fa 75. 75
percentile è quello che lascia il 75% percento da un lato, e il 25% dell’altro lato. Il mio range di
questa distribuzione che cosa sarà? 0-100! Se io ho ordinato la mia distribuzione avrò 0 che è il
più piccolo e 100 che è il più grande.
Se io divido la mia stringa in quattro parti, io avrò diviso i miei dati in 4 quarti, quindi avrò
quattro quartili.
Se io la mia stringa la divido in decili, devo dividere in due parti. Cioè, se è in quartili devo
dividere in tre per averne quattro, se è in decili devo dividere in uno per averne due.
Allora, percentili, mediana, media, moda, sono tutti indicatori descrittivi statistici, poi
all’interno ci sarà un modo diverso di approcciarsi al caso. I percentili in un modo, la mediana in
un’altra maniera, come somma, come valore centrale, la media come sommatoria in rapporto al
numero, sono tutti indicatori statistici descrittivi.
18