Lezione di STATISTICA del 18-10-2013 Sbobinata da Giuseppe Pablo Gasparro Prof. Vita Di che cosa si è parlato fino a questo momento? Si è parlato di tipologia di studi che noi dovremmo poter conoscere per poi applicare un modello matematico. Questa diversa tipologia di studi noi ce la ritroveremo poi nelle slide a seguire, però sotto un’altra angolatura e con ripetuti esempi. Altra cosa su cui voglio mettere a fuoco l’attenzione è il protocollo dello studio, cioè come si va a disegnare la nostra indagine. PRIMO PUNTO. Devo andare a selezionare le mie unità, i miei elementi secondo dei criteri: - Se sono soggetti, persone, pazienti, quali includere; - Con quali criteri prendere, selezionare questi pazienti(supponiamo che siano pazienti), e - quali escludere. Quindi devo andare a determinare quelli che per me sono per quel quesito i criteri di inclusione e quali quelli di esclusione. Questo è un punto molto importante perché se si sbaglia in questa fase noi ci ritroveremo poi a valle ad avere un campione distorto con BIAS, quindi errore. Bias è un termine generico con cui si intende errore, poi ci sono vari tipi di bias. Questo sarebbe un bias di selezione. Quindi bisogna decidere quali sono i criteri di inclusione che mi indurranno a selezionare i miei soggetti. Poi, quando e come reclutarli. Come faccio a procacciarmi le unità che andranno a costituire il mio campione? Devo descrivere quella che è la mia tecnica di reclutamento. E quale seguire? Ce n’è una migliore dell’altra? NO. Dipende dall’oggetto che io devo andare a studiare. Quindi, bisogna rimodularla in base al tipo di impegno. ALTRA FASE. Devo chiedere il consenso ai pazienti/soggetti. Se sono volontari coloro ai quali chiedo il consenso di partecipare, tutti devono firmare il consenso a partecipare all’indagine finalizzata a blablabla che io dovrò portare a conoscenza. DEFINIRE IL TIPO DI INTERVENTO. Quindi mi richiamo il concetto alla tipologia di studio. - Interventistico, se io devo implementare un farmaco, una terapia; oppure no, osservazionale, quindi non interventistico. Definire quello che è l’OBIETTIVO FINALE, l’outcome, il risultato e le modalità di misurazione. Io come vado a procurarmi, ad avere il risultato? Con quale metodologia matematica, con quale tecnica? Questo fa riferimento al tipo di approccio matematico, statistico che io utilizzo. Poi, definire le modalità da utilizzare per verificare che lo studio proceda correttamente. Quindi devo indicare nel disegno dello studio quale metodo utilizzo per assicurarmi che sia quanto più possibilmente corretto. Visto da un’altra angolatura, devo andare a definire qual è 1 l’errore che io mi presuppongo, che io mi impegno a non superare. L’errore o la percentuale di errore. Definire le modalità di azione in caso di circostanze sfavorevoli come imprevisti (come dropouts, gli errori nella raccolta dei dati, etc). Se io ho selezionato -mi viene in mente l’esempio dell’asma- lo studio ISAYA (Italian Study on Asthma in Young Adults) : Devo partire dal presupposto che devo raccogliere quel tipo di [mi riferisco a quell’esempio in particolare] tremila soggetti, perché da studi pilota fatti precedentemente si è stabilito ciò. Quindi io parto con questa linea guida. Quindi se il mio campione deve essere, alla fine, di giovani adulti etc etc che ….. dell’asma correlato al fumo, Se io parto dal presupposto che devo raccogliere tremila soggetti, devo poter prevedere che il mio campione resti stabile come grandezza -in quel caso è uno studio di osservazione quindi richiede un tempo, quindi è prospettico : incomincio oggi, però poi prima che mandi questi dati, che mi ritornino e che li analizzo passerà del tempo. Quindi io devo poter prevedere che il mio campione resti stabile come grandezza. Nell’eventualità che io perda dei campioni, dei pazienti, dei soggetti, devo andare oltre i tremila! Questo oltre tremila è un piccolo rapporto che si chiama dropout. Quindi devo farmi carico di procurarmi una piccola scorta nell’eventualità che qualcuno non vada bene -qualcuno significa qualche questionario che io devo eliminare perché non va bene, o qualcuno si trasferisce. Siccome quell’esempio sempre dell’ISAYA prevede sempre che vengano censiti soggetti maschili e femminili, in quella fascia di età che sono residenti nella zona in cui prende avvio la ricerca e per fare tutto ciò devo matcharli con l’elenco, come faccio ad essere sicuro che i soggetti tizio e sempronio sono residenti? Perché faccio il doppio incrocio, ovvero vado a vedere se questi sono iscritti nelle liste dei pazienti dei medici di base, e nel contempo vado a matchare questo dato con quello che mi risulta dal comune, devono risultare che sono iscritti nel comune. Perché se così non fosse io avrei un soggetto che non va bene, chiaro? Quindi se ci sono soggetti di questo tipo io vado a perdere unità. Ecco,quindi,l’utilità di andare ad attingere in questi casi ai drop outs, a un altro piccolo campione che mi procaccio e non considero, per assicurarmi che alla fine il mio campione su cui andrò a studiare quel fenomeno, l’asma, è di 3000, perché le linee guida mi dicono questo, e non al di sotto! Certo, se è di più mi va bene, ma non deve essere di meno. Poi possono verificarsi errori nella raccolta : ho fatto l’esempio dei questionari sbagliati, non attendibili che sono poco esaustivi, quindi devo eliminarli. Poi tutto questo lo devo descrivere sotto forma di DIAGRAMMA A FLUSSO, cioè devo dare un aspetto più elegante, grafico di quello che è il disegno dello studio. Come vado a selezionare i soggetti. Abbiamo detto che i soggetti vanno selezionati secondo certi criteri di eleggibilità : quelli che rientrano a far parte, che hanno QUELLE caratteristiche. La selezione deve poter fornire un campione random. Che significa campione random?Vado a prendere tutto l’elenco dei pazienti iscritti alle liste dei medici di base, vado a randomizzare le mie unità. 2 La casualità del campione è l’aspetto fondamentale, e deve essere sempre salvaguardata. Il mio campione si avvicina a quello che è dipinto come campione rappresentativo di tutta la popolazione, e in questo caso di tutti i soggetti scritti nelle liste dei medici di base. I criteri di selezione devono essere sempre specificati in anticipo. Quindi se io in corso d’opera volessi cambiare, non posso. Devo ricominciare tutto da capo, perché una volta che stabilisco e dico come intenderò procedere, così devo mantenere. Fin qui è emerso che io ho una popolazione generale che è quella dei soggetti iscritti nelle liste di medicina di base, moltiplicate in tutto per il numero di medici di base. Quindi esce fuori una certa popolazione, cioè quello è il mio target. Questa slide in maniera grafica espone ancora meglio il concetto fino adesso espresso. Io ho parlato di popolazione target e poi di tremila, di un campione scelto secondo questa tecnica che assicuri la casualità. - - Il mio campione, la mia popolazione obiettivo, sono i pazienti iscritti nelle liste dei medici di base. Vado a procurarmi questa popolazione campionaria, questo campione, quell’esempio era già codificato in 3000 unità. Mi vado ad osservare il mio fenomeno. A me che cosa interessa? A me interessa andare a vedere la correlazione tra asma e fumo, e per fare questo devo andare a vedere quanti hanno l’asma, quanti non ce l’hanno, quanti invece dell’asma hanno patologie molto similari all’asma. Da questo questionario uscirà fuori tutta un’infinità di risposte che io dovrò cercare di interpretare. Quindi dovrò andare a descrivere il mio campione secondo quelle variabili che io già ho identificato, quindi, per prima cosa, avere o non avere l’asma, poi l’età, il sesso. Dopo aver descritto il mio campione, io sintetizzo il mio risultato secondo un certo procedimento che andremo a vedere oggi. Cioè a dire, io descrivo il mio campione, quindi che cosa faccio? La prima cosa che faccio, quindi nell’esempio del peso o dell’età, l’idea in generale è quella, è chiaro, ma io devo andare a vedere qual è l’età media dei maschi e differenziarla dalle femmine, o dei maschi che hanno l’asma e delle femmine che hanno l’asma, per esempio. Quindi io utilizzerò degli indicatori descrittivi che mi descrivono il campione. Dopo aver descritto questo, io sintetizzo il mio risultato utilizzando un indicatore per eccellenza che è la media aritmetica. Nell’esempio di una variabile quantitativa -richiamo un altro concetto, quello della variabile, quantitativa- che posso andare a misurare (l’età, il peso), andrò a indicare l’età media, facendo una stima di questo parametro, e poi questo risultato, questa informazione relativa all’età, eccetera eccetera, io la inferirò alla popolazione generale. Quindi l’inferenza in tutto questo diagramma a flusso non è altro che riguarda la statistica inferenziale. Fare inferenza significa: 1. Estrarre una popolazione campionaria o campione della popolazione generale; 3 2. Osservare il fenomeno sul campione, cioè a dire descriverlo; 3. Sintetizzare il risultato che altro non è che la media, o alcuni indicatori verranno ad essere inferiti, cioè verranno ad essere spalmati sulla popolazione. Ciò significa che quello che io osservo nel mio campione, accade nella popolazione generale con una certa probabilità, non in senso assolutistico, perché io son partito andando a studiare un campione, non tutta la popolazione. Cioè a dire, se io dovessi fare la stessa rilevazione su tutta la popolazione con una certa probabilità, con un errore molto basso, otterrei lo stesso risultato, solo che non la faccio sull’intera popolazione, per due motivi : 1. Perché costa troppo; 2. Perché potrebbe essere impossibile farla su tutta la popolazione, anche se questa è una popolazione finita. Immaginate una popolazione infinita, ancora peggio non si potrebbe fare. Questa retta sarebbe irrealizzabile. Io la faccio su una piccola parte della popolazione, cioè a dire su una popolazione campionaria, però se seguo certe metodologie, vedi randomizzazione, io mi assicuro di ottenere lo stesso risultato che potrei ottenere se la facessi rispetto a tutta la popolazione generale. Quindi in questo modo io risparmio energie, tempo, e ottengo lo stesso risultato. Io avrei un risultato assoluto qualora utilizzassi tutta la popolazione, cosa facile in teoria, e molte volte si può fare, ma molte altre no. Ma anche quando si può fare, non si fa per fare prima e per raggiungere lo stesso risultato attendibile, utilizzo questa tecnica. Però devo seguire quelle linee guida, quella metodologia rigorosamente tale da assicurarmi che il campione rappresenti la popolazione. Se il campione non è una fotografia della popolazione, non ho concluso niente, quindi l’inferenza cade. La statistica inferenziale è una statistica che si avvale della statistica descrittiva. Io per fare inferenza devo descrivere il campione, devo applicare degli indicatori che descrivano il mio campione, per esempio media e poi ne vediamo altri. Abbiamo dunque due tipi di statistica: la statistica inferenziale e la statistica descrittiva. La statistica inferenziale è una statistica probabilistica, perché, non potendola fare su tutta la popolazione, applico il teorema della probabilità. In che modo? Ammettendo qual è l’errore che io presuppongo di non superare e dando risultati attendibili. Quindi la media che io vado a misurare di questo campione entro un certo intervallo di errore è la stessa media che io devo avere nella popolazione, a condizione però che io abbia utilizzato una metodologia che mi assicuri che questo campione sia la fotografia della popolazione, cioè a dire che sia rappresentativo. Per essere rappresentativo devono esserci due, non uno o l’altro, contemporaneamente, peculiarità: - - Rappresentatività, cioè l’omogeneità del campione che mi è assicurata con questa tecnica o tecniche molto similari, però tecniche probabilistiche come lo è la randomizzazione; La grandezza. Nel caso dello studio ISAIA, si è determinato con studi pilota che 3000 era il campione definito rappresentativo. 4 Noi avremo a che fare con una statistica probabilistica e con una statistica non probabilistica. La statistica probabilistica presuppone che la scelta del campione sia casuale, affidata alla probabilità, ma ci sono anche tecniche che non sono affidate alla probabilità, quindi la statistica inferenziale crolla, perché si basa sulla probabilità. Quale metodo utilizzare? Metodo probabilistico o non probabilistico? Dipende dai casi. Ad esempio, se io devo fare un censimento non posso utilizzare una tecnica di scelta casuale, devo andare a prendere tutta la popolazione a tappeto. Questo è un metodo non probabilistico, perché l’obiettivo di questo studio non è di scegliere un campione casuale che rappresenta la popolazione, ma di sceglierla tutta per avere la … quanti sono gli abitanti nell’area. E quindi aggiornare il numero, per esempio. Tra i metodi probabilistici abbiamo la randomizzazione semplice, quella sistematica, e quella stratificata. Tra i metodi non probabilistici ci sono metodi per esempio a cluster, a grappolo. Io utilizzo, secondo una certa tecnica, la scelta di entro una certa area di questa unità, escludendo gli altri. L’utilizzo dipende dai casi, dal tipo di studi che vado ad intraprendere. Il campionamento è quindi la tecnica che vi assicura la scelta delle unità, l’abbiamo detto. Quindi, il campionamento probabilistico è la scelta delle unità da sottoporre allo studio che è regolata dalle leggi di probabilità ed ha senso parlare di inferenza se utilizzo una metodologia probabilistica. Non probabilistico, se la scelta delle unità da sottoporre allo studio non è di tipo probabilistico. CAMPIONAMENTO CASUALE Campionamento casuale semplice , campionamento random in cui ogni soggetto ha la stessa possibilità di essere scelto. Se ad esempio devo andare a prendere tre unità, perché stabilisco che tre rappresenta il mio campione sufficiente, in che modo vado a scegliere tre unità in mezzo a centottanta? Mi devo affidare a un metodo rigorosamente scientifico che mi assicuri una scelta casuale. Ci sono alcune tecniche che me lo consentono. La tecnica più semplice, la più elementare, è quella di andare a visionare una cartella, in un qualsiasi tipo di statistica, di numeri random. Se siete avvezzi all’uso della settimana enigmistica, sapete che significa. Ho dei numeri orizzontali, verticali, quindi io scelgo una certa area e vado a scegliere una stringa di numeri dopo la terza fila per esempio di tre numeri, che saranno per esempio 24, 35 e 72. Questa è una scelta casuale. Una tecnica più raffinata per effettuare un campionamento più ampio, utilizza un software che va a generare un numero random, stabilisco qual è il range entro 3000 per esempio, e lui mi va a selezionare questi 3000 soggetti. E’ chiaro che se io devo scegliere tremila soggetti, che corrispondono al numero complessivo dei pazienti iscritti alle liste dei medici di base, non devo fare come range 0-3000, devo dare come range 0-4000, per essere compreso, solo che col software si fa tutto più velocemente. CAMPIONAMENTO SISTEMATICO L’ennesimo soggetto è scelto dalla popolazione partendo da un punto di partenza random. Quindi io scelgo un punto e da quel punto io vado a fare sistematicamente, cioè a dire, ogni 5 seconda fila ne scelgo quattro, poi vado all’altra fila e ne scelgo quattro e sono otto, e così via. CAMPIONAMENTO SISTEMATICO NON RANDOM Quando la scelta del campione non è affidata alla casualità. CAMPIONAMENTO DI CONVENIENZA Se devo scegliere 3 soggetti, vado per comodità a scegliere quelli che mi stanno più vicini perché li raggiungo meglio, quindi un campionamento di tipo non probabilistico sicuramente. Nel metodo di scelta casuale, il campione che abbiamo scelto con metodo garantisce la casualità. Cioè a dire con questa metodologia io assicuro a tutti gli studenti la possibilità di essere scelti. Qui ho una certa popolazione di unità, scelgo a caso questo campione costituito da cinque secondo questa estrazione. Se io devo farla stratificata sulla base di diversa etnia, di diverso colore, di diverso sesso, la devo fare più volte, ma è sempre una scelta casuale. A grappolo è sicuramente una tecnica non probabilistica, però, per esempio, obiettivo del mio studio è conoscere come si diffonde, qual è l’incidenza della carie dentaria tra i ragazzi in età scolare, e identificare i fattori di rischio. Quindi il mio target è la scuola, il mio campione lo devo prelevare da diverse aree geografiche, in modo tale da coprire tutta la città e poi metto dentro altre situazioni, altre variabili, le condizioni socio economiche, il tipo di scuola, e così via, mi vado a costituire dei sotto campioni secondo le mie necessità. Un campione di selezione all’interno di ogni plesso da aggregare a tutti gli alunni delle sezioni … Quindi a seconda dell’obiettivo che io mi presuppongo di raggiungere, mi vado a disegnare uno studio con una certa metodologia che vado ad indicare prima di iniziare. Devo fare questo, perché devo poter dare evidenza che io seguo un criterio metodologicamente scientifico, quanto più possibilmente corretto per poi dire “guardate che i miei risultati sono abbastanza attendibili”. Altro tipo di campionamento non probabilistico, campionamento a …, campionamento a valanga: sono tecniche che si utilizzano molto in campo socio-economico e poco in ambito medico, dove si utilizza la tecnica random, la tecnica probabilistica di scelta casuale.Ciò non toglie che in ambito medico si possa dover avere a che fare con campioni di tipo non probabilistico. Un esempio molto pratico. Perché voi mi potreste dire, si parla sempre di campione rappresentativo, ma se io non ce l’ho,come faccio? Posso aumentare il numero del mio campione con un atto di magia? No, perché non seguo un metodo rigorosamente scientifico. Non posso imbrogliare le carte. Se io ho raccolto un certo numero di pazienti che afferisce ad una clinica da gennaio a ottobre, quelli sono i pazienti, non è che posso aumentare il campione. Per cui, devo partire dal presupposto che quel campione non sia lo specchio della popolazione, non sia una fotografia della popolazione che rappresenta, quindi io non avrei un campione rappresentativo. Per assicurarsi, per bypassare questo errore, che faccio? 6 O aumento il campione allungando il tempo, se non ci riesco ed è sufficiente quel numero devo poter assicurarmi che la mia variabile quantitativa per esempio, abbia un andamento normale, poi vediamo che significa questo. Ma, se il campione è troppo piccolo, io so in partenza che non può essere così. Avere un andamento normale significa che una variabile biologica in natura ha comunque un andamento normale. In questo caso specifico, se il campione è piccolo, non ha un andamento normale, quindi devo utilizzare delle tecniche che non prevedono questo criterio di normalità, perché il campione è troppo piccolo. E come faccio a vedere? Come faccio io a sgamare? Perché posso ipotizzare che il campione è troppo piccolo e non è casuale. Utilizzo delle tecniche che non prevedono la casualità, quindi aggiro l’ostacolo per studiare il mio campione. Altro tipo di campionamento, a scelta ragionata, quindi si tratta sempre di campionamento non random. I campioni non probabilistici non consentono la generalizzazione, non permettono di fare inferenza. E’ chiaro, se io ho un campione non probabilistico non posso fare inferenza, devo solamente dire nelle mie conclusioni, “guardate, io ho osservato, ho avuto questo riscontro nella descrizione di questi casi, di soggetti reclutati dal .. al .. “, quindi già mi paro il colpo. Non posso fare un discorso di inferenziale, perché il campione non è rappresentativo. Che succede? Succede che quando io ho a che fare con un campione non probabilistico, di convenienza, scelta agiata comunque che non segue i principi della probabilità, è un errore che già è BIASato, cioè è distorto. Allora, in questi casi quando io sono davanti a un campione non randomizzato, devo utilizzare una metodologia di statistica non probabilistica. Si apre quindi uno scenario, avrei una statistica inferenziale, descrittiva, una statistica probabilistica e non probabilistica. CODIFICARE I DATI I dati possono essere codificati o rielaborati secondo certi criteri. Se io ho raccolto in un campione l’età, vado a quantificare l’età andando a vedere la media, poi vediamo come si fa. Se vado a vedere il sesso, la variabile sesso, che è una variabile di tipo qualitativo, in questo caso dicotomica, devo andare a dire quanti sono i maschi e quanti sono le femmine, quindi io devo fare un altro tipo di calcolo, cioè mi calcolo il numero, vedi frequenza. Nel contesto dello studio può,però, tornare comodo utilizzare questa variabile codificando. Cioè a dire, indicando 0 i maschi e 1 le femmine, codificandole, così nel mio database, avrò tot 0 e tot 1. Se io ho la variabile condizione socio-economica,avrò tre quattro, quindi avrò una variabile di tipo …parativa politomica. Dopo io vado a codificare i dati, e siccome la variabile è sotto forma alfabetica posso trasferire, codificare ciò in numero, perché ho una variabile categorica. La variabile socio-economica l’ho categorizzata in 3, 4. Il livello di studi: 1. licenza elementare, 2. licenza liceale, 3. laurea, Tre tipi, l’ho categorizzata 0-2. 7 Come faccio tutto questo? Se avete un’idea di come possa essere fatto un foglio elettronico in excel, dico al computer di trasformare i maschi in 0 e le femmine in 1 e così via, molto semplice, e da qui ricavare la frequenza. Lo scopo della mia indagine è quello di trovare dei rapporti causa-effetto fra eventi. Per esempio , l’esposizione a un fattore e causa di una malattia, vedi il fumo, fattore di condizione, è legato all’asma, la malattia generica. L’esposizione a un farmaco, oppure a una condizione clinica e così via. Uno degli scopi dell’analisi è quello di distinguere un effetto reale dovuto a un rapporto causaeffetto. Nel caso specifico di quello studio, io devo andare a vedere se c’è un rapporto di causa e effetto per cui ho l’asma. Ma andrò a vedere poi [lo vedremo a fine lezione rivedendo sempre questo esempio] che ci saranno dentro delle variabili che si dicono di confondimento, che vi possono creare un disturbo dei calcoli. Quindi devo andare a vedere se la variabile provoca o enfatizza il disturbo, cioè ti provoca la patologia oppure no. D’altronde mi pare di aver fatto l’esempio della pizza. Fumo-asma- pizza,la pizza è una variabile confondente. Oppure cirrosi correlata a un fattore di rischio, all’alcool, uso di pizza, no, quella è una variabile confondente. La cirrosi è comunque provocata dall’alcool. Poi, nell’indagine si è parlato di errore generico, si è parlato di BIAS inteso come errore a diverso livello, ne abbiamo visto uno di questi che era nel campionamento, nei criteri di eleggibilità. Errori random : sono errori che possono essere previsti, ma come dice la stessa parola sono errori dovuti alla casualità, quindi in quanto casuali io non li posso eliminare. Se resta random, se l’errore resta tale, posso accettarlo perché non è tale che mi inficia il risultato, se si mantiene random. Ma se sistematicamente si ripete, allora è un BIAS che vi può inficiare il risultato. Quindi devo andare a distinguere l’errore random da quello sistematico che devo attenzionare. Il BIAS, è chiaro che l’errore in uno studio non è eliminabile completamente, ma il problema non è eliminarlo, bensì monitorare un certo tipo di errore, non random, perché monitorandolo posso evitare che aumenti, perché se aumenta mi inficia il risultato, devo cercare di tenerlo il più contenuto possibile, per poi avere un outcome valido, attendibile. La soglia di errore che non intendo superare nel mio studio, per quanto riguarda l’errore random, va dichiarata prima di cominciare lo studio, pena la nullità dell’outcome. Questo in teoria. In pratica, comincio uno studio, dopo due mesi mi accorgo ad un certo step dell’indagine che l’errore mi aumenta. Che faccio? Devo correggere e ritornare indietro e ridefinire quella che è la mia soglia di errore, ma è chiaro che l’errore non può essere esponenziale. La soglia, il cut off di validità dell’errore deve essere quello del 5%, questa è la soglia di massima. Un errore molto più grande di questo diventa sistematico e sarà tale da inficiarmi il risultato. Nella realtà può capitare che io superi quest’errore, ma deve essere contenuto tra il 5 e l’8%. Gli errori random sono dovuti alla casualità, sono fluttuazioni, dovute all’andamento della mia variabile, che fluttua nel mio campione. Vedi l’età. Pur essendo voi un campione di studendi al terzo anno, sarà presente tra di voi qualcuno che è andato prima a scuola e pertanto è più piccolo, quindi quello esce fuori, però entra sempre nella… del campione. Quindi, gli errori random non sono prevedibili, ma in quanto 8 tali a me non interessa prevederli, perché se sono tali io posso farmene carico, perché non sono quelli che mi inficiano il risultato. Il problema è se l’errore non è più random, allora è un BIAS, quindi un errore che mi distorce i risultati e che devo monitorare. Vediamo ora il tipo di BIAS. ERRORE SISTEMATICO 48 Allora immaginiamo di fare del tiro al bersaglio con le freccette. Questi pallini, in questa posizione della corona, indicano una serie di colpi delle freccette che è molto precisa perché è in un’area determinata, quindi è iperprecisa, però è BIASata perché non è colpito il centro, è lontano dal centro. Perché per me il risultato più attendibile si trova nella corona più interna. Quindi questi sono raccolti in una piccola area, ma sono nella zona periferica, e pertanto, per quanto possa essere una misurazione precisa, è sempre BIASata. Questo invece è alquanto impreciso, perché non solo non è nella parte centrale (la parte centrale corrisponde a quello che è la mia popolazione, il mio target), ma è alla periferia, ed è molto disperso rispetto al precedente, ed è quindi BIASato e impreciso. Questo la stessa cosa, è impreciso, non è BIASato, cioè, non è come un errore, però è molto impreciso, perché non è nella corona più interna, è distribuito in maniera più ampia. Quello invece che è molto più preciso, e non è BIASato, è questo qua, perché è nella corona più interna. Quindi l’errore sistematico, traducete questo che è un altro esempio, e vi rendete conto che devono essere due le caratteristiche. Deve poter essere quanto più preciso possibile, quanto meno BIASato, quanto BIASato negativamente, cioè deve essere BIAS zero, ma questo in teoria, nella pratica io mi ritrovo comunque il BIAS. Una cosa è la teoria, nella pratica è tutta un’altra cosa. Nella pratica io mi ritroverò ad avere un random, un errore random che me lo prendo, perché il random non mi inficia il risultato, però il BIAS devo attenzionarlo perché se aumenta mi andrà a produrre un out come sbagliato, non attendibile, devo poterlo identificare per meglio non azzerarlo ma abbatterlo, contenerlo. Quindi BIAS significa pregiudizio. In senso lato si definisce BIAS qualsiasi errore che può alterare la validità del risultato a qualsiasi punto. Esempi. BIAS di campionamento All’inizio, quando vi feci vedere come si raccolgono i campioni, secondo certi criteri di eleggibilità, quei criteri che escludono quegli, quei campioni, quelle validità, quello è un errore di campionamento. Errori di stima, BIAS di stima. BIAS cognitivi, e così via. BIAS di pubblicazione, errori possono essere pure i dati digitati male, anche quello è un errore, ma quello è correggibile, basta accorgersene e quindi correggere, è chiaro. Quindi io tengo a parte sempre quella che è la percentuale di errore. Come possono esserci anche gli errori che derivano dai fattori confondenti, dalle variabili di confondimento. 9 Quindi l’errore non random è presente in qualsiasi punto. Come anche per esempio è l’errore di metodo, anche quello è un BIAS, sono errori molto più grossolani e meno importanti, però bisogna attenzionarli in quanto non casuali. Per evitare nello specifico il BIAS, l’errore di selezione, occorre identificare la popolazione di interesse e la popolazione realmente accessibile, il target, poi applicare il metodo appropriato al campionamento che garantisce la … [casualità?]. Non ho detto nulla di nuovo, l’ho anticipato prima. Gira e rigira, il metodo con cui mi assicuro l’abbattimento del BIAS, almeno quello di selezione, è quello della randomizzazione. Il problema può essere più importante negli studi retrospettivi, per esempio negli studi di co… o negli studi di comparazione, vedi quello per eccellenza il caso … [controllo?] coi punti che vengono matchati, in cui l’esposizione alla malattia è già avvenuta prima della selezione. Nello studio di caso controllo io raccolgo dei casi, quali sono? E’ il gruppo, è costituito dal gruppo dei soggetti che hanno avuto già questa funzione, quindi è uno studio retrospettivo, l’abbiamo capito. Oppure quando la selezione è di tipo non probabilistico, vedi il campionamento per accessibilità, oppure per convenienza. A seconda della tipologia di studio che io vado a implementare mi ritrovo un certo tipo di BIAS, fermo restando che l’errore random ci sarà comunque. Altro esempio, negli studi clinici i Trial, i cosiddetti Trial randomizzati, lo dice la stessa parola, RCT, randomizzato controllato, è un tipo di campionamento che si utilizza perché mi assicura l’attendibilità del mio campione. Errori di misurazione, anche questi possono essere errori da eliminare o da abbattere. Nella misurazione dei fattori di esposizione, oppure e/o nell’outcome della risposta. Errori sistematici sono quelli dovuti a un difetto di calibrazione dello strumento. Se la mia variabile è la temperatura, io devo assicurarmi che il metodo con cui io misuro la temperatura sia attendibile. E qual è la migliore medicina per assicurarsi questo? Quello che l’apparecchio sia funzionante. Perché se non è funzionante io introduco un errore sistematico che me lo ritrovo sempre, che mi inficia il risultato. Riassumo quelli molto più importanti. Errori nella raccolta dei dati. Molti BIAS sono dovuti all’influenza dell’atteggiamento del paziente. In uno studio sulla ipertensione, per esempio, immaginiamo di andare a pianificare uno studio mirato a quanti, a come nell’ipertensione agisce, si comporta, in uno specifico gruppo. Chi raccoglie i dati può trattare i gruppi in maniera diversa, per esempio misurare la pressione in un modo più accurato in coloro che sono affetti, mentre nell’altro, in un gruppo più accuratamente e nell’altro meno accuratamente. Quelli sono errori che si devono comunque eliminare, e si possono eliminare. Chiaro no? Questo invece è molto importante enfatizzarlo, perché lo ritrovate quasi sempre. O meglio potremmo ritrovarlo. Quindi il confondimento è dovuto alla presenza di variabili nascoste, variabili che non sono legate al rapporto causa-effetto. Esposizione, fumo, malattia, l’outcome l’asma. Si chiede, il fattore di confondimento è legato 10 all’esposizione oppure no? Eccolo qua. Bevitore di birra, consumo di birra e cirrosi. Cioè, la variabile di confondimento e che io mi ritrovo, perché nel questionario vado a estrapolare i dati e mi ritrovo l’uso di pizza, oltre all’uso di bere, e quindi l’outcome :quanti hanno la cirrosi e quanti non ce l’hanno, e mi ritrovo anche questa variabile. Come gestirla? Perché potrebbe anche non essere una variabile confondente, ma potrebbe essere legata alla birra. Immaginate un’altra, una variabile tale che rafforza il danno che può provocare la birra, immaginando che non sia la birra. Cioè a dire, la variabile confondente, confondente fino a quando si mette in mezzo e mi confonde le idee come dice la stessa parola. Quindi io devo andare a vedere se la cirrosi è veramente legata al consumo di pizza oppure no. Assolutamente no, ma è legata al consumo di birra. Quindi, il consumo di pizza sarebbe un fattore confondente se fosse fattore di rischio, cioè non è una variabile che enfatizza il fattore di rischio, ma è una confondente che interferisce semmai, quindi io lo devo trattare come variabile di confondimento che non agisce sull’outcome. Ecco perché di confondimento, perché se non fosse tale sarebbe una variabile che accresce il fattore di rischio. Vedi per esempio questo. Fumo di sigaretta, consumo di birra. Ci si chiede, il fumare può aumentare l’azione dannosa della birra nel provocare l’ulcera? Bisognerà andare a vedere quanto è confondente e quanto no. Quindi i fumatori che non bevono birra hanno un tasso di ulcera peptica maggiore dei non fumatori. Perché? Com’è possibile che quelli che non fanno uso di birra, hanno un tasso maggiore di ulcera dei non fumatori? Allora la sigaretta non è una variabile di confondimento, è una variabile che si associa al fattore di rischio, potenziando questa azione. Nell’esempio che scorreva poco fa, si parlava dei fattori di rischio e della malattia. Birra e cirrosi. Questo esempio è calato nel tipo di studio caso controllo. Io ho raccolto due gruppi, uno di casi, e uno di controlli. Come faccio a determinare i possibili fattori di confondimento? Quali sono i possibili fattori di rischio associati alla malattia? Quali di questi associati anche all’esposizione, rafforzandone l’azione? Questi saranno i possibili fattori confondenti. Quindi una buona ricerca deve poter avere una assenza di BIAS, o comunque un BIAS contenuto da monitorare perché potrebbe aumentare in maniera esponenziale. BIAS dovuto a diversa tipologia di errore. Esempio pratico. Immaginiamo che un direttore generale di una ASP intende sapere qual è la diffusione della patologia nella popolazione del suo territorio della ASP, avendo come obiettivo un migliore e più mirato utilizzo delle risorse. Commissiona quindi una indagine. Qual è la tecnica che utilizzo per questo studio commissionato? Intervista effettuata a domicilio. Questionario semi-strutturato. Che cos’è un questionario semi-strutturato? E’ un questionario dove io vado a calare delle domande mirate ad arte, fatte prima, per avere un certo tipo di risposta. E’ chiaro che questa tecnica ha sia dei vantaggi che degli svantaggi. Uno svantaggio più macroscopico è quello che le domande vengono fatte a caso, però nell’intervista si evita, l’operatore evita di avere delle risposte così, buttate la, quindi questo è un vantaggio. Contiene le caratteristiche anagrafiche con delle variabili. Che variabile è il sesso? Qualitativa dicotomica. L’età che variabile è? Quantitativa! Infatti l’unità di misura qual è? Anni! Giorni, se sono neonati. Altra cosa, quando io vado a mettere nel mio studio la variabile, devo andare a dire quale unità utilizzo. Il peso, chilogrammi. Non posso nel corso dell’opera cominciare in un modo e cambiare, 11 devo tornare indietro a ridefinire quello che è lo studio, quindi ciò che è stabilito a priori non dovrebbe essere, in teoria, cambiato. Ma se ci sono vari eventi sfavorevoli che mi portano a cambiare, devo tornare indietro a ricorreggere, a ridefinire. Stato civile, che variabile è? Qualitativa politomica, che si presta ad essere codificata, principalmente per motivi pratici, perché i dati vanno ad essere inseriti in un foglio di Excel, e se inseriti come variabile, ad esempio “coniugato, vedovo, etc.” diventa indaginoso nel calcolo 1.11.33successivo, e allora io lo codifico con un numero, la categorizzo, secondo un certo criterio. Scolarità, variabile di tipo? Qualitativa. Se ci fosse stato grado di malattia, che tipo? Qualitativa, politomica. Quindi, inserirò tutte queste caratteristiche anagrafiche, diverse domande indaganti lo stato di salute di ogni rispondente rispetto alla presenza o alla assenza di cardiopatie. Perché l’obiettivo era quello, delle malattie cronico degenerative. Quindi devo andare a vedere quanti soggetti hanno questa patologia o patologie molto prossime a questa. Non metterò l’asma, perché non me ne frega niente, ma se ci fosse una correlazione, io inserirei nel questionario anche quell’informazione, quanti hanno quella caratteristica e quanti non ce l’hanno. Perché questo? Perché potrebbe essere anche interessante andare a correlare la cardiopatia con situazioni che molto spesso possono essere associate. Per esempio il fumo. Se io già a priori so che la patologia cronico degenerativa può essere dovuta al fumo, devo andare a monitorare e a vedere quanto incide il fumo su questo campione. Ciascuna informazione raccolta è detta variabile. Non vi ho detto nulla di nuovo. Questi sono parametri o variabili. Alcune delle variabili misurano la presenza di determinati stati con cui una caratteristica si può presentare. Colore dei capelli, che variabile è? Qualitativa, politomica. Altre misure, in termini quantitativi, come una determinata caratteristica si presenta ed esprimere questo modo di presentarsi con un numero. Quindi andate a fare bene le variabili, quantitative, qualitative. Delle quantitative quelle continue e quelle discontinue, perché ognuna avrà la sua caratteristica. Sulla base di questo, poi, andando avanti, sapremo quale test è più corretto utilizzare. Tutte queste informazioni che vengono fuori dal questionario, cioè a dire dall’intervista, verranno messi in una matrice di dati, in un banalissimo foglio di excel. Perché in un foglio di excel? Perché questo si presta molto bene per essere importato in software che poi andranno a gestire la mia … (rimane in sospeso la frase). Da che cosa è data una matrice di dati? Da righe e colonne. Le righe rappresentano una cosa e le colonne un’altra cosa. Le colonne cosa rappresentano? La sequenza numerica. Le righe rappresentano le variabili, se io lo studio in quella maniera. Molte volte si fa così. La variabile sta nelle colonne, mentre nelle righe sta l’informazione, che è al singolo soggetto. Di ogni riga avrò di un soggetto notizie di tutte le variabili (quando si dice esprimersi con il culo). Tutto questo in gergo è una matrice di dati. Altra cosa. Si è parlato di variabili, si è parlato di indicatori, in maniera molto trasversale, all’inizio di indicatori descrittivi, vedi media e così via. Adesso ci stiamo avvicinando, se state 12 notando, rispetto all’altra volta, allo studio della statistica, piano piano. Cioè io la pillola ho cercato di darvela molto lentamente, per farla assorbire molto lentamente. Non ho cominciato subito col test, perché il test è una formula che si deve identificare, capire e poi da li uno si trova. Questo, se tu togli la parte anteriore, non capisci niente. Si si può fare, sì può imparare la regola a memoria, però poi, alla fine, dietro quella regola, qual è la condizione per poterla applicare? E’ correttamente applicata oppure no? Secondo. Quando tu svolgi un’operazione matematica, come interpretare il risultato che ti viene fuori, che è un numero? Quindi, tutte queste cose sono consequenziali alle conoscenze di base. Perché quello dell’altra volta era solo un’introduzione, se vogliamo, della tipologia di studio che andavamo a calare nella nostra analisi. Le SCALE che cosa sono? Sulla base del tipo di relazione si possono individuare quali caratteristiche un soggetto appartiene a un collettivo. Per collettivo s’intende n soggetti, cioè sono le unità che compongono la mia popolazione campionaria. Quali sono queste scale di misura? Nominale. Se io ho raccolto un campione … costituito da Roberto, Giacomo, Genoveffa, Sempronio eccetera, io ho un elenco di nomi, la cui scala è nominale. Quindi devo utilizzare nei miei calcoli quel tipo di scala, perché ho identificato i soggetti sotto il nome, in forma diciamo alfabetica,quindi secondo un un un un nome. Ordinale. Immaginate i gradi militari. Seguono una sequenza, dal generale fino al lavapiatti. IO adesso non me li ricordo tutti, comunque è quello. Quella scala di militari è rappresentata secondo un certo ordine. E’ una scala ordinale, non posso io sovvertire l’ordine, ok? Scala d’intervallo. Se misuro la temperatura, la temperatura che variabile è? Quantitativa. Perché? Perché la posso quantificare e utilizzo un apparecchio che sia tarato sennò mi produce risultati sbagliati. La temperatura, cioè l’apparecchio per la temperatura come è fatto? Secondo una scala dove io so in partenza che l’intervallo piccolo è uno, l’intervallo grande, medio, è 5, tutto è 10. Quella è una scala a intervalli. Quindi se è una variabile di tipo di quel tipo, utilizzerò no una scala nominale, ma utilizzerò una scala a intervalli. Scala di rapporti. Lo dice la stessa cosa. Questi poi li rivediamo meglio negli esempi. SI parla di misurazioni, di quantificare una variabile, però per essere tale, per essere valida una misura, devo poterla riferire a quello che è uno standard per eccellenza. Il gold standard non è altro che uno strumento di misura, diciamo quello più perfetto possibile. Immaginate l’ora. L’ora che noi utilizziamo ora, in questo momento, scusate la cacofonia, si rifà a che cosa? Al meridiano di Greenwich. Di riferimento è quello, per noi è il golden standard. Quindi è la tecnica, il modello di riferimento. Quindi, abbiamo cominciato con la popolazione, siamo passati alla popolazione campionaria, e quindi, inevitabilmente, abbiamo tirato in ballo la statistica inferenziale, l’inferenza che cos’è, e quindi la statistica inferenziale tira in ballo che cosa? La statistica descrittiva. Per fare statistica inferenziale devo fare statistica descrittiva. E non il contrario. Se ho una popolazione probabilistica, un campione probabilistico, non posso fare prima la statistica descrittiva e poi la statistica inferenziale. Al contrario, perché è logico no? Il procedimento è logico. 13 Quindi, la statistica descrittiva è quella che presuppone… (frase incompleta.) Come dice la stessa parola, io vado a osservare il mio fenomeno nel campione, descrivo. Una tecnica che consente di sintetizzare da un punto di vista di calcolo è la media aritmetica. Mentre quella che descrive in maniera grafica, in maniera non tabellare, non numerica, è il grafico. La frequenza che cos’è? In pratica, quante volte io conto le donne in quest’area, in questo campione rispetto agli uomini. Quello è il numero, quante volte si ripete un certo sesso, la variabile del sesso. Per esempio, se io devo andare a studiare l’ipertensione, io devo sapere quanti sono gli ipertesi, quanti sono quelli che hanno valori normali di pressione. E’ necessario scegliere la colonna della matrice nella quale vado a trovare l’informazione sul soggetto iperteso. E’ chiaro che se la mia variabile è ipertensione sì/no, quella è una variabile di tipo dicotomico. Siccome l’ipertensione è dovuta alla variazione della pressione, io posso avere sia la pressione arteriosa quantitativa, sia l’effetto, cioè a dire assenza/presenza di ipertensione, variabile dicotomica. Quindi bisogna intenderla in una certa maniera. E’ evidente che in questo caso l’ipertensione è presenza/assenza, quindi è variabile dicotomica. Quindi nella matrice io avrò un certo numero della frequenza di quelli che hanno l’ipertensione e di quelli che non ce l’hanno. Se poi vi interessa saperlo, quanti sono quelli che hanno la pressione normale e quanti quelli che hanno la pressione alterata che mi riconduce all’ipertensione. Anche quella è un’altra frequenza. E allora, se io vado a contare, la conta totale è la frequenza assoluta. L’ipertensione, nel mio campione sono 201, quelli invece che non ce l’hanno sono, su un totale di 500 persone 201 ce l’hanno e 299 non hanno invece ipertensione. Che cosa significa questo? Significa che io devo andare a vedere a 201 rispetto a tutto il campione selezionato quante… Basta fare il rapporto, 200 diviso il totale e avrò la frequenza in percentuale, avrò una frequenza relativa. 0,40, quindi il 40 percento. Quindi avrò un’informazione che è molto più dettagliata di questo. Perché dire 201, e dire il 40% è un’altra cosa. Ma sono due facce della stessa medaglia. E’ una misurazione di frequenze. Quindi io sto descrivendo in merito alla presenza dell’ipertensione. Non sto facendo altro che una banalissima conta. Poi questo io lo posso rappresentare sotto forma tabellare, come lo posso rappresentare sotto forma grafica, è la stessa cosa. Questa rappresentazione grafica è quella che si presta meglio per dare più visibilità dei risultati, rispetto alla tabella, a condizione però che il grafico sia leggibile, anche da chi non capisce l’argomento. La bontà del grafico diciamo è quello che da una risposta migliore all’osservatore. Più della tabella, perché la tabella bisogna andare a leggerla. Fino a quando la tabella è semplice, va bene. Quando invece ci sono molti dati, molte righe, molte colonne, diventa impossibile interpretarla subito, mentre con il grafico io faccio subito. Questo è il mio grafico, questa è la tabella iniziale, sotto forma di frequenza assoluta e relativa e percentuale. Questo invece è il grafico effettuato come? Allora io utilizzo comunque un sistema di assi cartesiani, dove vado a mettere sull’asse delle X la mia variabile. Cos’era, l’ipertensione? La pressione? Avrò la pressione. La pressione quali unità misura utilizza? mmHg. Qui invece viene portato l’esempio non per singolo valore, non andrò a mettere da 0 a valore massimo, ma andrò a mettere dei valori incasellati in un certo numero di classi. Perché c’è l’esigenza di mettere queste classi? Dal al. Da 100 a 120, da 120 a 130 eccetera eccetera? Esattamente due quattro sei 14 classi. Perché dividendo tutta la mia stringa di valori della variabile, dividendola per 6 io che faccio? Comprimo quello che è il mio grafico. Se io lo dovessi fare per singolo valore, avrei un grafico più lungo. Quindi per convenienza si utilizza la divisione in classi. UN esempio pratico. Se io devo andare a vedere com’è la colesterolemia in questo campione, io che faccio? Raccolgo tutti i valori di colesterolo, e ho, quanti siete 45? 45 valori. Posso farlo per singolo valore come posso farlo per classi. E qual è il criterio per dividerlo per classi? E’ un criterio arbitrario, cioè, più classi ci sono più lungo è il grafico. Meno classi ci sono e meno lungo è il grafico. E’ chiaro che per dividere, nell’organizzare la variabile in classi bisogna tenere conto anche della stringa, è chiaro. Perché se voi riducete il numero di classi, il grafico si vede un po’ più stretto. Che cosa osserviamo poi? Se unite tutti i punti centrali della parte superiore del grafico, avrete una linea. Avrete diciamo una forma di campana che è asimmetrica, lo vedete? Avrà questo lato e questo plesso più lungo rispetto a questo. Immaginate di togliere i rettangoli, e di vedere queste linee. Quindi il grafico lo posso fare sia per rettangoli che per linee, per punti. Quindi, il grafico in questione si chiama Istogramma. Quindi l’istogramma che cos’è? E’ un grafico di frequenza. Quindi dire istogramma e dire grafico di frequenza è la stessa cosa. Ma come può essere il grafico di frequenza? Grafico a barre, grafico a colonne, grafico a punti, grafico a linee. E sono tutti la stessa cosa, sono grafici di frequenza. Per istogramma s’intende quello a barre, a colonne. Poi, se voi avrete la pazienza e vi divertite, un poco andate su excel e vedrete questo istogramma come si può descrivere. Colonne parallele, colonne impilate l’una sull’altra, basta divertirsi un poco, quindi vengono distinti in base al colore, sono la stessa cosa, sono sempre grafici di frequenza. Qual è il vantaggio? Certo se sono moltissimi dati conviene fare non questo a barre, in questa maniera, conviene fare diviso per classi, quelle impilate, perché occupa meno spazio. Dipende dalla mole di numeri che avete. Stavo dicendo l’esempio del colesterolo che vi stavo finendo. Se io vado a valutare il colesterolo, solitamente il mio grafico come si rappresenta? Non si rappresenta secondo tutti i valori, ma si rappresenta sempre in classi. Perché? Per una questione molto pratica. Il colesterolo ha un range di normalità che va da a. A me interessa che saranno dieci, ventimila, adesso non ricordo. A me interessa, è molto migliore rappresentare questa variabile sotto forma di classi, perchè mi dice quanti sono quelli che ricadono nei valori normali, e quanti quelli che sono ipocolesterelomici o ipercolesterolemici. Quindi, per una questione anche di convenienza, di praticità di lettura, io non utilizzo la mia stringa di dati, ma i valori organizzati in classi. Che cosa emerge da qua? Che i soggetti che maggiormente incidono sono quelli tra 200 e 250. Vedete? Quelli invece che hanno valori molto alti, sono una piccola percentuale. Cioè i valori al massimo, oltre l’ipercolesterolemia. Ma tre quanti sono? Basta fare il rapporto. Tre diviso il totale. Ventiquattro diviso il totale. Quindi abbiamo fatto la frequenza assoluta, la semplice, la frequenza in percentuale, la frequenza relativa percentuale, la frequenza cumulata. Da dove si ricava? Da quella precedente sommandola. la prima più a seconda e la terza e così via. Quindi noi sappiamo per esempio, se questo è il range di 200-220 che mi rappresenta la maggior parte, cumulando questo dato io ho 61% di quelli che ricadono in questa fa..citura. Quindi io a discrezione posso utilizzare 15 una o l’altra, vedere qual è secondo il mio arbitreio andare a descrivere. Quello che abbiamo visto poco fa era un grafico a barre,quindi istogramma, o a colonne. Diagramma a torta. Diagramma a torta non è altro che un diagramma circolare, dove un singolo spicchio rappresenta una percentuale, un settore di tutto che è 360gradi, ok? Quando si presta meglio il grafico a torta? Se io utilizzo frequenze in percento, quello si utilizza meglio del grafico a barre. Cartogrammi. Altra tipologia. Questa la stessa tipologia di informazione, soltanto che nel grafico a barre, la percentuale cioè la frequenza si nota di più, perché il grafico a torta si manifesta, diciamo rende meglio quello che deve essere il risultato. Poi ci sono grafici a barre attaccate e a barre distanziate. Grafico a linee. Anche questo un cartogramma che si presta per altri motivi. Abbiamo parlato di popolazione, ritorno sempre all’osso, cercando di fare il link con gli argomenti di prima. Popolazione campione. La sintesi del campione che cosa è poi alla fine? Un numero, che è la media. La media. Come ottengo io la media? Io per sintetizzare il campione, che cosa faccio? La variabile relativa al peso. Ho una stringa di valori, sommo, e divido per il numero, avrò ottenuto la media normale. La media aritmetica è un indicatore statistico di tendenza centrale, poi ci sono medie e medie, ma quella che io utilizzo per rappresentare il mio campione è la media. Però la media, come indicatore di tendenza centrale, o indicatore di posizione, perché conduce al valore che occupa la posizione centrale della mia stringa di valori, avrò a che fare anche con indicatori di dispersione o variazione. Ora ci ritorniamo. Facciamo un passo indietro. Sintetizziamo le nostre variabili. Variabili qualitative. I valori non sono grandezze numeriche ma modalità. Modalità, maschio/femmina. Gruppo 0/A/B. Queste sono le modalità. Scala nominale e scala ordinale. Dipende dalla tipologia di variabile. Quindi, c’è una variabile, ed identificata quella variabile andiamo a scegliere il tipo di scala da utilizzare. Variabili quantitative, possono essere discrete, quando sono valori interi, continue, quando, età per esempio, hanno valori all’interno di un intervallo range. In un campione vado a misurare l’età, quest’età ha un range, grossomodo è quello, se il campione è omogeneo. Quindi questo è molto importante, sapere identificare il tipo di variabile, perché da questo esce fuori, emerge il tipo di scala, il tipo di unità di misura da utilizzare e quindi il tipo di test da utilizzare. Media. Non mi soffermo a lungo. Sommatoria dei singoli valori, quindi si parla di variabile quantitativa, se io parlo di media, parlo di variabile quantitativa. Sommatoria di valori diviso… Quindi io avrò fatto due calcoli, somma, il primo calcolo di base, con la media aritmetica io rappresento il campione, quella variabile nella popolazione probabilmente, poi lo vedremo, andrà attorno a quel valore. Però io non ho utilizzato tutta la popolazione, ho utilizzato una parte della popolazione, quindi io so in partenza che ci sarà un errore. Qual è l’errore? Se io vado a misurare l’altezza, l’età, l’età più o meno è quella, ma dovrebbe essere uguale, ma non è così, ci sarà quella che è più grande è quella che è più piccola. Quindi, se andiamo a sommare avremo una media, attorno a questa media ci sarà quello che è l’errore, cioè a dire la 16 variazione, la dispersione. La media aritmetica è un indicatore che risente molto dei singoli valori, dei valori estremi. Immaginiamo che in questo collettivo ci siano persone che sono entrate molto dopo, e quindi sono più grandi. Quelle persone mi sposteranno quello che è il valore medio, perché aumentano l’errore. Quindi mentre l’età media so qual è, quei tre, quattro ragazzi mi aumenteranno l’errore. Quindi questa media sarà influenzata da questo errore. Più ragazzi ci sono più grandi, più la media diventa poco accurata, inattendibile, quindi questo errore inteso come indicatore di dispersione, è una variazione che mi dice quanto è accurata la mia… se io ho scelto il mio campione più possibilmente omogeneo, questa media non è un valore assoluto, ma una media con un errore piccolissimo, ok? Quindi ritorna al discorso del campione rappresentativo. La media ponderata invece non è come la media aritmetica. Molte volte può capitare di dover dare un’enfasi maggiore ad un valore. La media presuppone che si dia un certo peso quando noi andiamo a fare la frequenza, perché la media presuppone aver fatto una frequenza prima, è chiaro questo, no? La media ponderata tiene conto del singolo valore, e come si calcola? Primo valore per n1, più secondo valore per n2 e così via, il tutto diviso n. E allora è una media un poco più precisa, che abbatte l’errore. La media ponderata non segue lo stesso difetto della media aritmetica. Poi ci saranno altre medie che vi interessano relativamente. Quello che a voi interessa invece è questa, poi la media aritmetica e poi la mediana. La mediana è un altro indicatore di posizione, differente dalla media aritmetica, e che darà origine a due tipi di statistica. Vengo e mi spiego. Perché da questa emerge un altro concetto molto importante, però se manca questa percezione di questo concetto non si capisce che significa test parametrico e test non parametrico, statistica parametrica e non parametrica. Da che cosa deriva? Da questo concetto, dalla mediana e dalla media aritmetica. Allora, qual è la differenza? La mediana, come dice la stessa parola ,è il valore che sta al centro di una disposizione. Per calcolare il valore mediano, io non devo sommare tutti i valori, sennò sarebbe una media aritmetica, ma devo organizzare la mia stringa di valori secondo un ordine. La mediana presuppone che io disponga la mia variabile, il peso, secondo un ordine. Tipo e grado di ordine, dal primo all’ultimo, dall’ultimo al primo, è la stessa cosa, quindi in ordine ascendente o discendente non cambia niente. Il valore che sta al centro è la mediana. Che significa mediana? Quel valore che rappresenta il 50%. Perché? Perché il 50% dei valori che sta alla mia destra sono i valori più bassi, e dall’altro lato i valori più alti. Quindi la mediana non risente dei valori estremi. Per ottenere la mediana di una stringa di valori pari, si fa la media aritmetica dei due valori centrali. Fra media e mediana esiste quindi una differenza sostanziale. La media presuppone che i dati siano normalmente, che significa normalmente? Se foste tutti clone, se io vado misurare il peso, il peso sarebbe sempre lo stesso, non avrebbe differenze. Ma siccome non siete cloni, questa variabile biologica ha un certo andamento nel campione. Questo andamento più grande o più piccolo, è quello che mi dipinge l’errore attorno, e quindi cambia la media. La media è un dato parametrico che risente dei valori estremi, dell’andamento normale. Io per andamento normale intendo dire una variabile che si distribuisce secondo la variabile di gauss, il teorema di gauss, la campana, quindi una variabile biologica si distribuisce secondo una campana. Ma quella è quella teorica, nella pratica non avrò mai una distribuzione di variabile a campana. Però se io ho adottato quegli accorgimenti, la mia variabile è prossima all’essere a campana, che significa prossima ad essere normale. Normale significa, come vedremo dopo, che se io divido dal punto più alto verso l’asse delle y il grafico in due parti, io avrò il grafico diviso in due parti una 17 speculare dell’altra. Ora la variabile normale si distribuisce in quella maniera nella popolazione, ma non nel mio campione, perché io avrò un errore, quindi dirò che il mio campione sarà prossimo alla normalità. Quindi questo è un altro indicatore di posizione descrittivo. La moda che cos’è? La moda è un altro indicatore che descrive la frequenza più elevata in una distribuzione, il valore con frequenza più elevata, cioè a dire quello che si ripete più volte, quello è il valore modale. Anticipo, il valore medio aritmetico e il valore modale, quando coincidono nello stesso punto del grafico? Solamente in una condizione, nella curva a campana di Gauss, in cui media mediana e moda corrispondono allo stesso valore. In una distribuzione possono esserci più mode, riconducibili a popolazioni diverse. Esempio. Supponiamo che qui ci siano 45 ragazzi di etnia caucasica, e tre americani, che escono fuori range, quindi quei tre appartengono a un’altra popolazione, perché avranno un altro valore modale, quindi la curva non sarà con una moda, ma con due mode perché è riconducibile a due popolazioni. I percentili che sono? I percentili, come la media, la moda e la mediana, sono indicatori di posizione. Intanto i percentili, come dice la stessa parola, divide la serie ordinata, secondo un ordine cronologico, in cento parti. Considerando quindi questa divisione in percentili, la mediana sarà data dal 50esimo percentile, mentre il singolo valore della mia stringa rappresenta l’1% delle mie osservazioni. Il 25 percentile è quel valore che lascia da una parte, a sinistra, il 25% delle osservazioni, a destra rappresenterà la differenza per arrivare… Ok? 100 meno 25 fa 75. 75 percentile è quello che lascia il 75% percento da un lato, e il 25% dell’altro lato. Il mio range di questa distribuzione che cosa sarà? 0-100! Se io ho ordinato la mia distribuzione avrò 0 che è il più piccolo e 100 che è il più grande. Se io divido la mia stringa in quattro parti, io avrò diviso i miei dati in 4 quarti, quindi avrò quattro quartili. Se io la mia stringa la divido in decili, devo dividere in due parti. Cioè, se è in quartili devo dividere in tre per averne quattro, se è in decili devo dividere in uno per averne due. Allora, percentili, mediana, media, moda, sono tutti indicatori descrittivi statistici, poi all’interno ci sarà un modo diverso di approcciarsi al caso. I percentili in un modo, la mediana in un’altra maniera, come somma, come valore centrale, la media come sommatoria in rapporto al numero, sono tutti indicatori statistici descrittivi. 18