LEZIONI DI STATISTICA MEDICA Docente: Elisa Bianchini Centro di Coordinamento Sperimentazioni Cliniche U.O. Biostatistica Presidio Villa delle Rose Via Cosimo il Vecchio, 2 Firenze Tel:055/32 697 947 [email protected] COS’E’ LA STATISTICA La Statistica è la disciplina che comprende le tecniche adatte alla raccolta, all’elaborazione dei dati e che consente di trarre da essi delle informazioni. PERCHE’ CONOSCERE LA SATISTICA Leggere, comprendere ed analizzare criticamente relazioni e documenti scientifici Possibilità di effettuare ricerche che comportino l’acquisizione, l’elaborazione e l’analisi dei dati LA STATISTICA MODERNA OBIETTIVI STATISTICA DESCRITTIVA Raccolta dei dati Sintetizzare le informazioni Elaborazione numerica dei dati Agevolare l’analisi e i processi decisionali STATISTICA INFERENZIALE Trarre conclusioni sull’intera popolazione, anche quando si conoscono solamente i dati di 1 o piu’ campioni Procedimento che consente di pervenire ad una conclusione su una popolazione di interesse sulla base dell’informazione contenuta in un campione che è stato estratto da quella popolazione insieme dei metodi che riguardano raccolta, presentazione e sintesi di un insieme di dati per descriverne le caratteristiche essenziali LA BIOSTATISTICA Si occupa di acquisire ed elaborare informazioni su uno o più fenomeni relativi alle scienze biologiche ed alla medicina lo scopo è quello di produrre statistiche, ovvero descrizioni riassuntive di carattere quantitativo, riguardanti il collettivo di interesse (popolazione o campione) si parte dalla definizione degli obiettivi della ricerca e con essa si programma la raccolta dei dati in funzione dei confronti da effettuare. lo studio prosegue con l’analisi dei dati e finisce con una presentazione dei risultati ottenuti La statistica interviene in tutte le tappe CONCETTI DI BASE (1) DATI sono il materiale di base della statistica. In Statistica si possono trovare dati che provengono o da Misure (peso, altezza, temperatura …) oppure da Conteggi (# pazienti, # infortuni …) LE FONTI DEI DATI Entità attraverso la quale possono essere acquisite le informazioni necessarie all’indagine. •Rilevazioni periodiche (SDO, Cartelle Cliniche..) •Indagini (Survey) •Esperimenti •Fonti esterne (Banche dati ISTAT, rapporti già pubblicati..) CONCETTI DI BASE (2) POPOLAZIONE insieme finito o infinito di tutti i possibili elementi, di unità o individui che sono soggetto della ricerca. Queste, non interessano prese singolarmente ma per il contributo che danno alle proprietà statistiche dell'insieme di appartenenza. Con N si indica il numero complessivo di unità componenti la popolazione Definire la popolazione obiettivo significa individuare con esattezza la natura dei suoi elementi componenti, cioè delle unità oggetto di studio, e la sua estensione spaziale e temporale. CONCETTI DI BASE (3) DALLA POPOLAZIONE AL CAMPIONE Dal momento in cui è difficile ricavare misurazioni di una particolare variabile per tutte le unità di una popolazione, si raccolgono informazioni da un sotto-insieme che rappresenta il gruppo nella sua totalità: CAMPIONE: un qualsiasi sottoinsieme di n unità della popolazione. - L’aggregato rappresentato dal campione è la “popolazione di riferimento”. -Le unità che appartengono al campione sono dette “unità campionarie” VARIABILE CARATTERISTICA DI UNA POPOLAZIONE, CHE DIFFERISCE DA INDIVIDUO A INDIVIDUO Esempio di variabili sono: età, altezza, peso, temperatura, frequenza dei battiti cardiaci, mobilità articolare, numero infortuni, tipo di malattia professionale, etc… TIPOLOGIA DI VARIABILI VARIABILI QUALITATIVE Rappresentano caratteristiche o qualità delle unità statistiche che non possono essere misurate (nel senso usuale del termine) ma solo classificate Esempio: diagnosi di malattia, appartenenza ad un gruppo etnico.. VARIABILI QUANTITATIVE Rappresentano caratteristiche delle u.s. che forniscono informazioni sulla loro grandezza Esempio: statura, peso alla nascita, etc… DATI NOMINALI: Misure caratterizzate da presenza/assenza di una certa caratteristica, ovvero che possono assumere solo modalità qualitative non ordinabili. - modalità senza un ordine naturale - i dati possono essere raggruppati in categorie, eventualmente identificati con simboli (1,2; classe 1, classe, 2 etc) - gli individui attribuiti a classi diverse sono tra loro differenti; quelli della stessa classe sono tra loro equivalenti rispetto alla proprietà utilizzata nella classificazione - l'attribuzione di numeri per identificare le varie categorie nominali (es.: i giocatori di squadre) non autorizza ad elaborare quei numeri come tali - quesiti statistici: frequenze degli individui per categoria, per confronti tra loro o rispetto a valori attesi - modalità mutuamente esclusive • I dati nominali che possono assumere solo due valori distinti sono chiamati DICOTOMICI Es: sesso, stato civile, fumatore/non fumatore…. • I dati nominali che possono invece assumere più di 2 valori sono chiamati POLITOMICI Es: gruppo sanguigno, stagioni…. DATI ORDINALI: Caratteri con modalità qualitative (categorie) con un proprio ordine naturale (grado di ansietà, intensità di colore, scala di gravità di una ferita…) - alla proprietà di equivalenza tra gli individui della stessa classe si aggiunge quella di gradazione tra le classi -impossibilità di valutare la distanza tra livelli (es.: tra insufficiente e sufficiente c’è una distanza diversa che tra buono ed ottimo?) - i valori numerici esprimono soltanto il grado di intensità, la differenza tra le modalità non necessariamente deve essere costante passando da una categoria all’altra - modalità mutuamente esclusive DATI DISCRETI: misure quantitative per le quali è possibile operare confronti, per differenza, tra le modalità - modalità mutuamente esclusive e con un ordine naturale - i valori numerici possono essere confrontati tra loro e le differenze possono essere manipolate numericamente - possono assumere solo valori specifici Es: numero di incidenti stradali in un giorno, il numero di parti di una donna, il numero di nuovi casi di tubercolosi in 1 anno… DATI CONTINUI caratteri quantitativi che possono assumere qualsiasi valore (altezza, peso, età, reddito, temperatura in gradi etc…) - modalità mutamente esclusive e con un ordine naturale - non solo le differenze ma gli stessi valori possono essere moltiplicati o divisi per quantità costanti senza che l'informazione ne risulti alterata -0 (zero) significa quantità nulla Osservazione 1: Le misure continue risentono dell’accuratezza dello strumento di misurazione, più questo è accurato più sono i dettagli che si possono conoscere sui nostri dati Osservazione 2: E’ possibile ridurre il dettaglio passando da una variabile continua ad una discreta o ordinale, questo è possibile creando delle classi di dati. IL PIANO DI RACCOLTA DATI La statistica non interviene soltanto nella fase finale di una ricerca, quando i dati sono già stati raccolti e vanno analizzati. Se i dati sono carenti (disegno dello studio non adeguato, dati di scarsa qualità …) i risultati di qualsiasi elaborazione statistica saranno affetti dagli stessi errori. - I dati devono essere raccolti seguendo procedure che ne garantiscano precisione e accuratezza - I dati devono essere pertinenti al problema sia rispetto alle variabili che si intendono rilevare sia alle unità che si scelgono di studiare PRECISIONE: è quella proprietà per cui la procedura tende a fornire misure (stime) tra loro molto prossime (bassa variabilità). La precisione è direttamente proporzionale alla numerosità campionaria (è massima nelle indagini esaustive) ACCURATEZZA: è quella proprietà per cui la procedura tende a fornire misure (stime) coincidenti con la quantità effettivamente misurata. L’inaccuratezza di un’indagine può provenire da errori di rilevazione e/o dal passaggio dei dati su un supporto adeguato per l’elaborazione automatica (errori di trascrizione). L’accuratezza decresce all’aumentare della dimensione del campione! Piano di raccolta dati (2) PERTINENZA DELLE VARIABILI - Modalità operativa di rilevazione - Associazione al fenomeno che indaga Esempio: Studio dell’invecchiamento biologico sulla mortalità in età avanzate Variabile pertinente età in anni Esempio: Studio della mortalità neonatale Variabile pertinente età in giorni Piano di raccolta dati (3) PERTINENZA DELLE UNITA’ STATISTICHE - Unità di osservazioni pertinenti sono soggetti che possano sia aver subito l’esposizione di interesse sia manifestare l’effetto considerato Esempio: Studio sull’effetto cancerogeno a livello uterino dell’assunzione di farmaci Unità non pertinenti donne che hanno subito isterectomia L’ANALISI DEI DATI TRA LA SERIE GREZZA DI DATI (MISURE), OTTENUTI ATTRAVERSO UNA RILEVAZIONE, E I RISULTATI DI UNO STUDIO O DI UN ESPERIMENTO SI DEVE COLLOCARE UN’INTELLIGENTE E CREATIVA MANIPOLAZIONE DEI DATI LA STATISTICA DESCRITTIVA ORGANIZZA E SINTETIZZA LE OSSERVAZIONI STATISTICHE E CONSENTE UNA VISONE DI INSIEME SULLE CARATTERISTICHE GENERALI DI UNA SERIE DI DATI LA STATISTICA INFERENZIALE DEFINISCE LE CARATTERISTICHE DI UNA POPOLAZIONE, DELLA QUALE NON SI PUO’ AVERE UNA CONOSCENZA ESAUSTIVA, ATTRAVERSO LO STUDIO DELLE CARATTERISTICHE DI UN CAMPIONE DA ESSA ESTRATTO STRUMENTI DI SINTESI - DISTRIBUZIONI DI FREQUENZA - GRAFICI - MISURE DI SINTESI NUMERICA !!!PRIMA DI DECIDERE QUALE TECNICA SIA LA PIU’ ADATTA IN UNA DETERMINATA SITUAZIONE E’ NECESSARIO AVERE CHIARO IL TIPO DI DATI CHE SI DEVONO MANIPOLARE DISTRIBUZIONI DI FREQUENZA Prima di qualunque elaborazione, una serie di dati va ordinata e sintetizzata in una DISTRIBUZIONE DI FREQUENZA (o di intensità). Una serie non ordinata non permette quasi mai di evidenziare le caratteristiche del fenomeno in esame. Una Distribuzione di Frequenza è una rappresentazione tabellare per variabili qualitative o per variabili quantitative discrete. Nella tabella sono riportate: • le modalità della variabile • le frequenze associate a ciascuna modalità Frequenza assoluta Misura quante volte una certa modalità è stata osservata nel collettivo studiato. Solitamente si indica con il simbolo ni Frequenza relativa Rappresenta la proporzione (talvolta in percentuale) di osservazioni che presentano una certa modalità della variabile analizzata pi = (ni/n)×100 Frequenza cumulata La frequenza cumulata assoluta (relativa) associata ad una modalità della variabile indica il numero (la proporzione) di osservazioni che presentano un valore minore o uguale rispetto a quello della modalità Si indica con Ni (assoluta) e con Pi (relativa) Si può utilizzare solo se il carattere è misurato almeno su scala ordinale DISTRIBUZIONI DI FREQUENZA PER DATI ORDINALI n: numero di soggetti in ciascuna categoria della variabile i: modalità del carattere Proporzione (Fr.relativa): ni/numero totale di soggetti % = proporzione * 100 % CUMULATA 14% 42% 67% 81% 100% !!!!! % CUM: La frequenza cumulativa è somma della frequenza delle osservazioni con valore della variabile inferiore od uguale al valore considerato. DISTRIBUZIONE DI FREQUENZA PER DATI DISCRETI Conteggio del numero di foglie (variabile discreta) spuntate su 30 rami di uguale lunghezza di una pianta in un dato intervallo di tempo : 563472323264393203346542367342 var1 | Freq. Percent Cum. -----------+----------------------------------0 | 1 3.33 3.33 2 | 6 20.00 23.33 3 | 9 30.00 53.33 4 | 5 16.67 70.00 5 | 2 6.67 76.67 6 | 4 13.33 90.00 7 | 2 6.67 96.67 9 | 1 3.33 100.00 -----------+----------------------------------Total | 30 100.00 VANTAGGI E SVANTAGGI DELLE DISTRIBUZIONI DI FREQUENZA + Non si perde informazione rilevante (solo l’ordinamento va perduto) - Scarso potere di sintesi se le modalità sono numerose - Non utilizzabile per variabili continue In realtà l’ultimo punto non è del tutto vero ... DISTRIBUZIONI DI FREQUENZA PER VARIABILI CONTINUE Se siamo disposti a rinunciare ad ulteriore informazione, la distribuzione di frequenza può essere costruita anche per variabili continue Generalmente si opera nel modo seguente: • si suddivide l’insieme dei valori che la variabile può assumere in intervalli, detti classi • si determina il numero di osservazioni che cadono all’interno di ciascuna classe ESEMPIO: QUANTE CLASSI ? Non esistono regole assolute per la costruzione delle classi In generale è buona norma: • evitare di costruire classi con frequenze molto basse. Infatti se il numero di classi è troppo basso: perdita d’informazione sulle caratteristiche della distribuzione e la rende non significativa • evitare di costruire classi con frequenze molto alte. Infatti se il numero di classi è troppo alto: non si manifesta con evidenza la forma della distribuzione • modulare l’ampiezza delle classi in funzione della disponibilità di informazione “locale” (elaborazioni precedenti o analoghe) • se possibile, non variare l’ampiezza di classe (semplifica l’interpretazione) • una regola di buon senso comunemente usata indica che il numero di classi dovrebbe variare tra 6 e 15 DEFINIRE LE CLASSI 1. definire il valore Massimo e Minimo della variabile 2. definire il numero delle classi (normalmente min 6 max 15) 3. definire l’ampiezza delle classi ((max-min):#classi) 4. predisporre l’elenco delle CLASSI, se ordinali riportarle in ordine crescente e contare le osservazioni per ciascuna CLASSE (frequenza assoluta) 5. calcolare le corrispondenti proporzioni (eventualmente riportarle come percentuali – “frequenze relative”) 6. calcolare le frequenze cumulative (somma della frequenza delle osservazioni con valore della variabile inferiore od uguale al valore considerato) e le relative proporzioni o percentuali cumulate. ESEMPIO Età dei 189 soggetti che parteciparono ad uno studio sull’efficacia di 3 terapie per smettere di fumare, combinate con una terapia cognitivocomportamentale. LE DISTRIBUZIONI BIVARIATE Spesso accade che si ottenga più di una osservazione da una unità (ad esempio si possono misurare peso e altezza, sesso ed età, numero infortuni e giorno della settimana, etc..INSIEME DI OSSERVAZIONI DI DUE VARIABILI DA OGNI UNITA' IN UN CAMPIONE (O POPOLAZIONE) SONO CHIAMATI DATI BIVARIATI DISTRIBUZIONE DEL NUMERO DI MALATTIE PROFESSIONALI SEGNALATE DALLE A.S.L.TOSCANE DAL 2000 AL 2004 PER SESSO PER SOGGETTI NATI ALL’ESTERO NAZIONE ESTERA DI NASCITA MASCHI FEMMINE TOTALE 2 26 ALBANIA 24 BULGARIA 1 1 FRANCIA 1 1 IUGOSLAVIA (fino al 3 feb 2003) 2 2 POLONIA 1 1 ROMANIA 6 6 SVIZZERA 2 2 UCRAINA (dal 24 ago 1991) 1 1 UNGHERIA CROAZIA (dal 8 ott 1991) 1 MOLDAVIA (dal 27 ago 1991) CEYLON (SRI LANKA) 1 TOTALE 40 1 1 1 2 1 1 1 5 45 RAPPRESENTAZIONI GRAFICHE L’INFORMAZIONE CONTENUTA IN UNA TABELLA NON E’ SUBITO EVIDENTE. AL FINE DI SEMPLIFICARE L’INTERPRETAZIONE DELL’INFORMAZIONE, E PER FISSARE MODELLI E ANDAMENTI, I DATI POSSONO ESSERE ELABORATI E TRASFORMATI MEDIANTE RAPPRESENTAZIONE VISIVA ne esistono di svariati tipi, a seconda delle esigenze di analisi alcune riproducono le stesse informazioni di una distribuzione di frequenza, altre riassumono caratteristiche difficilmente rappresentabili mediante tabelle forniscono una sintesi visiva delle caratteristiche fondamentali delle distribuzioni DIAGRAMMI A BARRE PER DATI QUALITATIVI Si tratta di rettangoli con basi uguali ed altezze proporzionali alle intensità (o frequenze) corrispondenti ai vari gruppi considerati • quando non esiste una logica specifica nell'ordine, i rettangoli o colonne vengono disposti dal maggiore al minore • se le classi qualitative sono composte da sottoclassi, è possibile anche questa ulteriore rappresentazione grafica dividendo il rettangolo relativo in più parti, le cui altezze devono essere proporzionali alle frequenze delle sottoclassi • avendo basi uguali, le aree sono proporzionali alle altezze, pertanto anche i diagrammi a rettangoli distanziati sono rappresentazioni areali ISTOGAMMA DI UNA VARIABILE NOMINALE CONFRONTO TRA REGIONE LOMBARDIA E REGIONE TOSCANA SULLA DISTRIBUZIONE DI MALATTIE PROFESSIONALI SEGNALATE PER FONTE DI SEGNALAZIONE Toscana 2000-2004 % MP segnalate Lombardia 1999-2003 % MP segnalate Serv.PSAL Patronato Ospedale Med.Spec. Med.Base Med.Az. Ist.Univ. Isp. Lav. INAIL Altro A.Giud. 0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.00 45.00 50.00 55.00 60.00 65.00 70.00 ISTOGRAMMA Secondo L'UNI 4723 un istogramma è definito come la "rappresentazione grafica di una distribuzione di frequenza di una caratteristica costituita da una successione di rettangoli aventi come base l'intervallo delle classi e come altezza un valore corrispondente alla frequenza corrispondente“ L'istogramma è una rappresentazione grafica dei dati raccolti che presenta i dati in una forma che rende più chiara la tendenza centrale e la dispersione lungo la scala di misura, come anche la frequenza relativa dei singoli valori. ISOGRAMMA PER DATI QUANTITATIVI: - i rettangoli devono essere contigui - gli intervalli devono essere definiti in modo che tutte le possibili osservazioni cadano in una ed una sola classe - è opportuno inoltre che gli intervalli siano di uguale ampiezza (se possibile) Istogramma di frequenza In un istogramma di frequenza ad ogni classe è associato un rettangolo: • la base del rettangolo è pari all’ampiezza di classe • l’altezza del rettangolo è pari alla densità di frequenza, ovvero al rapporto tra la frequenza e l’ampiezza di una classe • l’area del rettangolo è per costruzione la frequenza (assoluta o relativa) associata alla classe ESEMPIO ISTOGRAMMA SULLA VARIABILE ETA’ IN CLASSI ISTOGRAMMA DELLE FREQUENZE RELATIVE ISTOGRAMMA DELLE FREQUENZE CUMULATE CARATTERISTICHE DELL’ISTOGRAMMA Da un istogramma è possibile desumere alcune rilevanti caratteristiche del fenomeno, per esempio: • tendenza centrale • dispersione • grado di simmetria della distribuzione Vantaggi e svantaggi delle rappresentazioni grafiche + Conservano la maggior parte dell’informazione contenuta nei dati + Sono di immediata comprensione - Nonostante la (presunta) semplicità, non sempre è chiaro quale sia la rappresentazione da utilizzare - Possono essere usati in modo strumentale COME MENTIRE CON UN GRAFICO Rappresentazione ingannevole Rappresentazione corretta ALCUNE ALTRE RAPPRESENTAZIONI GRAFICHE - Grafico circolare a a torta - Diagrammi a barre orizzontali - Diagrammi a punti o di dispersione IL GRAFICO CIRCOLARE (O TORTA) Mostra parti costitutive di un intero,come sezioni di un’unità circolare. Caratteristiche sono la chiarezza e comprensibilità dovute proprio al fatto che permette un confronto immediato tra più parti percentuali di un insieme. ESEMPIO DI GRAFICO CIRCOLARE (O TORTA) ESEMPIO DI DIAGRAMMA A BARRE IL DIAGRAMMA DI DISPERSIONE Presenta i dati tracciati tra ascisse e ordinate, ma non connessi da alcuna linea. Viene rappresentata l’influenza di una variabile su di un’altra e la loro relazione funzionale. ES: Distribuzione di una variabile continua (Concentrazione di Emoglobina), separatamente per i due sottogruppi definiti dalla variabile Menopausa (0= no, 1= si). ESEMPIO DI DIAGRAMMA DI DISPERSIONE GLI INDICI SINTETICI Le caratteristiche più rilevanti di una distribuzione, per esempio • la tendenza centrale del fenomeno • il grado di dispersione • la simmetria possono essere rappresentate mediante numeri, detti indici sintetici Misure di tendenza centrale Misure di Variabilità MISURE DI TENDENZA CENTRALE Le misure di tendenza centrale o posizione servono per individuare il valore intorno al quale i dati sono raggruppati; La tendenza centrale è la misura più appropriata per sintetizzare l'insieme delle osservazioni, se una distribuzione di dati dovesse essere descritta con un solo valore; è la prima indicazione della dimensione del fenomeno. Le misure proposte sono essenzialmente 3: la media, la moda e la mediana. La scelta della misura di tendenza centrale di una serie di dati dipende dalle caratteristiche della distribuzione e dal tipo di scala. LA MEDIA ARITMETICA La media può essere vista come il baricentro della distribuzione campionaria, quando ogni singola osservazione è rappresentata da un peso convenzionale, identico per tutte, lungo l'asse che riportai valori su una scala di intervalli o di rapporti. Per dimostrare graficamente che la media aritmetica corrisponde al punto di bilanciamento o di equilibrio dei dati, si supponga di avere 5 misure: 10,9 11,5 12,3 12,8 15,4. La loro media è uguale a 12,58. La rappresentazione grafica dei dati e della media, riportata nella figura seguente, mostra visivamente come la somma della distanza dalla media dei valori collocati prima sia uguale alla somma della distanza dei valori collocati dopo. ESEMPIO Da un gruppo di 25 dati, raggruppati nella seguente distribuzione in classi calcolare la media. Classe xi 155 165 175 185 195 Frequenza fi 3 5 8 6 3 Applicando la formula della media ponderata otteniamo LA MEDIA ARITMETICA PER DISTRIBUZIONI DI FREQUENZA ESEMPIO 1: Da un gruppo di 25 dati, raggruppati nella seguente distribuzione in classi calcolare la media. Applicando la formula della media ponderata otteniamo LA MODA La moda (detta più raramente anche dato prevalente) è il valore più frequente di una distribuzione. - Non è influenzata dalla presenza di nessun valore estremo; tuttavia viene utilizzata solamente a scopi descrittivi, perché è meno stabile e meno oggettiva delle altre misure di tendenza centrale. Può infatti differire nella stessa serie di dati, quando si formano classi di distribuzione con ampiezza differente. Per individuare la moda entro una classe di frequenza, non conoscendo come i dati sono distribuiti, si ricorre all'ipotesi della uniforme ripartizione. - Oltre alle distribuzioni di frequenza che hanno una sola moda e che si chiamano distribuzioni unimodali, si trovano distribuzioni di frequenza che presentano due o più mode; sono denominate distribuzioni bimodali o plurimodali. Le distribuzioni plurimodali possono essere il risultato della scarsità di osservazioni o dell’arrotondamento dei dati. Di norma, sono dovute alla sovrapposizione di più distribuzioni con tendenza centrale differente. Per esempio, misurando le altezze di un gruppo di giovani in cui la parte maggiore sia formata da femmine e la minore da maschi si ottiene una distribuzione bimodale, con una moda principale ed una secondaria, come la seguente. Quando la distribuzione dei dati evidenzia due o più mode, il ricercatore deve quindi sospettare che i dati non siano omogenei, ma formati da altrettanti gruppi con differenti tendenze centrali. E’ pertanto errato fondare le analisi sulla media generale della distribuzione, poiché non è vera l’assunzione fondamentale che siano dati tratti dallo stesso universo o popolazione con una sola tendenza centrale. La media di una distribuzione bimodale, formata in quota pari da maschi e da femmine, sarebbe un valore “assurdo” che non descrive né i maschi né le femmine, ma un individuo inesistente, non essendo né maschio né femmina. LA MEDIANA La mediana è il valore che occupa la posizione centrale in un insieme ordinato di dati. E’ una misura robusta, in quanto poco influenzata dalla presenza di dati anomali. La sua utilizzazione è indispensabile nel caso di scale ordinali o di ranghi. La sue caratteristiche più importante sono due: -è calcolata sul numero di osservazioni; si ricorre al suo uso quando si vuole attenuare l'effetto di valori estremi o comunque prendere in considerazione solo l’informazione fornita dai ranghi; - in una distribuzione o serie di dati, ogni valore estratto a caso ha la stessa probabilità di essere inferiore o superiore alla mediana. CALCOLO DELLA MEDIANA - disporre i valori in una fila ordinata in modo crescente oppure decrescente e contare il numero totale n di dati; A: se il numero (n) di dati è dispari, la mediana corrisponde al valore numerico del dato centrale, quello che occupa la posizione (n+1)/2 B: se il numero (n) di dati è pari, la mediana è stimata utilizzando i due valori centrali che occupano le posizioni n/2 e n/2+1; (n/2 + (n/2)+1)/2 OSS: con poche osservazioni, come mediana viene assunta la media aritmetica di queste due osservazioni intermedie; con molte osservazioni raggruppate in classi, si ricorre talvolta alle proporzioni ESEMPIO: Calcolare la mediana nella serie di 6 dati: 10,1 10,8 13,1 13,9 14,2 14,5 . - Il numero di osservazioni è pari e i due valori centrali sono 13,1 e 13,9; la mediana è individuata dalla loro media aritmetica e quindi è uguale a 13,5. Per meglio comprendere le differenze tra media aritmetica e mediana, con la stessa serie di 6 dati (10,1 10,8 13,1 13,9 14,2 14,5 ) in cui - la media è 12,85 e la mediana 13,5 la rappresentazione grafica evidenzia come la media sia il baricentro della distribuzione e la mediana sia collocata tra i valori più addensati. CALCOLO DELLA MEDIANA IN UNA DISTRIBUZIONE DI FREQUENZA Qualora sia disponibile la distribuzione di frequenza cumulata, la mediana (classe mediana) corrisponde alla modalità (classe) associata alla prima frequenza cumulata relativa superiore al 50% La classe mediana della distribuzione è “Buono” ESEMPIO RIASSUNTIVO id Peso (Xi) 1 70 2 65 3 54 4 71 5 70 6 67 7 65 8 45 2) n=10 9 55 10 70 Moda = osservazione che si verifica con maggiore frequenza Moda=70 Kg Media = i=1..n xi = (70+65+…..+55+70)/10=63,2 n Mediana 1) Ordino i dati: 45 54 55 65 65 67 70 70 70 71 Se n dispari Se n pari XMed=X(n+1)/2 XMed=(Xn/2+X(n)/2+1)/2 XMed= (65+67)/2=66 GLI INDICI DI DIPERSIONE: Media moda e mediana sono valori sintetici che indicano la “tendenza centrale” della distribuzione, ma da soli non bastano per descrivere una distribuzione GLI INDICI DI DISPERSIONE: cercano di misurare quanto i dati siano dispersi: più i dati sono raggruppati , minore è il valore dell'indice di dispersione e maggiore è la significatività dell'indice di posizione a rappresentare l'insieme dei dati; viceversa, se i dati sono dispersi il valore dell'indice di dispersione è alto e l'indice di posizione è poco significativo. danno anche un'idea della significatività della media (e della mediana e della moda), e vanno perciò sempre considerati insieme. Per questo fa un errore chi sostiene che la statistica sia una materia opinabile indicando il classico esempio delle due persone con a disposizione due polli che vengono mangiati dalla stessa, ma che in media ne mangerebbero uno a testa. In questo caso il valore dell'indice di dispersione è assai alto, indicando subito che la media non ha assolutamente alcuna attendibilità. IL CAMPO DI VARIAZIONE (O INTERVALLO DI VARIAZIONE O RANGE) E’ la differenza tra il valore massimo e il valore minimo - intuitivo e semplice, in particolare quando i dati sono ordinati - incapace di misurare come i dati sono distribuiti entro l'intervallo - risente della presenza di valori anomali QUANTILI (O FRATTILI) : Sono misure di posizione non-centrale con esclusive finalità descrittive (ogni gruppo parziale contiene la stessa frazione di osservazioni) - DECILI ––> dividono i dati ordinati in decine - PERCENTILI ––> dividono i dati ordinati in centesimi • Proprietà : individuano i valori che delimitano una % o frazione stabilita di valori estremi (es.: nel monitoraggio dell'inquinamento indicano i valori che rientrano nell’x% dei massimi o minimi) • Si usano : - quando non si conosce la forma della distribuzione - quando la distribuzione è fortemente asimmetrica DIFFERENZA INTERQUARTILE Differenza tra il 3° ed il 1° quartile. (tra il valore della mediana della seconda metà e quello della mediana della prima metà della distribuzione) DIFF. INT. = 3q-1qs Serve per eliminare il problema dei valori estremi VARIANZA (O Quadrato Medio, Mean Square) DEVIAZIONE STANDARD Gradi di libertà:Poichè la somma degli scarti dalla media è necessariamente uguale a zero, fissata la media solo n − 1 scarti sono liberi di variare (ossia di assumere un qualunque valore). Lo scarto rimanente deve assumere l’unico valore che consente di soddisfare il vincolo DEVIAZIONE STANDARD PER DATI RAGGRUPPATI x 175.4 S f ( x x) 2 n 1 S = [3*( 155-175.4)2+….3*(195-175.4)2]/24 = 12.06 IL COEFFICIENTE DI VARIAZIONE Il coefficiente di variazione è dato da • E’ un numero puro (adimensionale) • Elimina l’effetto dell’intensità media del fenomeno studiato • Serve per fare confronti INDICI DI FORMA: ASIMMETRIA -Nelle distribuzioni unimodali si ha simmetria quando media, moda e mediana coincidono; -l'asimmetria è detta destra (più correttamente, a destra) quando i valori che si allontanano maggiormente dalla media sono quelli più elevati, collocate a destra dei valori centrali; nell’asimmetria destra, la successione delle 3 misure di tendenza centrale da sinistra a destra è: moda, mediana, media; - l'asimmetria è detta sinistra (o a sinistra) quando i valori estremi, quelli più distanti dalla media, sono quelli minori Nell’asimmetria sinistra, la successione delle 3 misure di tendenza centrale da sinistra a destra è invertita rispetto all'ordine precedente: media,mediana, moda. ESEMPI DI DISTRIBUZIONI ASIMMETRICHE DIAGRAMMA A SCATOLA E BAFFI I diagrammi Box-and-Whisker (scatola-e-baffi), chiamati anche semplicemente boxplot e presentati in modo organico da John W. Tukey nel suo testo del 1977 (Exploratory Data Analysis, pubblicato da Addison-Wesley, Reading, Mass.), sono un metodo grafico diffuso recentemente dai programmi informatici, per la facilità con la quale possono essere costruiti. Servono per rappresentare visivamente tre caratteristiche fondamentali di una distribuzione statistica: - il grado di dispersione o variabilità dei dati, rispetto alla mediana e/o alla media; - la simmetria; - la presenza di valori anomali. BOX-PLOT Secondo il metodo originale proposto da Tukey nel 1977 e come riportato nella figura precedente, la costruzione di un diagramma Box-and-Whisker o boxplot è costruita di fianco ad una scala che riporta le modalità o valori del carattere; tale diagramma: a)ha origine da una linea orizzontale, interna alla scatola che rappresenta la mediana, mentre b) le due linee esterne orizzontali che delimitano la scatola rappresentano il primo quartile (la linea inferiore indicata con Q1) e il terzo quartile (la linea superiore indicata con Q3); c) la distanza tra il terzo (Q3) e il primo quartile (Q1), detta distanza interquartilica, è una misura della dispersione della distribuzione. Tra questi due valori (Q1 e Q3) per definizione sono compresi il 50% delle osservazioni. Quindi un intervallo interquartilico piccolo indica che la metà delle osservazioni ha valori molto vicini alla mediana. L’intervallo aumenta al crescere della dispersione (varianza) dei dati. Inoltre, esso fornisce informazioni anche sulla forma della distribuzione (simmetria): se la linea inferiore e superiore hanno distanze differenti dalla mediana, la distribuzione dei valori rilevati è asimmetrica. d) Le linee che si allungano dai bordi della scatola e si concludono con due altre linee orizzontali (baffi) individuano gli intervalli in cui sono posizionati i valori minori di Q1 (nella parte inferiore) e quelli superiori a Q3 (nella parte superiore); questi punti estremi, evidenziati dai baffi, sono i valori adiacenti. e) Indicando con r la differenza interquartilica r = Q3 – Q1 si definiscono -Valore Adiacente Inferiore (VAI) il valore osservato più piccolo che sia maggiore o uguale a Q1 - 1,5r VAI ≥ Q1 - 1,5r -Valore Adiacente Superiore (VAS) il valore osservato più grande che risulta minore o uguale a Q3 + 1,5r VAS ≤ Q3 + 1,5r Il valore 1,5 proposto da Tukey non ha particolari proprietà; per stessa affermazione di Tukey è stato scelto sulla base della sua “esperienza”, del suo “buon senso” statistico. f) Se i due valori estremi dei dati osservati sono contenuti entro l’intervallo tra VAI e VAS, i due baffi rappresentano i valori estremi. g) I valori esterni a questi limiti sono definiti valori anomali. Nella rappresentazione grafica del box-plot, sono segnalati individualmente, poiché costituiscono una anomalia rispetto agli altri dati della distribuzione. I valori che si discostano dalla mediana tra 1,5 e 3 volte la distanza interquartile possono essere considerati nella norma; quelli che si discostano oltre 3 volte dovrebbero essere molto rari e meritano una verifica ulteriore, per escludere con sicurezza banali errori di misura o trascrizione. Essi devono essere verificati, per capire le cause eventuali che li hanno determinati e così apportare le eventuali correzioni. h) Anche i due valori adiacenti, con la loro distanza dai quartili, forniscono informazioni circa la variabilità dei dati e la forma della distribuzione. Se la distribuzione è normale, nel box-plot le distanze tra ciascun quartile e la mediana saranno uguali; così pure avranno lunghezza uguale le due linee che partono dai bordi della scatola e terminano con i baffi. In una distribuzione normale, essi distano dalla mediana (me) una quantità pari a 2,69796 volte la deviazione standard (σ). Questo intervallo comprende il 99,3% delle osservazioni