STATISTICA DESCRITTIVA INFERENZIALE Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Ho un insieme di dati e li utilizzo per fare induzione e previsione LA TERMINOLOGIA ! Statistica descrittiva e inferenziale ! Campione e Universo ! Parametri e Stime ! Variabili e Dati ! Scale di misura ! Rappresentazione grafica La Statistica ha una sua terminologia. Molti termini sono familiari: alcuni sono usati nel linguaggio ordinario sia pure in accezioni leggermente diverse. UNIVERSO e CAMPIONE Un campione è un insieme di elementi tratti da un universo (o popolazione). Un universo consiste della totalità degli elementi che hanno certe caratteristiche. Esempi: ! Universo: tutti i pazienti adulti con una certa malattia. ! Campione: 120 pazienti con quella malattia, inclusi in una sperimentazione clinica. ! Universo: un lotto di 5000 compresse. ! Campione: del 10 compresse di quel lotto sottoposte al controllo peso. F Il campione è soltanto una parte del tutto.E PARAMETRI DELL'UNIVERSO E STIME • I parametri sono caratteristiche tipiche e costanti di un dato universo e hanno, in genere, valore ignoto: sono anche detti costanti o valori veri per distinguerli dai valori campionari che sono invece variabili. • I parametri sono indicati con lettere greche (es.: una media si denota con µ - si legge mi- , una proporzione con π - si legge pi). Esempi: • • La media dei pesi di tutte le compresse in un certo lotto di produzione (µ). La proporzione di β-talassemici tra tutti i nati nella provincia di Roma tra il 1950 e il 1989 (π). INFERENZA Nelle situazioni sperimentali si eseguono osservazioni su di un campione per trarre conclusioni (o fare inferenza) sulle cara7eris8che della universo. ! Tale procedura è necessaria poiché un universo infinito non è conoscibile in modo esaus6vo, neppure virtualmente. ! (es: tu? i sogge? con tubercolosi polmonare nella storia, anche futura, dell'umanità; la totalità delle misure che si possono o7enere con un certo spe7rofotometro) ! Anche un universo finito ! (es: tu? i residen8 a Milano; tu7e le fiale di un lo7o) di rado può essere esplorato completamente, per problemi di tempo o costo. VARIABILI E DATI ! Si dicono variabili le cara9eris6che rilevabili di un dato sistema ogge7o di studio ! I da6 sono i valori assun8 dalle variabili I dati sperimentali si presentano sotto differenti forme, essi possono essere sia di tipo quantitativo sia di tipo qualitativo, ed essere espressi o con scale continue o con scale discrete. Le variabili ! Le condizioni indispensabili per la riproduzione dei fenomeni osserva8 ( valore predi?vo sono de7e variabili . ad esempio l altezza di una persona, il sesso, l’età, ecc. ) ! Una variabile è una condizione, un a7ributo o una cara7eris8ca di una persona (o di un evento), che può essere misurata. ! Tale condizione, a7ributo o ! Una variabile può essere cara7eris8ca varia a seconda delle situazioni o degli individui. ! Le diverse proprietà di una variabile si definiscono valori o modalità. ! Per esempio, per la variabile sesso i valori sono 2: genere maschile e femminile. ! Se ad esempio la variabile è il colore dei capelli, avremo più valori. Esempi: ! sesso, età, peso (di pazien8 inclusi in uno studio), I valori numerici ( ! ! ! anni, per la variabile "età"; chili, per il "peso corporeo", mmHg, per la "pressione arteriosa" ) o le modalità ( maschio o femmina per la variabile "sesso"; A, AB, B, 0 per il "gruppo sanguigno", elementare, media inferiore, media superiore, università , per la variabile "8tolo di studio ), ! ! ! assun6 dalle variabili, cos8tuiscono i da6, ricavabili da esperimen8 scien8fici, da indagini epidemiologiche o di mercato. Le variabili Scala • Quantitative Discreta Continua Variabili Nominale • Qualitative Ordinale VARIABILI QUANTITATIVE IN SCALA DISCRETA Si dicono discrete quelle variabili che possono assumere … ! un numero finito di valori (es.: il numero di na8 mal-­‐forma8 in un anno, il numero di cavie sopravvissute a una data dose di farmaco somministrata a 20 cavie), ! Oppure un'infinità numerabile di valori, almeno virtualmente (es.: il numero di a7acchi anginosi per se?mana in un sogge7o coronaropa8co). VARIABILI QUALITATIVE IN SCALA NOMINALE Discrete sono inoltre le variabili che esprimono qualità o modalità che non si possono porre in ordine di grandezza, ! ad esempio il sesso (femmina, maschio) ! o il gruppo sanguigno (0, A, B, AB). La scala in cui sono espresse tali variabili è de7a scala nominale. SCALA NOMINALE (esempi) Gruppo sanguigno di 100 sogge? residen8 nella provincia di Roma. Distribuzione di frequenza del gruppo sanguigno di 100 soggetti residenti nella provincia di Roma Tipo n° soggetti 0 47 A 41 B 9 AB 3 Totale 100 A A AB A A 0 A A 0 0 A 0 A A A 0 0 0 A A 0 0 A 0 B 0 0 B 0 A 0 A 0 0 0 A A 0 0 A A 0 A A 0 A 0 A 0 A 0 A A 0 B A A A 0 0 B 0 A A 0 0 0 0 B 0 0 0 A B 0 AB 0 A 0 A 0 0 A A AB A 0 B 0 0 0 A 0 B A 0 A 0 A SCALA NOMINALE (esempi) SCALA DICOTOMICA: da8 più semplici consistono in osservazioni non ordinate dicotomiche o del 8po "tu7o o nulla"; cioè: il paziente vive o muore, ha o non ha un par8colare a7ributo. Stato a 28 giorni dal ricovero Morti Vivi Totale % sopravvivenza Trattati con propranololo Non trattati 7 38 45 84% 17 29 46 63% SCALA NOMINALE (esempi) SCALA NOMINALE Non necessariamente una scala nominale deve essere dicotomica; spesso vi sono più di due alternative o criteri di classificazione. Per esempio i gruppi sanguigni illustrano una scala policotomica non ordinata. Gruppo Sanguigno donne con tromboembolia n. % donne senza tromboembolia n % A 32 58 51 35 B 8 15 19 13 AB 6 11 5 3 0 9 16 70 49 Totale 55 100 145 100 L’osservazione delle percentuali in funzione del gruppo sanguigno suggerisce un deficit del sangue tipo 0 nel gruppo affetto da tromboembolia (16%) in confronto ai controlli (49%) SCALA ORDINALE ! Non sempre le variabili con8nue sono misurabili in modo quan8ta8vo, anche se i loro valori possono esser dispos6 in ordine di grandezza. ! Un paziente arruolato in uno studio di efficacia di un analgesico, può pa8re una qualunque intensità di dolore senza potervi associare una quan6tà. Egli, però, può classificare l'intensità del dolore nella scala ordinale: ! nulla < lieve < moderata< forte Alle modalità si associa un punteggio ! (es.: nulla=0, lieve=1, moderata=2, forte=3) ! che non ha significato quan6ta6vo: ! 2 non è il doppio di 1, ! 3 non è il triplo di 1, ! la differenza tra 2 e 1 non è uguale a quella tra 3 e 2. SCALA ORDINALE ! Una variabile quan6ta6va può anche essere misurata su scala ordinale. ! Esempi: L'età dei pazien8 può essere espressa nella scala ordinale bambini < ragazzi < adul6 < anziani Il numero di episodi anginosi alla se?mana può essere espresso in scala ordinale assen6 < rari < frequen6 o, addiri7ura, in modo binario: NO < SI SCALA ORDINALE ! Distribuzione di frequenza della variabile "Titolo di studio" (L'Italia in cifre, ISTAT 1996). Titolo di studio nessuno elementare media inferiore media superiore laurea Totale n° soggetti 1.123 23.962 16.418 9.947 2.032 53.482 SCALA A RANGHI La scala a ranghi è quella che ordina gli elemen8 di un gruppo dal maggiore al minore in accordo alla grandezza delle osservazioni, assegna i numeri d'ordine corrisponden8 alla posizione occupata (rango) e trascura le distanze tra gli elemen8 ordina8. Per esempio, si supponga che pazien8 con cefalea cronica partecipino ad una prova clinica in cui essi ricevono 4 differen8 prepara8 analgesici in 4 differen8 occasioni. ! Al paziente si chiede di classificare i prepara8 in funzione del livello di riduzione del dolore da un massimo ad un minimo. ! Se un paziente ri8ene che il farmaco A sia migliore e il farmaco B il secondo, egli dovrebbe assegnare ai due rispe?vamente il rango 1 e 2 indipendentemente dal fa7o che egli ritenga A molto superiore o appena meglio di B. SCALA A RANGHI Punteggio a7ribuito a 5 cara7eris8che del neonato rilevate all'esame obie?vo necessarie per o7enere il punteggio Apgar. Caratteristica Punteggio 0 1 2 Frequenza cardiaca assente < 100 > 100 Respirazione assente lenta e irregolare normale, piange Tono muscolare flaccido flessione estremità buona motilità Riflessi nessuna risposta Colorito pallido deboli movimenti reazione vigorosa estremità cianotiche Punteggio: DA ZERO A DIECI rosato SCALA NUMERICA DISCRETA Distribuzione di frequenza del numero di componen8 per famiglia (L'Italia in cifre, ISTAT 1996). Componenti modalità 1 2 3 4 5 6 7 o più Totale assolute 4.101 4.917 4.419 4.220 1.572 477 203 19.909 n° famiglie(Frequenze) relative cumulate 0.206 4 101 0.247 9 018 0.222 13 437 0.212 17 657 0.079 19 229 0.024 19 706 0.010 19 909 1.000 relative 0.206 0.453 0.675 0.887 0.966 0.990 1.000 VARIABILI QUANTITATIVE IN SCALA CONTINUA Si dice continua una variabile che può virtualmente assumere un qualsiasi valore reale, in un certo ambito. • Ad esempio, Marco può essere alto esattamente …… metri¸ cioè 1.7724538509... m. In pratica, tuttavia, le misure di una variabile quantitativa possono assumere solo certi valori, in relazione al potere di risoluzione dello strumento di misura. • Ad esempio, l'altezza di Marco è 1.77 m, se misurata con un metro da sarto; è invece 1.772 m se misurata con lo stadio-metro Harpenden. SCALA NUMERICA CONTINUA 51.0 49.4 49.0 52.5 51.5 51.8 46.5 47.8 49.7 44.5 49.8 53.0 48.7 50.0 52.9 50.8 46.2 48.9 54.5 48.2 48.9 51.2 49.5 56.3 Lunghezza supina (cm) in un campione di 60 neona8. Valori o7enu8 con l'infantometro Harpenden. 46.0 52.2 47.0 50.8 50.0 52.5 51.2 51.1 54.7 52.3 48.2 50.8 55.0 50.2 50.3 47.7 48.5 53.8 50.2 53.4 47.4 50.5 51.7 49.5 44.4 49.2 50.5 49.5 52.9 50.5 54.0 46.5 51.5 50.9 51.6 52.7 limiti di classe valore centrale 44.25 - 45.75 45.0 45.75 - 47.25 46.5 47.25 - 48.75 48.0 48.75 - 50.25 49.5 50.25 - 51.75 51.0 51.75 - 53.25 52.5 53.25 - 54.75 54.0 54.75 - 56.25 55.5 56.25 - 57.75 57.0 frequenza Assoluta Cumulata 2 2 5 7 7 14 14 28 16 44 9 53 5 58 1 59 1 60 Facciamo un passo indietro…. - Continuo: peso, statura, tempo, colesterolo sierico Caratteri quantitativi - Discreto: numero gravidanze Per i caratteri quantitativi possono prendersi come modalità delle classi Classificazione dei caratteri: RISPETTO AL LIVELLO DI MISURAZIONE 1) Nominale o classificatoria 2) ordinale o per ranghi 3) ad intervalli 4) di rapporti 4 tipi di scale Aumentano le proprietà di misura sulla scala Nominale o classificatoria Esiste solo una sola relazione: l identità I risultati possono essere classificati in categorie qualitative dette anche nominali I caratteri nominali sono detti anche sconnessi perché non assumono alcun ordine precostituito Operazione ammessa il conteggio SCALA NOMINALE TIPO DI DIETA Ipoproteica Iposodica Ipolipidica Ipoglucidica Ipocalorica SCALA ORDINALE PAP TEST Classe I: Assenza di cellule atipiche Classe II: Citologia non regolare, ma nessun segno di malignità Classe III: Citologia sospetta ma non sicura Classe IV: Citologia sospetta Classe V: Citologia molto sospetta Ordinale o per ranghi Non solo uguaglianza o diversità ma anche... gradazione tra le classi o tra individui di classi differenti Relazione d ordine è asimmetrica e transitiva limite In una scala ordinale, non è possibile quantificare le differenze di intensità tra le osservazioni. La scala ad intervalli aggiunge la proprietà di misurare le distanze o differenze tra tutte le coppie di valori 9 F = C + 32 5 Esempio la scala Celsius o Fahrehneit o il tempo L origine della scala ad intervalli (lo zero) è arbitraria nel senso che non indica l assenza totale della quantità che si sta misurando limite Non è possibile il rapporto tra coppie di valori (Una temperatura di 80 gradi Celsius non è il doppio di una di 40 gradi) Scala a rapporti ha il vantaggio di avere un’origine naturale. Lo zero indica l assenza della quantità Altezza, distanza, velocità, l età, il peso, il reddito, la temperatura Kelvin Gode di tutte le proprietà delle scale precedenti Scalogramma di Guttmann Nominale Ordinale Intervallo Rapporti Identità Ordinamento Differenze Rapporti + + + + + + + + + + Rappresentare le variabili ID studente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 nominale dicotomi ca Sesso Anno di nascita Anno di immatricolazione Esami completati Voto medio quantitativa discreta ordinale ordinale quantitativa continua Sistemazione dei dati in tabella 563472323264393 203346542367342 513437021315045 0 1 2 3 4 5 6 7 8 9 freq. Ass. 3 3 7 12 7 5 4 3 0 1 45 freq. Ass. cumul. freq. Rel. 3 6,7% 6 6,7% 13 15,6% 25 26,7% 32 15,6% 37 11,1% 41 8,9% 44 6,7% 44 0,0% 45 2,2% 100,0% 5 6 2 0 5 1 xi ! Frequenza assoluta: è il numero di volte con cui si presenta una data modalità l Frequenza relativa: si ottiene rapportando la frequenza assoluta al numero totale delle osservazioni l Distribuzione di frequenza: è la tabella che associa ad ogni modalità la sua frequenza l Distribuzione di quantità: è la tabella che associa ad ogni modalità l ammontare del carattere che è imputabile ad ogni data modalità Distribuzione statistica di frequenza Età-xi 15-24 25-34 35-44 45-54 55-64 65-74 75-84 >=85 0 ≤ fi = freq. freq. Rel. freq. Rel. Fi Cumulata Cumulata 0,00068 3 0,001 0,00317 17 0,004 0,01424 80 0,018 0,05426 320 0,072 0,16324 1.042 0,236 0,27267 2.248 0,508 0,32896 3.703 0,837 0,16279 4.423 1,000 1,00000 Decessi yi 3 14 63 240 722 1.206 1.455 720 4.423 4.423 4.420 4.406 4.343 4.103 3.381 2.175 720 yi ≤1 N 0 ≤ yi ≤ N freq. Retrocu mulata 4.423 4.420 4.406 4.343 4.103 3.381 2.175 720 Distribuzione statistica di quantità Redditi- xi <= 10000 10000--|20000 20000--|40000 > 40000 N° redditieri- yi 7 20 20 3 50 Ammontare di reddito 35000 270000 600000 160000 1065000 Carattere quantitativo SERIAZIONE Carattere qualitativo SERIE Tempo t Serie storica 2001 2002 2003 2004 N° pazienti dimessi