Statistica Descrittiva Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare Inferenziale Ho un insieme di dati e li utilizzo per fare induzione e previsione STATISTICA insieme di procedure finalizzate al trattamento di informazioni relative a fenomeni collettivi, che si manifestano con determinazioni tipicamente non costanti Oggetto della STATISTICA sono quei fenomeni che variano all’interno di un collettivo di riferimento, la POPOLAZIONE STATISTICA, costituito da UNITA’ STATISTICHE o elementari. POPOLAZIONE STATISTICA UNITA’ STATISTICA qualsiasi insieme di persone, animali, piante o cose da cui possono essere raccolte le informazioni elemento di base della popolazione sul quale viene effettuata la rilevazione o la misurazione di uno o più fenomeni oggetto di studio oggetto di interesse dell’indagine: insieme di entità sulle cui caratteristiche vogliamo trarre conclusioni oggetto della raccolta dei dati, detentore dell’informazione che vogliamo rilevare e analizzare Esempio: Italian Study on Asthma in Young Adults (ISAYA): indagine sulla salute respiratoria nella popolazione adulta italiana (20-44 anni) nel 1998-2000 POPOLAZION E STATISTICA UNITÀ STATISTICA tutti gli adulti di età 20-44 anni residenti in Italia nel periodo dello studio singolo adulto di età 20-44 residente in Italia nel 19982000 POPOLAZIONI DI INTERESSE PER LA STATISTICA APPLICATA ALLA MEDICINA: • insieme di esseri umani (residenti in una certa area; soggetti sani, malati oppure deceduti); • insieme di unità amministrative (reparti, ospedali, comuni); • ematocriti dei ricoverati presso il reparto di ematologia del policlinico Umberto I nell’anno 2009 • tempi di sopravvivenza dopo il trapianto di cuore… • aborti nell’ospedale di LT nel periodo 2000-2010 POPOLAZIONI DI INTERESSE PER LA STATISTICA APPLICATA ALLA MEDICINA: • insiemi di esseri umani esempio (popolazione di residenti - sani o malati): indagine ISAYA adulti di età 20-44 anni residenti in Italia nel 1998-2000 selezionati indipendentemente dallo stato di salute esempio (popolazione di soggetti sani): sperimentazione sull’effetto del fluoro nel prevenire l’insorgenza di carie nei bambini bambini sani (senza carie) esempio (popolazione di soggetti malati): sperimentazione sull’effetto di un chemioterapico per la cura di una particolare patologia tumorale soggetti che presentano la patologia Molte ricerche vengono programmate con lo scopo di pervenire a conclusioni generali, valide per tutte le unità statistiche della popolazione, sfruttando i risultati ottenuti da un numero ridotto di osservazioni CAMPIONE STATISTICO: sottoinsieme di unità statistiche appartenti alla popolazione che vengono selezionate per l’analisi (sono quelle realmente studiate) GENERALIZZAZIONE DELLE CONCLUSIONI NB: il campione deve essere rappresentativo (stesse caratteristiche della popolazione dalla quale è stato estratto) CAMPIONAMENTO CASUALE ESEMPIO DI INDAGINE CAMPIONARIA: ISAYA 3000 soggetti adulti di età 20-44 anni estratti casualmente dalle liste dei residenti in ciascuna delle 9 città coinvolte nell’indagine ESEMPIO DI INDAGINE NON CAMPIONARIA: censimento vengono raccolte informazioni da tutti i residenti nel territorio italiano nell’anno del censimento (non su di un campione) numerosità e composizione demografica della popolazione residente italiana SCHEMA LOGICO DELLA STATISTICA POPOLAZIONE Studio delle caratteristiche della popolazione CAMPIONAMENTO teoria delle probabilità STATISTICA DESCRITTIVA CAMPIONE STATISTICA INFERENZIALE generalizzazione delle informazioni raccolte sul campione Sintesi e presentazione dei dati raccolti sul campione Nozioni di base Si decide l’obiettivo della ricerca. Si identificano le modalità di raccolta dati (questionario, cartelle cliniche, analisi laboratorio,…) Durante la raccolta dei dati, scelto il metodo di rilevazione, vengono individuate le unità statistiche che saranno prese in considerazione per portare a termine l’indagine Nozioni di base Unità statistica: è l’unità elementare in grado di fornire dati e informazioni relativamente ai caratteri presi in esame L’insieme delle unità statistiche costituisce il collettivo (popolazione o campione) oggetto di studio ES : maschio adulto ↓ popolazione Ipertesi coniugati ricoverati Paziente ricoverato ↓ unità statistica Cartella clinica ↓ Insieme di variabili (caratteri) Nozioni di base Scelta del fenomeno oggetto di studio Individuazione dei caratteri Definizione delle modalità Nozioni di base Caratteri aspetti del fenomeno oggetto di studio Modalità (xi) modo di manifestarsi del carattere La classificazione dei caratteri I caratteri possono essere classificati in: -Caratteri qualitativi distinti in: - ordinabili: è possibile ordinare le modalità del carattere in senso crescente o decrescente (es: titolo di studio, livello di gravità della diagnosi...); - sconnessi: non c’è alcun ordinamento intrinseco tra le modalità (es: colore degli occhi, sesso,stato civile, religione...); - Caratteri quantitativi distinti in: - discreti: le modalità del carattere sono numeri interi (es: numero di medici, numero di figli per donna..) - continui: le modalità del carattere sono misurate su una scala continua (es: peso, altezza...). Alla base di tale classificazione dei caratteri vi è la 'scala di misura' con cui sono espresse le modalità: se attraverso dei numeri o delle 'etichette'. Tipi diContinuo Dati Quantitativo Discreto Pressione sanguigna, pH, [Na+], volume Numero figli in una famiglia; frequenza polmonare, altezza, peso, età, ecc.. degli attacchi d’asma; sedute terapeutiche; frequenza cardiaca; gg di assenza dal lavoro, ecc.. Qualitativo o Categorico Ordinale Nominale Stato del Paziente (MM, M, I, P, MP, D); Sesso (M/F); stato civile (Ce, Nu, Co, Di); stadio del Tumore (I, IA, II, IIA, …); grado gruppo sanguigno (A, B, AB, 0); di soddisfazione (Insufficiente, Vivo/Morto. Sufficiente, Buono, …) Variabile di Intervallo Variabile di Rapporto Variabile ordinale con intervalli costanti Variabile di Intervallo con “zero” e “zero” arbitrario. Stadio della rappresentativo. Variabile quantitativa patologia: pari gravità fra I e IA, IA e II,…; Quoziente di intelligenza (QI). Soglia di povertà. • • • • • Variabili quantitative Profondità di sondaggio in mm (PPD: probing pocket depth) Ampiezza della recessione in mm (Rec. Recession depth) Livello di attacco clinico in mm ( PAL: probing attachment level) Variabili qualitative • Indice di placca (PI: plaque index) • Indice di gengivite ( GI: gingival index) • Sanguinamento al sondaggio (BOP: bleeding on probing) L'indice di placca (PlI) (Silness J & Löe H), viene registrato, nel corso dell'esame clinico parodontale, in 6 siti per ciascun elemento dentale presente tramite sondaggio circonferenziale con sonda parodontale manuale. I 6 siti dentali considerati sono: buccale, mesio-buccale, distobuccale, linguale, mesiolinguale e disto-linguale. Le sei misurazioni rilevate vengono sommate e divise per 6 per ottenere il PlI per singolo elemento. L'indice di placca per soggetto viene poi calcolato come media dell'indice dei singoli elementi (Media: somma degli indici dei singoli elementi dentali diviso il numero di elementi dentali considerati). In questo modo il parodontologo clinico ottiene una valutazione accurata della quantità di placca batterica non rimossa. SCORES CRITERIA 0 Assenza di placca 1 Si evidenzia con il passaggio della sonda 2 È visibile a occhio nudo 3 È abbondante L’indice di mobilità dentale, in Codificato da "1" a "3" a seconda che il dente sia “movibile” in direzione orizzontale per 0.2 - 1 mm (grado 1), per più di 1mm (grado 2), e se è movibile anche in direzione verticale (grado 3). Classificazione dei caratteri e scala di misura CARATTERE qualitativo SCALA Sconnesso Nominale Ordinabile Ordinale quantitativo Ad intervalli (scala numerica discreta o continua) Operazioni che è possibile fare sui caratteri in base alla loro classificazione Operazioni sulle Carattere modalità del qualitativi Quantitativi carattere sconnessi ordinabili (discreti/continui) =; si si si >;< no si si +;- no no si Nozioni di base In ogni collettivo ogni modalità può presentarsi più volte Il numero delle volte che una modalità si presenta prende il nome di frequenza assoluta (ni) (o semplicemente frequenza) Nozioni di base L’insieme delle modalità e delle frequenze costituisce la distribuzione statistica Nel caso di un carattere qualitativo (mutabile) la distribuzione si chiamerà serie Nel caso di un carattere quantitativo (variabile) la distribuzione viene detta seriazione Tabulazione dei dati I dati raccolti vengono riportati in apposite tabelle Si distinguono: Tabelle semplici (singole): relative ad un unico carattere Tabelle doppie (a doppia entrata): relative a 2 caratteri “incrociati” Tabelle multiple: relative a 3 o più caratteri Assegnare ad ogni valore (modalità/intervallo di classe) la frequenza (assoluta e/o relativa) corrispondente FREQUENZA ASSOLUTA (ni) numero di osservazioni corrispondente ai diversi valori (modalità/intervalli di classe) della variabile 0 ni n Ki=1 ni = n1 + n2 + .. + nK = n ottenuta tramite un CONTEGGIO n= numero totale delle osservazioni K= numero dei valori/modalità/classi della variabile Distribuzioni di frequenza frequenze assolute Una distribuzione di frequenza è la determinazione della frequenza con cui compare, in una certa popolazione, ciascun valore di una data variabile. Frequenza (ni) Giorni (x) 3 7 6 7 1 9 5 4 5 6 2 7 2 5 6 4 8 6 5 3 4 4 3 5 6 2 7 8 5 4 5 6 6 4 5 6 4 5 5 5 Periodi di incubazione di una malattia in 40 pazienti 1 2 3 4 5 6 7 8 9 1 3 3 7 11 8 4 2 1 Totale 40 Distribuzione di frequenze dei periodi di incubazione della malattia in 40 pazienti FREQUENZA RELATIVA: (fi = ni / n) rapporto tra il numero di osservazioni corrispondente ai diversi valori (modalità/intervalli di classe) della variabile e la dimensione campionaria 0 fi 1 Ki=1 fi = f1 + f2 + .. + fK = 1 FREQUENZA RELATIVA PERCENTUALE: (fi% = ni / n * 100) indica quanto volte un fenomeno si manifesta su una casistica di 100 osservazioni 0% fi% 100% Ki=1 fi % = f1 % + f2 % + .. + fK % = 100% Distribuzione di frequenze dei periodi di incubazione della malattia in 40 pazienti Giorni (xi) 1 2 3 4 5 6 7 8 9 totale ni fi 1 3 3 7 11 8 4 2 1 40 fi% 0,025 0,075 0,075 0,175 0,275 0,2 0,1 0,05 0,025 1 2,5 7,5 7,5 18 28 20 10 5 2,5 100 PERCHÉ USARE LE FREQUENZE RELATIVE? Per il confronto della distribuzione di una variabile in campioni di dimensioni diverse Esempio: Si vuole valutare l’efficacia di uno psico-farmaco nel curare forme di balbuzie. L’esperimento coinvolge due gruppi randomizzati di pazienti (A e B): il farmaco viene somministrato a 150 pazienti nel gruppo A, mentre un placebo viene somministrato a 100 soggetti in B. 29 PERCHÉ USARE LE FREQUENZE RELATIVE? FREQUENZE ASSOLUTE GRUPPO A GRUPPO B 90 EFFETTO ni (A) ni(B) 80 70 migliorato invariato peggiorato 50 80 20 33 53 14 60 50 40 30 20 150 100 10 0 migliorato invariato peggiorato 30 PERCHÉ USARE LE FREQUENZE RELATIVE? EFFETTO ni (A) ni(B) pi (A) pi(B) migliorato invariato peggiorato 50 80 21 33 53 14 0,33 0,53 0,14 0,33 0,53 0,14 150 100 1,00 1,00 FREQUENZE RELATIVE 0,60 0,50 0,40 GRUPPO A GRUPPO B 0,30 0,20 0,10 0,00 migliorato invariato peggiorato 31 FREQUENZA CUMULATA FREQUENZA ASSOLUTA CUMULATA (Fi) numero di osservazioni il cui valore è inferiore o uguale ad una data modalità o a un dato valore xi Fi (- )=0 Fi (+ )=n FREQUENZA RELATIVA CUMULATA (Pi = Fi / n; Pi% = Fi /n * 100%) Pi (- )=0 Pi (+ )=1 32 Distribuzioni di frequenza frequenze cumulate si sommano le frequenze assolute iniziando dalla prima Quando si vuol conoscere il numero totale di osservazioni che hanno un valore inferiore ad un certo limite, può essere utile conoscere le frequenze cumulative. giorni 1 2 3 4 5 6 7 8 9 totale ni 1 3 3 7 11 8 4 2 1 40 Fi 1 4 7 14 25 33 37 39 40 Fi% 2,5 10 17,5 35 62,5 82,5 92,5 97,5 100 Tabulazione dei dati Esempio 1: Stato civile ni tabella semplice, serie Celibe/nubil e 34 Coniugato/a 51 Divorziato/a 12 Vedovo/a 18 Totale 115 Esempio 2: tabella semplice, seriazione, distribuzione semplice (le frequenze unitarie non vengono riportate) Voti in latino in un semestre 2 4 5 7 Esempio 3: tabella semplice, seriazione, distribuzione di frequenza Numero di figli 0 1 2 3 4 5 Totale ni 22 89 56 11 8 4 190 Tabulazione dei dati Distribuzione di frequenza (carattere quantitativo) Carattere Frequenza ni x1 n1 x2 n2 x3 n3 … … xi ni … … xK nk Totale N Frequenze relative Carattere Frequenza ni fi x1 n1 n 1 /N x2 n2 n 2 /N x3 n3 n 3 /N … … … xi ni n i /N … … … xK nk n k /N Totale N 1 Frequenze percentuali Carattere Frequenza ni fi fi % x1 n1 n 1 /N n 1 .100/N x2 n2 n 2 /N n 2 .100/N x3 n3 n 3 /N n 3 .100/N … … … … xi ni n i /N n i .100/N … … … … xK nk n k /N n k .100/N Totale N 1 100 Frequenze cumulate Carattere Frequenza ni fi fi% Ni x1 n1 n 1 /N n 1 .100/N N1 x2 n2 n 2 /N n 2 .100/N N2 x3 n3 n 3 /N n 3 .100/N N3 … … … … … xi ni n i /N n i .100/N Ni … … … … … xK nk n k /N n k .100/N N Totale N 1 100 Possiamo anche suddividere in 'classi' la popolazione secondo il carattere considerato, allora le modalità del carattere vengono raggruppate in classi ed otteniamo una distribuzione di 'frequenze', dove per frequenza della classe si intende il numero di individui che appartengono alla classe. * Distribuzioni di frequenza Classi di frequenza Spesso, quando abbiamo un numero elevato di valori, può essere utile raggrupparli in classi, ottenendo così una notevole semplificazione ed una maggiore chiarezza. • L’ampiezza di una classe è l’arco dei valori compresi nella classe. • L’insieme delle classi deve comprendere tutti i possibili valori della variabile. Consulenze psichiatriche effettuate dal S.E.P. del Dip. Di Psichiatria dell’Univ. di Pisa (aa. 2000-02) • Le classi non devono essere fra loro sovrapposte. • Va sempre considerato che un numero troppo elevato di classi causa una perdita di sinteticità mentre un numero troppo ristretto causa una descrizione meno dettagliata. NOTA: La Scala di Valutazione Globale del Funzionamento è utilizzata dagli psichiatri per valutare globalmente il funzionamento psicologico, sociale e lavorativo del paziente nell’ambito di un ipotetico continuum salute-malattia mentale. Il punteggio assegnato può variare in ordine decrescente di gravità da 1 a 100 (ad es., punteggi compresi fra 1 e 10 indicano un persistente pericolo di far male a se stesso o agli altri). * Distribuzioni di frequenza valori centrali delle classi di frequenza Peso (kg) frequenza 60-65 65-70 70-75 75-80 80-85 7 16 40 28 9 totale 100 Considerando la prima classe (60-65) della tabella, i numeri 60 e 65 sono detti rispettivamente il limite inferiore ed il limite superiore della classe. Peso dei 100 studenti maschi iscritti all’Università di Pisa nel Corso di Laurea in Scienze Infermieristiche per l’anno accademico 2000-2001 La differenza fra il confine superiore ed il confine inferiore rappresenta l’ampiezza della classe. Se tutte le classi hanno uguale ampiezza, tale ampiezza viene generalmente indicata con a; nell’esempio abbiamo a = 65-60 = 5. Il valore centrale di una classe è ottenuto sommando i limiti inferiore e superiore e dividendo per 2; nell’esempio il valore centrale della prima classe è (60 + 65)/2 = 62,5. * Distribuzioni di frequenza Frequenze cumulative in dati raggruppati in classi Peso (kg) ni Ni fi Fi cum 60-65 65-70 70-75 75-80 80-85 7 16 40 28 9 7 23 63 91 100 0,07 0,16 0,40 0,28 0,09 0,07 0,23 0,63 0,91 1 totale 100 Peso dei 100 studenti maschi iscritti all’Università di Pisa nel Corso di Laurea in Scienze Infermieristiche per l’anno accademico 2000-2001 Anche in presenza di dati raggruppati in classi possiamo calcolare le frequenze cumulative. Le distribuzioni cumulate si riferiscono in questo caso ai confini superiori delle classi. Ad es. la percentuale degli studenti con peso inferiore a 74,5 Kg (terza classe in tabella) è 0,63x100=63%. COSTRUZIONE DELLA DISTRIBUZIONE DI FREQUENZA PER VARIABILI QUALITATIVE 45 Esempio: I dati seguenti si riferiscono al grado del trauma in 100 ricoverati al pronto soccorso: 02111 10010 02010 10101 00004 20010 11020 10103 02012 01120 11000 00101 12000 12010 02102 31201 02120 01000 22101 00210 X= grado del trauma xi: 0=assente 1=trauma lieve 2=trauma grave 3=lesioni permanenti 4=decesso Conteggio delle osservazioni… modalità …per ogni modalità conteggio frequenza assente |||| |||| |||| |||| |||| |||| |||| |||| |||| ||| lieve |||| |||| |||| |||| |||| |||| || grave |||| |||| |||| || lesioni permanenti || 2 decesso | 1 48 32 17 100 46 modalità tally frequenza assente |||| |||| |||| |||| |||| |||| |||| lieve |||| |||| |||| |||| |||| |||| || grave |||| |||| |||| || lesioni permanenti || 2 decesso | 1 |||| |||| ||| 48 32 17 100 MODALITA' assente lieve grave lesioni permanenti decesso TOTALE frequenza frequenza assoluta relativa ni ni /n 48 32 17 2 1 100 48/100 = 0,48 0,32 0,17 0,02 0,01 Costruzione della tabella e calcolo di frequenze relative k=5 47 esempio (grado del trauma): distribuzione di frequenza assoluta, relativa e cumulativa della variabile “grado del trauma” relativa cumulata percentuale Pi (%) assoluta ni relativa pi relativa percentuale pi (%) assente 48 0.48 48% 48 48 / 100 = 0.48 0.48 * 100 = 48% lieve 32 0.32 32% 48 + 32 = 80 80 / 100 = 0.80 0.80 * 100 = 80% grave 17 0.17 17% 80 + 17 = 97 97 / 100 = 0.97 0.97 * 100 = 97% lesioni permanenti 2 0.02 2% 97 + 2 = 99 99 / 100 = 0.99 0.99 * 100 = 99% decesso 1 0.01 1% 99 + 1 = 100 100 / 100 = 1 1 * 100 = 100% TOTALE 100 1 100% valore xi assoluta cumulata Ni relativa cumulata Pi 48 La matrice dei dati I dati codificati in una in una rilevazione statistica su n unità statistiche studiando x variabili sono raccolti in forma di tabella (matrice di dati) N sesso Età (anni) Peso (Kg) Titolo di studio n.° ricoveri 1 M 42 83 laurea 2 2 F 48 65 diploma 1 ... ... ... ... ....... ...... n F 61 79 Licenza media inferiore 4 La matrice dei dati Ogni riga corrisponde ad una unità statistica N sesso Età (anni) Peso (Kg) Titolo di studio n.° ricoveri 1 M 42 83 laurea 2 2 F 48 65 diploma 1 ... ... ... ... ....... ...... n F 61 79 Licenza media inferiore 4 La matrice dei dati Ogni colonna rappresenta una variabile N sesso Età (anni) Peso (Kg) Titolo di studio n.° ricoveri 1 M 42 83 laurea 2 2 F 48 65 diploma 1 ... ... ... ... ....... ...... n F 61 79 Licenza media inferiore 4