http://www.biostatistica.unich.it LA LA STATISTICA STATISTICA E’ l’insieme dei metodi che consentono di raccogliere, ordinare, riassumere, presentare ed analizzare dati e informazioni, trarne valide conclusioni e prendere decisioni sulla base di tali analisi e risultati Statistica Statistica Funzione Funzione Descrittiva Descrittiva Funzione Funzione Inferenziale Inferenziale Offre il metodo per riassumere le informazioni in modo da renderle utilizzabili più facilmente. Riduce i dati in forma maneggevole, sostituendo a molti numeri poche misure. Permette di generalizzare le informazioni, ricavando proprietà e leggi generali sulla base di dati rilevati solamente su una parte (campione) della popolazione. CAMPIONE E UNIVERSO Un campione è un insieme di elementi tratti da un universo (o popolazione). Un universo consiste della totalità degli elementi che hanno certe caratteristiche. (Non necessariamente una popolazione deve essere composta da un numero elevato di elementi). Esempi: • Universo: • Campione: tutti i pazienti adulti con una data malattia. 120 pazienti con quella malattia, inclusi in una sperimentazione clinica. • Universo: • Campione: un lotto di 5000 compresse. 10 compresse di quel lotto sottoposte al controllo del peso. ) Il campione è soltanto una parte del tutto.( UNITA’ STATISTICA Ogni elemento o caso appartenente alla popolazione oggetto diretto della osservazione da cui si raccolgono i dati. Esempi: un singolo paziente; una ASL; un studio odontoiatrico; etc VARIABILE STATISTICA Ciascuna informazione, caratteristica che verrà rilevata sulle unità statistiche sarà chiamata VARIABILE. I dati sperimentali (variabili) si presentano sotto differenti forme, essi possono essere sia di tipo quantitativo sia di tipo qualitativo, ed essere espressi o con scale continue o con scale discrete. MODALITA’ DI UNA VARIABILE Le “categorie” della variabile statistica in osservazione. FREQUENZA Numero di volte che si presenta una data modalità. Esempi Le variabili sesso, età, peso, pressione arteriosa, etc (di pazienti inclusi in uno studio) hanno come modalità: 9anni, per la variabile "età"; 9chili, per il "peso corporeo", 9mmHg, per la "pressione arteriosa" o le modalità 9maschio o femmina per la variabile "sesso"; 9A, AB, B, 0 per il "gruppo sanguigno", 9elementare, media inferiore, media superiore, università , per la variabile "titolo di studio VARIABILI STATISTICHE VARIABILI QUALITATIVE NOMINALI Date due qualsiasi modalità, è possibile solo affermare se esse sono uguali o diverse. Sesso; professione; diagnosi medica; … ORDINALI O PER RANGHI Esiste un criterio predeterminato per ordinare le modalità ordine di nascita; giorni della settimana; indice di severità di una malattia;… VARIABILI QUANTITATIVE DISCRETO L’insieme delle modalità assumibili può essere messo in “corrisp. biunivoca” con un sottoinsieme dei numeri naturali. CONTINUO (la variabile può assumere qualsiasi valore all’interno di intervalli di numeri reali. Num. componenti famiglia; num. di figli; num. di denti; num. colonie batteriche in una piastra;… statura; peso; glicemia; PAS;… Stabilito il fenomeno collettivo da studiare occorre individuare il collettivo su cui studiarlo ed i caratteri da rilevare e, nel caso di indagine campionaria, un campione “significativo” di unità statistiche. ?? Il dilemma… ?? Esaminare tutta la popolazione Esaminare un campione CENSIMENTO INDAGINE O SONDAGGIO O INCHIESTA Rilevazione totale: consente una conoscenza esatta del fenomeno oggetto di studio Rilevazione parziale: consente una stima del fenomeno oggetto di studio Sono da considerare: I tempi della rilevazione; I costi della rilevazione; La ricchezza di dettagli della rilevazione; Gli errori associati alla rilevazione (bias). Caratteristiche di un indagine Precisione: Direttamente proporzionale alla dimensione del campione. E’ dunque assoluta nelle indagini esaustive e decresce in funzione della numerosità campionaria. Accuratezza: legata al passaggio dei dati sul supporto di analisi. Gli errori di rilevazione sono maggiori nelle indagini di vaste dimensioni. Attendibilità: concetto che racchiude in sé la precisione e l’accuratezza. CAMPIONE STATISTICO CAMPIONE STATISTICO L'errore di campionamento • L'errore di campionamento è rappresentato dalla differenza tra i risultati ottenuti dal campione e la vera caratteristica della popolazione che vogliamo stimare. • L'errore di campionamento non può mai essere determinato con esattezza, in quanto la «vera» caratteristica della popolazione è (e resterà!) ignota. • Esso tuttavia può essere contenuto entro limiti più o meno ristretti adottando appropriati metodi di campionamento. • Inoltre, esso può essere stimato; ciò significa che, con adatti metodi statistici, si possono determinare i limiti probabili della sua entità. • In sostanza, i fattori responsabili della generazione di un errore di campionamento sono riconducibili a: (1) variazione casuale (dovuta al caso, cioè a quel «insieme di fattori o cause che agiscono su un fenomeno senza che noi possiamo o controllarli esattamente e prevederne quindi l'azione) (2) selezione viziata CAMPIONE RAPPRESENTATIVO DEF. Il sottoinsieme delle unità statistiche sottoposte all’osservazione che abbia: 9una struttura rispecchiante quella della popolazione; 9una numerosità adeguata alla popolazione di origine. Come costruire un campione? Si definisce piano di campionamento un metodo attraverso il quale si selezionano gli elementi che entrano a far parte del campione. Esistono diversi metodi di campionamento la scelta è legata ai costi, alla tempestività, alla precisione e alla disponibilità di una lista degli elementi della popolazione Tecniche di campionamento • Probabilistico • Non probabilistico • Probabilistico quando ogni unità della popolazione ha la stessa probabilità nota di entrare a far parte del campione. CAMPIONI PROBABILISTICI CAMPIONE CASUALE SEMPLICE CAMPIONE A PIU’ STADI CAMPIONE STRATIFICATO CAMPIONE SISTEMATICO CAMPIONE A GRAPPOLI • Non probabilistico quando le unità non sono scelte in modo casuale ma attraverso scelte ragionate. CAMPIONI NON PROBABILISTICI CAMPIONE A SCELTA RAGIONATA CAMPIONE A SCELTA PER QUOTE Campionamento casuale semplice • • Si considerino N unità statistiche costituenti una popolazione e si assegni ad ogni unità un numero progressivo da 1 a N. Dalla lista così costruita vengono in successione estratte n unità statistiche (n<N) che vanno a costituire il campione. La selezione delle unità statistiche che costituiscono il campione casuale semplice avviene attraverso le Tavole dei Numeri Casuali. Il campionamento può essere: Senza ripetizione: quando ogni unità statistica estratta viene poi esclusa dalla lista in modo che non possa essere estratta più di una volta. In questo caso la probabilità di estrazione di un unità statistica è n/N. Con ripetizione: quando ogni unità statistica può essere estratta più di una volta. In questo caso la probabilità di estrazione di un unità statistica è 1/Nn TAVOLA DEI NUMERI ALEATORI Esempio Supponiamo di voler controllare il tempo di disaggregazione di un campione di 100 compresse da estrarre con randomizzazione semplice da un lotto di 4000 compresse. La procedura richiederà la numerazione da 1 a 4000 di tutte le compresse (per esempio con una matita), l'estrazione dei 100 numeri casuali e la selezione delle 100 compresse corrispondenti. Esempio Supponiamo di voler “costruire” un campione casuale semplice senza ripetizione di aziende ospedaliere allo scopo di valutare la degenza media di ciascun presidio. Siano N=80 le aziende ospedaliere operanti sul territorio nazionale e supponiamo si decida che un campione composto da n=10 aziende sia sufficiente per rappresentare l’intera popolazione degli ospedali italiani. Dato che stiamo trattando numeri a due cifre prendiamo le prime due colonne della tavola dei numeri aleatori selezionando i numeri ≤ 80. Le aziende da campionare saranno quelle corrispondenti ai numeri: 54, 19, 76, 70, 33, 79, 47, 49, 16, 10, 73, 53 In questo modo vengono selezionate 12 aziende, due più del numero stabilito in modo da cautelarsi nel caso in cui qualche azienda non sia analizzabile. LIMITE Ovviamente vi sono situazioni in cui il campionamento per randomizzazione semplice risulta poco pratico se non addirittura inapplicabile. Infatti, il principale svantaggio è quello di richiedere la preventiva numerazione di tutti i soggetti; successivamente è necessario individuare nella popolazione le unità statistiche corrispondenti ai numeri estratti. Campionamento sistematico Le unità campionarie vengono estratte selezionandole sistematicamente una ogni dato intervallo (k=N/n). Esempio: Campione sistematico di 2.000 soggetti ricoverati nel 2004 presso l’ospedale di Pescara (k=N/n) 31.695/2.000=15.85 Campionamento stratificato Si suddivide la popolazione in k classi (detti strati) ciascuna con elementi il più possibile omogenei tra loro e si estrae un campione casuale di opportune dimensioni da ciascuna classe. Esempio Supponiamo di voler effettuare un campionamento per randomizzazione stratificata tra i degenti di un reparto ospedaliero. La stratificazione viene effettuata sulla base di un fattore che influenza il livello del carattere da studiare Campionamento a grappoli La popolazione viene suddivisa in sottogruppi detti grappoli (clusters) composti da unità il più possibile eterogenee tra loro e successivamente viene effettuato un campionamento sui grappoli. Rispetto alla randomizzazione semplice, sistematica o stratificata, il campionamento a grappolo offre il vantaggio di facilitare notevolmente il reclutamento dei soggetti; di conseguenza si abbassano costi e tempi dell'indagine. Tuttavia, l'errore di campionamento può essere più elevato rispetto ai suddetti metodi di randomizzazione. ESEMPIO Un reparto ospedaliero è composto da 15 stanze e ospita complessivamente 60 pazienti 4 soggetti in ogni stanza. E' necessario prelevare un campione di sangue da un campione di 20 pazienti. Effettuiamo un campionamento a grappolo: l'unità di studio non è più il paziente bensì la stanza. Si procede perciò a selezionare, ad esempio per randomizzazione sistematica, 5 stanze e si effettuano i prelievi dai 4 soggetti presenti in ciascuna di esse. Campionamento per quote Tra i metodi non probabilistici è uno dei più utilizzati, ed è particolarmente adatto per ridurre la mole di lavoro connessa non solo alla fase del campionamento, ma all'intera esecuzione della rilevazione. La scelta per quote avviene attraverso l'indicazione delle proporzioni che dovranno caratterizzare il campione (in base ad alcuni parametri, come età, sesso, classe socioeconomica, ecc.), lasciando agli intervistatori la libertà di scegliere le persone da intervistare (purché vengano rispettate le quote prestabilite). ¾ ¾ ¾ Il principale vantaggio di questa tecnica è dato dal risparmio di tempo e di denaro, connesso soprattutto all'assenza di una lista ben precisa di nominativi da contattare obbligatoriamente. D'altra parte, però, è forte il rischio di ottenere un campione almeno in parte distorto, perché gli intervistatori tenderanno a scegliere le persone più facilmente raggiungibili, oppure quelle più disponibili a collaborare, quelle con le quali intuiranno di essere maggiormente in sintonia, ecc. A volte, per rendere più rigoroso questo procedimento, si ricorre all'individuazione di limiti all'interno dei quali restringere la libertà dell'intervistatore: per esempio, itinerari da percorrere, nell'ambito dei quali deve avvenire la scelta. Esempio 1. Su un campione di pazienti si rilevino le caratteristiche: sesso, età, altezza, peso, PAS, tasso glicemico. nome: Rossi Amerigo sesso: maschio età: 32 altezza: 172 cm. peso: 64 Kg. PAS: 140 mm Hg. Glicemia: 190 mg/100cc Nome: Bianchi Paolo Sesso: maschio Età: 47 Altezza: 170 cm. Peso: 80 Kg. PAS: 148 mm Hg. Glicemia: 180 mg/100cc nome: Valenzi Alberica nome: Alinori Alfonso Sesso: femmina sesso: maschio età: 45 età: 27 Altezza: 168 cm. Altezza: 183 cm. Peso: 51 Kg. Peso: 85 Kg. PAS: 125 mm Hg. PAS: 138 mm Hg. Glicemia: 150 mg/100cc Glicemia: 170 mg/100cc Le informazioni raccolte per essere "trattate" da un computer devono essere organizzate in strutture chiamate comunemente Data Base o File Dati. Le informazioni vengono, comunemente, organizzate per riga, cioè su ogni riga, consecutivamente, vengono elencati i dati relativi ad un soggetto. N. NOME SESSO ETA' ALTEZZA PESO PAS GLIC. 1 Rossi Amerigo M 32 172 64 140 190 2 Bianchi Paolo M 47 170 80 148 180 3 ValenziAlberica F 45 168 51 125 150 4 Alinori Alfonso M 27 183 85 130 170 5 6 DISTRIBUZIONI SEMPLICI DI FREQUENZE I dati (cioè le informazioni raccolte) spesso sono di non immediata lettura. Per questo si procede ad una sistematizzazione e sintesi delle informazioni raccolte, cioè alla loro tabulazione. Per ogni variabile si calcolano le frequenze assolute (f.a.) che rappresentano il numero di u.s. che presentano una stessa modalità del carattere. Esempio 2. Alcune distribuzioni semplici di frequenze. Sesso f.a. Età f.a. Altezza f.a. M 2 17 3 150-159 2 F 10 18 6 160-169 10 Tot 12 19 12 170-179 15 20 1 180-189 7 Tot 22 >190 1 Tot 35 Esempio 3. Distribuzione doppia di frequenze assolute Gruppo A Gruppo B Sesso freq. assolute freq. assolute M 12 7 F 16 10 Totale 28 17 Ci accorgiamo che il confronto non può essere effettuato solo con le f.a. in quanto esse si riferiscono a collettivi di numerosità diversa. Se vogliamo confrontare le frequenze le dobbiamo “depurare” dalla numerosità del collettivo; ciò lo si fa dividendo le f.a. per la numerosità (N) della popolazione e moltiplicando per 100 (cioè facendo riferimento ad una ipotetica popolazione di 100 unità). Le frequenze così calcolate sono le frequenze percentuali (f.%) Esempio 3’. Distribuzione doppia di frequenze percentuali Gruppo A Gruppo B Sesso f.a. f.% f.a. f.% M 12 42.9 7 41.2 F 16 57.1 10 58.8 Totale 28 100 17 100 Esempio 4. Distribuzione di frequenze assolute, relative e cumulate Età f.a. f.% f.a.cum f%cum 17 3 13.6 3 13.6 18 6 27.3 9 40.9 19 12 54.6 21 95.5 20 1 4.5 22 100 Totale 22 100 Le frequenze cumulate indicano quante u.s. si presentano fino a quella modalità. Ha senso calcolare le f.cum solamente per le variabili quantitative o qualitative ordinabili. I GRAFICI STATISTICI Scopo dei grafici è quello di rendere l’informazione contenuta in una serie di dati: 9di più facile comprensione; 9di più diretta lettura. Pertanto un grafico deve fornire al lettore una informazione sintetica e facile da interpretarsi. ORTOGRAMMI Usati per variabili qualitative l’altezza delle barre rappresenta la frequenza assoluta o percentuale. Ricorso al pronto soccorso pediatrico per tipo di incidente F r. ass. 1500 1000 500 0 Caduta Ustione Ferita Tipo di incidente Avvel. Altro ISTOGRAMMI Indicati per rappresentare distribuzioni in classi (variabili quantitative continue). Costituiti da una serie di barre rettangolari contigue ognuna in rappresentanza di una classe e con area proporzionata alla rispettiva frequenza. Valori pressori (PAS) rilevati su un campione di 50 pz. 28 30 24 25 Fr.% 20 16 14 15 10 6 8 4 5 0 100 -110 110 -120 120 -130 130 -140 140 -150 PAS (m mHg) 150 -160 160 -170 POLIGONI E CURVE DI FREQUENZA Si ottengono dai precedenti unendo i valori centrali superiori delle classi. Valori pressori (PAS) rilevati su un campione di 50 pz. 30 Fr.% 25 20 15 10 5 0 100 -110 110 -120 120 -130 130 -140 (PAS mmHg) 140 -150 150 -160 160 -170 GRAFICI PER PUNTI Costituito dai punti corrispondenti alle diverse coppie di valori rilevati. Indicati per evidenziare le associazioni tra variabili quantitative. Distribuzione della statura e del peso in un campione sperimentale di maschi 80 Peso (Kg) 75 70 65 60 55 50 160 165 170 175 180 185 Statura (cm) GRAFICI PER SPEZZATE Si ottengono dai grafici per punti congiungendo i vari punti. Indicati per evidenziare una continuità tra valori come ad es. nella rappresentazione delle serie temporali. Temperatura corporea di un ricoverato in due giornate consecutive temperatura 39 38 37 36 35 8 12 16 20 8 Ora 12 16 20 DIAGRAMMI A SETTORI CIRCOLARI (TORTE) Indicati per variabili qualitative allo scopo di evidenziare le frequenze % delle singole modalità. L’area di un cerchio viene suddivisa in settori proporzionali alle frequenze % Morti per grandi gruppi di cause in Italia (anno 1994) (Fonte: Compendio Statistico Italiano 1998 - ISTAT) Altre 14% App.Diger. 5% Tumori 28% App. Resp. 6% Dist. psich. 3% Sist. Circ. 44% Esempio: Tipo di parto per 600 neonati Tipo di parto Normale Forcipe Cesareo Totale n. di nascite 478 65 57 600 Frequenza assoluta Freq.relativa 478/600=0,797 65/600=0,108 57/600=0,095 100,0 Frequenza relativa Normale 9,5 Forcipe 10,8 Cesareo 79,7