Corso di Statistica Medica Introduzione alla Statistica Descrittiva e Inferenziale Lezione 1 Dr. Roberto D’Amico Università degli Studi di Modena e Reggio Emilia Anno Accademico 2011-2012 [email protected] Argomenti della lezione Il ruolo della statistica Le variabili statistiche Come rappresentarle graficamente e come analizzarle Misure di tendenza centrale Misure di dispersione Perché la statistica è utile? • Per descrivere e riassumere i fenomeni osservati (statistica descrittiva) Esempio 1: Sequenza di ricoveri registrati per sesso (variabile binaria, può assumere solo due valori: maschio o femmina) 1. Maschio 1. Femmina 1. Maschio 1. Femmina 1. Maschio 1. Femmina 1. Maschio 1. Femmina 1. Femmina 1. Maschio 1. Maschio 1. Maschio 1. Maschio 1. Femmina 1. Femmina 1. Maschio 1. Maschio 1. Maschio Per riassumere Maschi 11 7 18 Femmine Totale Descrizione e sintesi delle informazioni Proporzione di maschi Pr(maschi) = 11/18 =0.61 Percentuale di maschi Perc(maschi) = (11/18)x100 =61% Proporzione di femmine Pr(femmine) = 7/18 = 0.39 Percentuale di femmine Perc(femmine) = (7/18)x100 = 39% Rappresentazione grafica Grafico a torte Istogramma Descrizione e sintesi delle informazioni Descrizione e sintesi delle informazioni Esempio 2: Pressione arteriosa (variabile continua) dei pazienti ricoverati 1. 155 1. 200 1. 145 1. 155 1. 190 1. 145 1. 160 1. 185 1. 150 1. 160 1. 180 1. 140 1. 165 1. 175 1. 135 1. 170 1. 170 1. 130 La media si ottiene facendo la somma dei valori osservati e dividendo il valore ottenuto per il numero totale di osservazioni Rappresentazione grafica Descrizione e sintesi delle informazioni Classi Frequenza Proporzione 130 |- 140 140 |- 150 150 |- 160 160 |- 170 170 |- 180 180 |- 190 190 |- 200 200 |- 210 2 3 3 3 3 2 1 1 2/18 = 0.11 3/18 = 0.17 3/18 = 0.17 3/18 = 0.17 3/18 = 0.17 2/18 = 0.11 1/18 = 0.05 1/18 = 0.05 Istogramma Descrizione e sintesi delle informazioni Esempio 3: Livello di istruzione (variabile qualitativa ordinabile) dei pazienti ricoverati 1. Elementare 1 1. Media 2 1. Superiore 3 1. Media 2 1. Media 2 1. Superiore 3 1. Media 2 1. Laurea 4 1. Superiore 3 1. Elementare 1 1. Superiore 3 1. Media 2 1. Superiore 3 1. Superiore 3 1. Laurea 4 1. Media 2 1. Media 2 1. Elementare 1 Istruzione Frequenza Proporzione Percentuale 1. Elementare 3 3/18= 0.17 17% 2. Media 7 7/18= 0.44 44% 3. Superiore 6 6/18= 0.28 28% 4. Laurea 2 2/18= 0.11 11% Ordine: 1. Elementare 2. Media 3. Superiore 4. Laurea Descrizione e sintesi delle informazioni Mediana La mediana di un gruppo di osservazioni è il valore/i che si riferisce all’osservazione che nell’ordinamento stabilito occupa il posto di mezzo Calcolo della mediana 1. Ordinare i dati in senso crescente o decrescente 1° 2° 3° 4° 5° 6° 7° 8° 9° 10° 11° 12° 13° 14° 15° 16° 17° 18° 111222222233333344 1. Se il numero di dati (n) è pari (nostro caso n=18), la mediana è rappresentata da due valori. Il valore che cade all’ n/2-esimo posto e quello che cade all’(n/2)+1-esimo posto. Se i due valori coincidono allora possiamo considerarne uno solo. Altrimenti avremo due valori mediani. 1. Se il numero di dati (n) è dispari, allora la mediana è il valore che cade al (n+1)/2-esimo posto Nell’esempio la mediana è data da 2 Descrizione e sintesi delle informazioni Esempio 3: Regione di provenienza dei pazienti (variabile qualitativa) 1. Emilia 1. Basilicata 1. Calabria 1. Emilia 1. Puglia 1. Puglia 1. Lazio 1. Lazio 1. Campania 1. Abruzzo 1. Puglia 1. Puglia 1. Calabria 1. Puglia 1. Lazio 1. Abruzzo 1. Campania 1. Calabria Regione Frequenza Proporzione La moda è il valore della variabile più frequente Emilia 2 2/18=0.11 Lazio 3 3/18=0.17 Abruzzo 2 2/18=0.11 Basilicata 1 1/18=0.06 Puglia 5 5/18=0.28 Campania 2 2/18=0.11 Calabria 3 3/18=0.17 Nel nostro caso la Puglia è il valore modale della distribuzione dei pazienti per regione di provenienza Rappresentazione grafica Grafico a torte Istogramma Descrizione e sintesi delle informazioni Abbiamo introdotto i concetti di variabile:Descrizione e sintesi delle informazioni • Dicotomica Ad esempio: sesso, sopravvivenza, fumatore… etc Sintesi: frequenze o proporzioni, percentuali Grafici: Istogrammi e torte • Quantitativa Ad esempio: pressione, età, peso Sintesi: media, mediana Grafici: Istogrammi per classi • Qualitativa ordinabile Ad esempio: istruzione, stadiazione Sintesi: mediana, moda Grafici: Istogrammi, torte • Qualitativa non Adordinabile esempio: regione di appartenenza, colore degli occhi Sintesi: moda Grafici: Istogrammi, torte Descrizione e sintesi delle informazioni Per le variabili continue… la media non ci dice tutto… Ospedale 1: Livelli pressori di 11 pazienti 110, 130, 150, 150, 170, 170, 170, 190, 190, 210, 230 Media (pressioni)=170 Ospedale 2: Livelli pressori di 11 pazienti 150, 160, 160, 170, 170, 170, 170, 170, 180, 180, 190 Media (pressioni) =170 Descrizione e sintesi delle informazioni I livelli pressori dei pazienti dell’ospedale 2 sono più vicini alla media (170) rispetto quelli dell’ospedale 1 Logica del calcolo della deviazione standard 190 Ospedale 2 180 170 160 150 1. Calcolo della distanza di ogni punto e la media 2. Media delle distanze 3. Radice quadrata Descrizione e sintesi delle informazioni Descrizione e sintesi delle informazioni La deviazione standard Varianza Media= 170, DS = 10.4 Media= 170, DS = 31.6 Descrizione e sintesi delle informazioni IL RANGE Il range di una distribuzione di valori è rappresentano dal valore minimo e massimo della distribuzione Esempio: Ospedale 1, livelli pressori 120, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220 Range: (120, 220) Ospedale 2, livelli pressori 150, 160, 160, 170, 170, 170, 170, 170, 180, 180, 190 Range: (150, 190) Percentili L’x-esimo percentile di un gruppo di osservazioni (che sono state ordinate) è il valore sotto il quale cade l’x percento delle osservazioni. Calcolo del percentile associato al voto 24 …la statistica è inoltre utile perché… …ci consente di fare inferenza. Ovvero ci aiuta a conoscere le caratteristiche di una popolazione generale a partire da un campione estratto da essa. Questo tipo di statistica prende il nome di statistica inferenziale La popolazione, il campione e l’inferenza Lo scopo della statistica inferenziale è di ottenere, attraverso lo studio di un campione, conoscenze sulla popolazione oggetto di studio da cui il campione è stato estratto Estrazione di un campione rappresentativo Popolazion e Campione Processo inferenziale Esempi di popolazioni: popolazione di pazienti ipertesi, la popolazione di pazienti con cirrosi biliare primaria, … etc.