Nozioni di base STATISTICA NOZIONI DI BASE Italo Nofroni Statistica medica - Sapienza - Roma Nozioni di base Durante la raccolta dei dati, scelto il metodo di rilevazione, vengono individuate le unità statistiche che saranno prese in considerazione per portare a termine l’indagine Nozioni di base Si definisce statistica la scienza cha ha per oggetto la raccolta, l’analisi e l’interpretazione dei dati (intensità e/o frequenze) riguardanti un determinato fenomeno in un collettivo prefissato Nozioni di base Unità statistica: è l’unità elementare in grado di fornire dati e informazioni relativamente ai caratteri presi in esame L’insieme delle unità statistiche costituisce il collettivo (popolazione o campione) oggetto di studio Nozioni di base Scelta del fenomeno oggetto di studio Caratteri aspetti del fenomeno oggetto di studio Individuazione dei caratteri Modalità (xi) modo di manifestarsi del carattere Definizione delle modalità 1 Nozioni di base Nozioni di base Classificazione dei caratteri qualitativi Classificazione dei caratteri Qualitativi (mutabili): con modalità individuate tramite nomi o qualità Ordinabili (o rettilinei): quando esiste un ordine prestabilito di presentazione Quantitativi (variabili): con modalità che esprimono delle quantità e sono quindi identificate da numeri Sconnessi: quando non esiste un ordine prestabilito di presentazione Nozioni di base Nozioni di base Classificazione dei caratteri quantitativi Continui: con modalità numeriche che prevedono l’uso di decimali. Abitualmente tali valori vengono arrotondati o raggruppati in classi Discreti: con modalità espresse esclusivamente da numeri interi Nozioni di base Le scale di misura Il tipo di scala di misura adottata dipende strettamente dal tipo di carattere (variabile o mutabile) preso in considerazione, ma anche dalle finalità dell’indagine, nonché dalla disponibilità di dati Nozioni di base Le scale di misura Le scale di misura Scala nominale Scala categorica Utilizzabile per mutabili sconnesse Utilizzabile per mutabili ordinate Operazioni consentite: Operazioni consentite: = ≠ = > < ≠ 2 Nozioni di base Nozioni di base Le scale di misura Le scale di misura Scala quantitativa ordinale Scala ad intervalli (rapporti o cardinale) Utilizzabile per variabili discrete identificative di una posizione (rango) Per variabili per le quali esiste una unità di misura comune, quindi una distanza oggettiva tra le varie modalità Operazioni consentite: = > < ≠ Nozioni di base Operazioni consentite: tutte Nozioni di base Le scale di misura Le scale di misura Scala dicotomica Altre scale Variabili espresse come presenza (1) assenza (0) del carattere (booleane, dummy, binarie…) Adottate in genere nei questionari (Likert…) Operazioni consentite: = ≠ Nozioni di base Le distribuzioni statistiche Operazioni consentite: dipende… Nozioni di base Le distribuzioni statistiche In ogni collettivo ogni modalità può presentarsi più volte L’insieme delle modalità e delle frequenze costituisce la distribuzione statistica Il numero delle volte che una modalità si presenta prende il nome di frequenza assoluta (ni) (o semplicemente frequenza) Nel caso di un carattere qualitativo (mutabile) la distribuzione si chiamerà serie Nel caso di un carattere quantitativo (variabile) la distribuzione viene detta seriazione 3 Tabulazione dei dati Nozioni di base I dati raccolti abitualmente vengono riportati in apposite tabelle Le distribuzioni statistiche Si distinguono Le distribuzioni con frequenze unitarie sono dette distribuzioni semplici Tabelle semplici (singole): relative ad un unico carattere Le distribuzioni con frequenze non unitarie sono dette distribuzioni di frequenza Tabelle doppie (a doppia entrata): relative a 2 caratteri “incrociati” Tabelle multiple: relative a 3 o più caratteri Tabulazione dei dati Esempio 1: tabella semplice, serie Tabulazione dei dati ni Stato civile Celibe/nubile 34 Coniugato/a 51 Divorziato/a 12 Vedovo/a 18 Totale 115 Tabulazione dei dati Esempio 3: tabella semplice, seriazione, distribuzione di frequenza Esempio 2: tabella semplice, seriazione, distribuzione semplice (le frequenze unitarie non vengono riportate) Voti in latino in un semestre 2 4 5 7 Tabulazione dei dati Numero di figli 0 1 2 3 4 5 Totale ni 22 89 56 11 8 4 190 Esempio 4: tabella doppia, due serie Tipo di farmaco Esito Totale Aspirina Placebo Positivo 33 14 47 Negativo 17 41 58 Totale 50 55 105 4 Tabulazione dei dati Tabulazione dei dati Esempio 4: tabella doppia, due serie Esempio 4: tabella doppia, due serie Tipo di farmaco Esito Tipo di farmaco Totale Aspirina Placebo Positivo 33 14 47 Negativo 17 41 Totale 50 55 Esito Totale Aspirina Placebo Positivo 33 14 47 58 Negativo 17 41 58 105 Totale 50 55 105 Caratteri “incrociati” Modalità Tabulazione dei dati Tabulazione dei dati Esempio 4: tabella doppia, due serie Esempio 4: tabella doppia, due serie Tipo di farmaco Esito Tipo di farmaco Totale Aspirina Placebo Positivo 33 14 47 Negativo 17 41 Totale 50 55 Esito Totale Aspirina Placebo Positivo 33 14 47 58 Negativo 17 41 58 105 Totale 50 55 105 Celle contenenti le frequenze osservate Totali marginali di riga e di colonna Tabulazione dei dati Tabulazione dei dati Esempio 4: tabella doppia, due serie Esempio 5: Tipo di farmaco Esito Totale tabella doppia, serie (sesso) e seriazione (età), distribuzione di frequenza Sesso Età (in anni compliuti) Maschi Femmine 18 22 26 48 19 45 48 93 Totale Aspirina Placebo Positivo 33 14 47 Negativo 17 41 58 20 18 20 38 Totale 50 55 105 21 6 11 17 Totale 91 105 196 Totale generale 5 Tabulazione dei dati Tabulazione dei dati Esempio 6: Carattere Frequenza ni x1 n1 x2 n2 x3 n3 … … xi ni … … xK nk Totale N tabella doppia, due seriazioni, in classi Numero Tabulazione dei dati Classi di età di sigarette fumate 12 - 13 14 - 15 16 - 17 nessuna 90.0 81.2 76.4 1 - 5 5.1 10.8 12.8 6 - 10 4.9 6.7 8.8 oltre 10 0 1.3 2.0 Totale 100 100 100 Distribuzione di frequenza (carattere quantitativo) Valori percentuali Tabulazione dei dati Tabulazione dei dati Carattere Frequenza ni niR Frequenze relative Tabulazione dei dati Carattere Frequenza ni niR %i x1 n1 n 1 /N n 1 .100/N x2 n2 n 2 /N n 2 .100/N x3 n3 n 3 /N n 3 .100/N … … … … x1 n1 n 1 /N x2 n2 n 2 /N x3 n3 n 3 /N … … … xi ni n i /N xi ni n i /N n i .100/N … … … … … … … xK nk n k /N xK nk n k /N n k .100/N Totale N 1 Totale N 1 100 Frequenze cumulate Carattere Frequenza ni niR %i Ni x1 n1 n 1 /N n 1 .100/N N1 x2 n2 n 2 /N n 2 .100/N N2 x3 n3 n 3 /N n 3 .100/N N3 … … … … … xi ni n i /N n i .100/N Ni … … … … … xK nk n k /N n k .100/N N Totale N 1 100 Frequenze percentuali Sintesi statistica Un insieme di dati numerici è compiutamente descritto e sintetizzato da tre informazioni principali • La tendenza centrale o posizione centrale • La variabilità o dispersione • La forma della sua distribuzione 6 Sintesi statistica La tendenza centrale Sintesi statistica Variabilità o dispersione • Viene espressa tramite il calcolo delle medie Tramite opportuni indici viene espressa la diversità che sussiste • Le medie sono molteplici, ma ciascuna di esse è adatta a particolari situazioni o esprime un diverso modo di sintetizzare i dati statistici fra i singoli valori Sintesi statistica Sintesi statistica fra i singoli valori ed il valore centrale di riferimento (media) Forma della distribuzione Forma della distribuzione Per descriverla vengono utilizzati due indici che esprimono In genere è fondamentale stabilire, sulla base dei valori ottenuti dai suddetti indici, se la distribuzione sia simile o meno alla distribuzione normale La simmetria La curtosi Sintesi statistica Sintesi statistica Forma della distribuzione Forma della distribuzione La maggior parte delle variabili biologiche (peso, statura, glicemia, pressione sistolica…) hanno una distribuzione normale, in cui media, mediana e moda coincidono Alcune variabili (tempi di reazione, durata di sopravvivenza, numero di linfonodi metastatici, reddito…) hanno una distribuzione asimmetrica, quindi non normale, in cui media, mediana e moda non coincidono 7 Sintesi statistica Le misure descrittive sintetiche, riassuntive dei dati tabellari, sono chiamate • statistiche, quando sono calcolate su un campione di dati (si esprimono con lettere dell’alfabeto latino) • parametri, quando descrivono la popolazione od universo dei dati (si esprimono con lettere dell’alfabeto greco) 8