Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 1 a.a 2011-2012 Dott.ssa Daniela Ferrante [email protected] Programma del corso - Comprensione dei termini di base (popolazione, campione, variabile ecc) calcolo e presentazione di distribuzioni di frequenza descrizione di dati con metodi grafici calcolo degli indici di tendenza centrale e variabilità analisi della relazione tra due variabili Introduzione all’inferenza statistica - Comprensione dei fondamenti della valutazione di probabilità di un evento - Distribuzione di probabilità binomiale - Distribuzione di probabilità gaussiana - Proprietà della distribuzione della media campionaria - Intervallo di confidenza - Test di ipotesi Testi • Fowler ed al. Statistica per le professioni sanitarie. Edises • Altri testi per approfondimenti: • M.Pagano & K.Gauvreau. Biostatistica (II edizione italiana). ed. Idelson Gnocchi, Napoli 2003 • Wayne W. Daniel. Biostatistica, Edises, Napoli • Jekel JF, Katz DL, Elmore JG, Wild DMG. Epidemiologia, Biostatistica e Medicina Preventiva (III Edizione), Elsevier Statistica • Insieme delle metodologie per lo studio dei fenomeni singolarmente o congiuntamente considerati con attitudine a variare • La popolazione P è l’insieme delle unità (individui, enti etc) alle quali fare riferimento per avere informazioni sul fenomeno in questione • L’unità statistica è un singolo elemento della popolazione Fasi di un’indagine statistica • Individuata la popolazione e le unità statistiche: - Identificazione delle caratteristiche rilevanti per l’indagine - Rilevazione dei casi statistici (intervista, indagine postale, censimento etc) - Spoglio o classificazione dei casi rilevati - Formazione di tabelle statistiche - Elaborazione dei dati statistici Fasi di un’indagine statistica Rilevazione TOTALE PARZIALE Descrivo la popolazione Considero un campione della popolazione ossia una sottocollezione di membri selezionati dalla popolazione statistica inferenziale statistica descrittiva Variabile Carattere osservato su ogni unità statistica CATEGORICA NUMERICA DISCRETA CONTINUA NOMINALE ORDINALE Deriva da operazioni di conteggio Prodotta da operazioni di misura Solo classificazione Classificazione con ordinamento Es. altezza, peso Es. sesso, razza Es. n.giorni di ricovero Senza ordinamento Es. giudizi (suff, buono, ottimo) Distribuzioni di frequenza - Indichiamo come frequenza assoluta (fi) il numero di osservazioni con la caratteristica in esame. - La frequenza cumulativa (Fi) è la somma della frequenza delle osservazioni con valore della variabile inferiore od uguale al valore considerato. - La proporzione (pi) o frequenza relativa si esprime come relazione quantitativa tra una parte ed il tutto. La si calcola con una frazione in cui il numeratore è compreso nel denominatore: p = parte / totale 0 <= p <= 1 - Percentuale o frequenza relativa percentuale (%): indica una proporzione od una variazione riferiti ad una base di 100. Percentuale = % = Proporzione * 100 Esempio Temperature Numero di giorni massime in nel mese di aprile aprile di Freq assoluta (fi ) Milano (°C) Freq assoluta cumulata (Fi ) Proporzione (pi) Percentuale (%) 17 5 5+0=5 5/31=0,16 16% 20 10 5+10=15 10/31=0,32 32% 21 10 15+10=25 10/31=0,32 32% 23 5 25+5=30 5/31=0,16 16% 25 1 30+1=31 1/31=0,03 3% totale 31 1 100% Esercizio 1 Numero di componenti di una famiglia Numero di famiglie (fi) 1 10 2 20 3 10 4 10 5 5 totale 55 Fi pi Pi p i% Pi% Esercizio 1 - soluzione Numero di componenti di una famiglia Numero di famiglie Fi pi Pi p i% Pi% 1 10 10 0,18 0,18 18 18 2 20 30 0,36 0,54 36 54 3 10 40 0,18 0,72 18 72 4 10 50 0,18 0,9 18 90 5 5 55 0,09 1 9 100 totale 55 1 100 Suddivisione in intervalli di una variabile numerica • Distribuzione di frequenza della pressione sistolica in un gruppo di 40 uomini in classi di ampiezza 10 a partire da 100 mmHg. Pressione sistolica Frequenza 100<=x<110 5 110<=x<120 17 120<=x<130 12 130<=x<140 5 140<=x<150 1 totale 40 Esercizio 2 - DATI ID SESSO ETA’ ALTEZZA (cm) FUMO 1 2 M 18 160 SI F 20 150 NO 3 4 5 6 7 8 9 10 M 24 155 NO F 30 162 SI F 18 154 SI M 25 170 SI M 19 155 NO F 27 165 NO M 24 172 SI M 20 150 NO Esercizio 2 • Costruire la distribuzione di frequenza assoluta, la proporzione e la percentuale delle variabili sesso e fumo. • Costruire la distribuzione di frequenza assoluta, frequenza assoluta cumulata, percentuale e percentuale cumulata della variabile altezza in classi di ampiezza 5 a partire da 150cm. • Costruire la distribuzione di frequenza assoluta della variabile età in classi di ampiezza 5 a partire da 15 anni. Esercizio 2 - soluzione SESSO fi pi p i% M 6 0,6 60 F 4 0,4 40 totale 10 1 100 FUMO fi pi p i% SI 5 0,5 50 NO 5 0,5 50 totale 10 1 100 Esercizio 2 - soluzione Altezza Frequenza Fi pi p i% Pi% 150<=x<155 3 3 0.3 30 30 155<=x<160 2 5 0.2 20 50 160<=x<165 2 7 0.2 20 70 165<=x<170 1 8 0.1 10 80 170<=x<175 2 10 0.2 20 100 totale 10 1 100 Esercizio 2 - soluzione Età Frequenza Fi pi p i% 15<=x<20 3 3 0.3 30 20<=x<25 4 7 0.4 40 25<=x<30 2 9 0.2 20 30<=x<35 1 10 0.1 10 totale 10 1 100 Distribuzione di frequenza di 2 variabili Procedimento: 1. definire i possibili valori di ciascuna delle due variabili 2. costruire una tabella con le due variabili a definire le righe e le colonne 3. contare le osservazioni per ciascuna combinazione di valori 4. calcolare i totali di riga, colonna e della tabella Esempio Risultato Farmaco Guarito Non guarito Totale A a b a+b B c d c+d TOTALE a+c b+d a+b+c+d Esercizio 3 • E’ stato condotto uno studio su 531 soggetti che hanno subito un trauma da incidente di bicicletta (traumi facciali, altri traumi) e hanno indossato o meno il casco 30 soggetti con casco hanno subito traumi facciali 113 soggetti indossano il casco 212 soggetti hanno subito traumi facciali 1. Costruire una tabella a doppia entrata calcolando i totali di riga e i totali di colonna 2. Calcolare la proporzione di soggetti con casco sul totale dei soggetti 3. Calcolare la percentuale di soggetti con traumi facciali e casco sul totale di soggetti con casco Esercizio 3 Con casco Traumi facciali Altri traumi TOTALE Senza casco Totale Esercizio 3 Con casco Senza casco Totale Traumi facciali 30 182 212 Altri traumi 83 236 319 TOTALE 113 418 531 Esercizio 3 2. Proporzione di soggetti con casco sul totale dei soggetti p = 113/531 = 0,21 3. Percentuale di soggetti con traumi facciali con casco sul totale di soggetti con casco p% = (30/113)*100 = 26% Rappresentazione grafica dei dati • Per rappresentare graficamente la distribuzione di frequenza di una variabile categorica si utilizza il diagramma a barre. • In questo tipo di grafico i rettangoli sono proporzionali alla frequenza (assoluta o relativa) osservata e si distanziano gli uni dagli altri. ESERCIZIO 2 – Diagramma a barre della variabile sesso 7 Frequency 6 5 4 3 2 1 0 M F Esempio ESERCIZIO 2 – Distribuzione percentuale delle variabili trauma e uso di casco 50 44,4 40 34,3 % 30 C 10 S 15,6 20 5,6 0 T A Traum i Diagramma a torta, distribuzione di frequenza relativa percentuale • Nei diagrammi a torta la frequenza relativa percentuale è proporzionale all'angolo al centro. ESERCIZIO 2 – Diagramma a torta della variabile fumo NO 50% SI 50% Angolo al centro = 360° x proporzione Istogramma Rappresentazione grafica di distribuzioni di frequenza di variabili numeriche. Vengono disegnati su un grafico dei rettangoli contigui, uno per ciascun valore o intervallo (classe) di valori della variabile. L’area dei rettangoli è proporzionale alla frequenza di osservazioni, è opportuno che gli intervalli siano della stessa ampiezza e quindi che i rettangoli corrispondenti abbiano tutti base uguale: semplifica sia la preparazione sia la lettura. Esempio ESERCIZIO 2 – Istogramma della variabile altezza 4 Frequency 3 2 1 0 [150,155) [155,160) [160,165) X [165,170) [170,175] Esercizio 4 • Costruire l’istogramma della variabile età dell’esercizio 2 (utilizzando le frequenze assolute) • Costruire il diagramma a torta della variabile sesso dell’esercizio 2 Esercizio 4 - soluzione ESERCIZIO 2 – Istogramma della variabile età 5 Frequency 4 3 2 1 0 [15,20) [20,25) [25,30) X [30,35] Esercizio 4 - soluzione ESERCIZIO 2 – Grafico a torta della variabile sesso F 40% M 60%