Università del Piemonte Orientale Corsi di Laurea Triennale di Area Tecnica Corso di Statistica e Biometria Statistica descrittiva Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 1 Statistica Funzioni Descrittiva Induttiva (inferenziale) Statistica descrittiva : • sintesi delle informazioni in pochi valori • descrizione della variabilità dei dati • presentazione grafica. Statistica induttiva : formulazione di previsioni (leggi generali) sulle caratteristiche della popolazione (universo dei dati) partendo da un campione. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 2 La statistica opera su dati che definiamo ‘variabili’. I dati di interesse vengono raccolti (misurati) per tutti i soggetti inclusi nella popolazione o nel campione. Il termine ‘variabile’ sottolinea che il valore cambia da un soggetto all’altro. I dati che non possono cambiare di valore sono denominati ‘costanti’. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 3 Alcune definizioni di ‘variabile’: •“una caratteristica che varia da un’entità biologica ad un’altra” (J.H.Zar) •“qualunque genere di misura di cui si eseguano rilievi individuali è detta variabile” (P.Armitage) Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 4 Il valore delle variabili è conosciuto attraverso un processo di misurazione a livello di ciascun individuo (unità statistica). Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 5 Livello di misurazione (categorie di variabili) Categoriche Nominale Solo classificazione, senza ordinamento Es. sesso, specie, area geografica, scuola Ordinale Classificazione con ordinamento, ma con distanza tra i valori ignota Es. Punteggio scolastico, valutazioni cliniche Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 6 Numeriche Variabili numeriche continue: possono assumere tutti i valori in un intervallo, di regola sono prodotte da operazioni di misura Es. altezza, peso, valori di laboratorio. Variabili numeriche discrete: quando solo alcuni valori sono possibili, ad esempio i valori corrispondenti ai numeri reali interi; di regola sono prodotte da operazioni di conteggio. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 7 Numeriche Le Variabili numeriche consentono di effettuare calcoli matematici: Guadagno di peso nella prima settimana= Peso a 7 gg – Peso alla nascita Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 8 Categoriche Le variabili categoriche NON consentono di effettuare calcoli matematici. Anche se sono stati usati numeri per indicare i valori della variabile, sono soltanto delle etichette. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 9 Tipo di variabile Categorica Numerica Nominale Ordinale Frequenza SI SI SI Frequenza cumulativa NO SI SI Diagrammi a barre SI SI SI Media NO NO SI Mediana NO NO SI Istogrammi NO NO SI Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 10 Distribuzione di frequenza Frequenza assoluta: il numero di osservazioni con la caratteristica in esame (ad es. con un dato valore della variabile in studio). Frequenza relativa o proporzione: si esprime come relazione quantitativa tra una parte ed il tutto. La si calcola con una frazione in cui il numeratore è compreso nel denominatore: proporzione = parte / totale Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 11 Percentuale o frequenza relativa percentuale: indica una proporzione od una variazione riferiti ad una base di 100. Percentuale = % = Proporzione * 100 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 12 Distribuzione di frequenza: il valore della frequenza (assoluta o relativa) per ciascuno dei possibili valori della variabile Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 13 Distribuzione di frequenza dell’ immunofenotipo dei casi di leucemia linfoblastica acuta infantile in Piemonte (1979-98). Variabile nominale Immunofenotipo Totale Non specificato T B B precursor N % 35 54 12 397 7,0 10,8 2,4 79,7 498 100 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 14 Risultato scolastico Frequenza Insufficiente 4 Sufficiente 8 Buono 7 Distinto 4 Ottimo 5 Totale 28 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 15 Distribuzione di frequenza: procedure Variabili categoriche: 1. elencare i possibili valori della variabile 2. contare quante osservazioni per ciascun valore (frequenza assoluta) 3. calcolare le corrispondenti proporzioni / percentuali (frequenza relativa) Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 16 Risultato scolastico Insufficiente Sufficiente Buono Distinto Ottimo Totale Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 17 Risultato scolastico Frequenza Insufficiente 4 Sufficiente 8 Buono 7 Distinto 4 Ottimo 5 Totale 28 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 18 Risultato Frequenza scolastico Proporzione (frequenza relativa) Insufficiente 4 0,14 Sufficiente 8 0,28 Buono 7 0,25 Distinto 4 0,14 Ottimo 5 0,19 Totale 28 1,0 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 19 Riepilogo: Come si calcola una proporzione? p = f / totale Dove: p = proporzione f = frequenza assoluta nella classe o categoria totale = numero totale di soggetti Percentuale = proporzione * 100 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 20 Per rappresentare graficamente la distribuzione di frequenza di una variabile categorica si utilizza il diagramma a barre. In questo tipo di grafico le altezze delle barre sono proporzionali alla frequenza (assoluta o relativa) osservata. La base è sempre uguale, e può anche ridursi ad una linea. Le barre sono separate e sono equidistanziate. Se la variabile è ordinale, le barre sono ordinate secondo il valore della variabile. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 21 esempio di diagramma a barre con variabile ordinale (totale= 28 osservazioni) numero di bambini (frequenza) 9 8 7 6 5 4 3 2 1 0 Insufficiente Sufficiente Buono Distinto Ottimo risultato scolastico Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 22 esempio di diagramma a barre con variabile ordinale (totale= 28 osservazioni) numero di bambini (frequenza) 9 8 7 6 5 4 3 2 1 0 Insufficiente Sufficiente Buono Distinto Ottimo risultato scolastico Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 23 esempio di diagramma a barre con variabile ordinale e distribuzione di frequenza relativa (proporzione) 0.36 0.28 proporzione 0.21 0.14 0.07 0.00 Insufficiente Sufficiente Buono Distinto Ottimo risultato scolastico Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 24 Diagramma a torta, distribuzione di frequenza relativa percentuale. Nei diagrammi a torta la frequenza relativa percentuale è proporzionale all'angolo al centro. A ttività operatoria 2% 4% 4% 26% 4% Colelitiasi 6% Ernia inguinale Tumore del colon Ulcera duodenale Tumore del pancreas 8% Tumore del retto Ulcera gastrica Tumore dello stomaco Tumore dell’esof ago 8% Stenosi esof agea 19% 19% Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 25 Angolo al centro = 360° x proporzione Diagnosi di dimissione N % Colelitiasi 12 25 360*0,25=98 Ernia inguinale 9 19 360*0,19=68 Tumore del colon 9 19 68 Ulcera duodenale 4 8 29 Tumore del pancreas 4 8 29 Tumore del retto 3 6 22 Ulcera gastrica 2 4 14 Tumore dello stomaco 2 4 14 Tumore dell’esofago 2 4 14 Stenosi esofagea 1 2 7 Angolo Totale 48 100 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 26 Distribuzione di frequenza cumulativa La frequenza cumulativa è somma della frequenza delle osservazioni con valore della variabile inferiore od uguale al valore considerato. Si calcola dopo aver ordinato la variabile. Può essere calcolata per variabili ordinali variabili numeriche Calcolata la frequenza cumulativa si può calcolare la corrispondente proporzione o percentuale cumulativa. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 27 Risultato scolastico Insufficiente Frequenza Sufficiente 8 Buono 7 Distinto 4 Ottimo 5 Totale 28 4 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 28 Risultato scolastico Insufficiente Frequenza Frequenza cumulativa 4 =4+0=4 Sufficiente 8 =4+8=12 Buono 7 =4+8+7=19 Distinto 4 23 Ottimo 5 28 Totale 28 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 29 Risultato scolastico Insufficiente Frequenza Frequenza Frequenza relativa cumulativa cumulativa (in%) 4 4 14% Sufficiente 8 12 43% Buono 7 19 68% Distinto 4 23 82% Ottimo 5 28 100% Totale 28 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 30 100% Risultato scolastico 90% Frequenza relativa (percentuale) 80% 70% 60% 50% 40% 30% 20% 10% 0% Insufficiente Sufficiente Buono Distinto Ottimo Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 31 www.man.deakin.edu.au/rodneyc/xlstats.htm Un utile strumento: Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 32 Esempi sull’uso di XLSTATS Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 33 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 34 Distribuzione di frequenza di dati (variabili) numerici Se le variabili sono numeriche (continue o discrete con molti valori) occorre dapprima definire gli intervalli dei valori della variabile (classi di valori) 1. gli intervalli debbono essere definiti in modo che tutte le possibili osservazioni cadano in uno ed uno solo di essi. 2. è conveniente che gli intervalli siano di uguale ampiezza Esempio: ETA (variabile indicata con il simbolo x ) ƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 00<= x <10 10<= x <20 20<= x <30 30<= x <40 40<= x <50 50<= x <60 60<= x <70 70<= x <80 80<= x <90 90<= x <100 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 35 1. calcolare le corrispondenti distribuzioni di frequenza e proporzioni semplici e cumulative Cumulative Cumulative ETA Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 00<= x <10 0 0.0 0 0.0 10<= x <20 0 0.0 0 0.0 20<= x <30 0 0.0 0 0.0 30<= x <40 2 0.5 2 0.5 40<= x <50 38 8.8 40 9.3 50<= x <60 70 16.3 110 25.6 60<= x <70 212 49.3 322 74.9 70<= x <80 104 24.2 426 99.1 80<= x <90 2 0.5 428 99.5 90<= x <100 2 0.5 430 100.0 TOTALE 430 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 36 I simboli che si utilizzano per definire un intervallo sono: = es x=1 >= x>=1 Æ include i soggetti con variabile X di valore 1 (incluso) o superiore ad 1 > x>1 Æ include solo i soggetti con variabile X di valore superiore ad 1 < x>1 Æ include solo i soggetti con variabile X di valore inferiore ad 1 <= x<=1 Æ include i soggetti con variabile X di valore 1 (incluso) o inferiore ad 1 Æ include solo i soggetti con variabile X di valore 1 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 37 Istogrammi : rappresentazione grafica di distribuzioni di frequenza di variabili numeriche. Vengono disegnati su un grafico dei rettangoli contigui, uno per ciascun valore o intervallo (classe) di valori della variabile. L’area dei rettangoli è proporzionale alla frequenza di osservazioni, è opportuno che gli intervalli siano della stessa ampiezza e quindi che i rettangoli corrispondenti abbiano tutti base uguale: semplifica sia la preparazione sia la lettura. Come disporre i valori Ascisse (asse X): valori della variabile Ordinate (asse Y): Frequenza (assoluta o percentuale, semplice o cumulativa, a scelta). Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 38 Un esempio di istogramma con valori della variabile suddivisi in classi 100,0% 90,0% 80,0% Frequenza relativa % 70,0% % 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% 10 0 90 <= et a< 90 80 <= et a< 80 70 <= et a< 70 60 <= et a< 60 50 <= et a< 50 40 <= et a< 40 30 <= et a< 30 20 <= et a< 20 10 <= et a< 00 <= et a< 10 0,0% classe di età Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 39 Un esempio di istogramma con variabile discreta Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 40 Distribuzione cumulata con variabile discreta Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 41 Un esempio di istogramma con variabile continua Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 42 Distribuzione della percentuale cumulata con variabile continua Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 43 Poligono di frequenza Si ottiene unendo con una linea i punti mediani della parte superiore dei rettangoli dell'istogramma Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 44 100.0% 90.0% 80.0% Frequenza relativa % 70.0% % 60.0% 50.0% 40.0% 30.0% 20.0% 10.0% 90 <= et a< 10 0 80 <= et a< 90 70 <= et a< 80 60 <= et a< 70 50 <= et a< 60 40 <= et a< 50 30 <= et a< 40 20 <= et a< 30 10 <= et a< 20 00 <= et a< 10 0.0% classe di età Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 45 60 50 casi popolazione 40 30 20 10 0 35 40 45 50 55 60 65 70 75 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 46 100 90 80 casi 70 pop. 60 50 40 30 20 10 0 35 40 45 50 55 60 65 70 75 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 47 100.0% 90.0% 80.0% Frequenza relativa % 70.0% % 60.0% 50.0% 40.0% 30.0% 20.0% 10.0% 90 <= et a< 10 0 80 <= et a< 90 70 <= et a< 80 60 <= et a< 70 50 <= et a< 60 40 <= et a< 50 30 <= et a< 40 20 <= et a< 30 10 <= et a< 20 00 <= et a< 10 0.0% classe di età Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 48 Distribuzione di frequenza di 2 variabili Il procedimento è analogo a quanto descritto per una sola variabile, complicato solo dalla necessità di classificare ciascun soggetto per due variabili contemporaneamente. 1.definire i possibili valori di ciascuna delle due variabili 2.costruire una tabella con le due variabili a definire le righe e le colonne 3.scrivere i valori delle variabili in ordine crescente 4.contare le osservazioni per ciascuna combinazione di valori 5.calcolare i totali di riga, colonna e tabella 6.calcolare le corrispondenti proporzioni (o percentuali) riferite a: totale generale, tot. di riga, tot. di colonna Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 49 Problema: descrivere l’associazione tra arteriopatia ed abitudine al fumo (due variabili categoriche) in uno studio: 1. identifico le variabili ed i valori possibili Var. A (arteriopatia), nominale, valori possibili = 2 (malato, sano). Var. B (fumo), nominale, valori possibili = 3 (mai fumatore, ex fum., attuale fum.). 2. preparo una tabella con le due variabili che definiscono le righe e le colonne Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 50 Arteriopatia Malato Totale Sano Mai Fumo Ex Attuale Totale Queste tabelle sono anche chiamate: tabelle di contingenza tabelle crociate (o crosstabs) tabelle a doppia entrata Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 51 Arteriopatia Totale Malato Sano Mai 8 43 51 Ex 26 45 71 Attuale 30 48 78 64 136 Fumo Totale Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 200 52 Percentuali sul totale delle osservazioni Arteriopatia Malati Sani % totale Totale Malati Sani % % F Mai 8 43 4,0 21,5 U Ex 26 45 13,0 22,5 M attuale 30 48 15,0 24,0 O Totale 200 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 100,0 53 Istogrammi da tabella con 2 variabili Percentuali sul totale delle osservazioni Malati Sani 30,0 25,0 20,0 % 15,0 10,0 5,0 0,0 Mai Ex attuale Malati 4,0 13,0 15,0 Sani 21,5 22,5 24,0 Fumo Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 54 Istogrammi da tabella con 2 variabili Percentuali sul totale delle osservazioni 25,0 20,0 15,0 % 10,0 Mal San 5,0 Sani 0,0 Mai Malati Ex Fumo attuale Mai Ex attuale Malati 4,0 13,0 15,0 Sani 21,5 22,5 24,0 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 55 Percentuali sul totale di riga Arteriopatia Malati Sani %riga Totale Malati Sani % % % F Mai 8 43 51 15,7 84,3 100,0 U Ex 26 45 71 36,6 63,4 100,0 M attuale 30 48 78 38,5 61,5 100,0 O Totale 200 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 56 Istogrammi da tabella con 2 variabili Percentuali di malati per ciascuna categoria di fumo 90,0 80,0 70,0 60,0 50,0 Malati % Sani 40,0 30,0 20,0 10,0 0,0 Mai Ex attuale Totale Malati 15,7 36,6 38,5 32,0 Sani 84,3 63,4 61,5 68,0 Fumo Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 57 Percentuali sul totale di colonna Arteriopatia Malati Sani %colonna Totale Malati Sani F Mai 8 43 12,5 31,6 U Ex 26 45 40,6 33,1 M Attuale 30 48 46,9 35,3 O Totale 64 136 200 100,0 100,0 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 58 Istogrammi da tabella con 2 variabili Percentuali di fumatori tra malati e sani 50,0 45,0 40,0 35,0 30,0 % Malati 25,0 Sani 20,0 15,0 10,0 5,0 0,0 Mai Ex attuale Malati 12,5 40,6 46,9 Sani 31,6 33,1 35,3 Fumo Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 59 Esercizi consigliati da: Fowler et al, ed Edises. • • • • Cap 4 (p 212) es 1 Cap 4 (p 212) es 3 Cap 4 (p 212) es 6 Cap 4 (p 212) es 8 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 60