Università degli Studi di Cassino Facoltà di Scienze Motorie – Corso di Laurea in Scienze Motorie Anno accademico 2009/2010 Biostatistica (L22) Principi di Statistica Descrittiva (L33) Bruno Federico [email protected] Organizzazione del corso Il corso è articolato in lezioni frontali ed esercitazioni Alcune esercitazioni saranno svolte con carta e penna È consigliabile portare con sé una calcolatrice Altre esercitazioni saranno svolte in aula computer Il materiale delle lezioni è scaricabile da Internet http://docenti.unicas.it Facoltà di Scienze Motorie Federico Bruno • Consultazione materiale didattico La verifica finale consisterà in un test scritto Per qualsiasi necessità/problema/approfondimento scrivere un’e-mail a [email protected] potete Programma del corso Introduzione alla statistica Obiettivi Statistica descrittiva Lo studio della frequenza La rappresentazione grafica dei dati Tabelle di frequenza Grafici Le misure di sintesi numerica Indici di tendenza centrale, indici di variabilità L’analisi della performance sportiva Per lo studio Materiale didattico del docente Fowler, Jarvis, Chevannes. STATISTICA SANITARIE. EdiSES – Napoli 2006 Pagano, Gavreau, BIOSTATISTICA, Idelson-Gnocchi, Napoli, 2003 PER LE PROFESSIONI Concetti di base e nomenclatura in statistica A cosa serve la Statistica? La Statistica è uno strumento essenziale per la scoperta di leggi e relazioni tra fenomeni Svolge un scientifica ruolo fondamentale nella ricerca La Statistica riguarda la raccolta, l’organizzazione, la presentazione, l’analisi e l’interpretazione dei dati numerici allo scopo di fornire un supporto per la realizzazione di decisioni più efficaci quando l’interesse è rivolto alle scienze biologiche e mediche, si usa il termine biostatistica Origini della disciplina Il termine “statistica” deriva dalla parola “Stato” Originariamente con questo termine si indicava la raccolta dei dati demografici ed economici di interesse per gli stati La disciplina si è poi sviluppata in un metodo scientifico di analisi applicato alle scienze sociali, naturali, biomediche Origini della disciplina Con la nascita dei grandi Stati europei, l’interesse ad approfondire i fenomeni legati alle popolazioni diventa sempre più forte Gli Stati si dotano di Istituti centrali di statistica deputati per legge alla raccolta, organizzazione e diffusione dei dati sulla popolazione, sulle abitazioni, sulle risorse economiche e su tutti gli aspetti rilevanti della vita di una Nazione In Italia, l’ente centrale è l’ISTAT (Istituto nazionale di statistica) La Statistica nello Sport Una delle caratteristiche peculiari dello sport moderno è la misurazione Punteggi, graduatorie, prestazioni degli atleti La valutazione della performance di un atleta o di una squadra può essere: Descrittiva Utile, ad esempio, graduatorie nell’elaborazione di Predittiva Utile per valutare la probabilità di vittoria della squadra o dell’atleta La Statistica nello Sport Il baseball ed il basket sono esempi di discipline sportive in cui la statistica gioca un ruolo importante A partire dal 1993, la FIFA ha sviluppato un sistema di ranking delle squadre nazionali che si basa su diversi parametri Risultato finale Numero di goal Se la partita è giocata in casa o fuori L'importanza del match La forza della squadra avversaria Le differenze geografiche tra i continenti La Statistica nelle scienze bio-mediche Metodi statistici sono largamente utilizzati in campo bio-medico per: Valutare l’efficacia di un trattamento valutare la relazione di causalità di un fenomeno (es. una malattia) La statistica è anche utilizzata per valutare la qualità dell’assistenza sanitaria Prestazioni fornite da ospedali Prestazioni fornite da Regioni e Aziende Sanitarie Locali Che cos’è la Statistica? È una metodologia generale per lo studio dei fenomeni collettivi e della variabilità di tali fenomeni attraverso L’osservazione dei fenomeni La traduzione in simboli L’evidenza di irregolarità La verifica di ipotesi È l’insieme di principi, procedure logiche e metodi utili a comprendere, controllare e prevedere determinati fenomeni Obiettivi della statistica Descrivere i dati condensare anche un gran numero di dati rilevati in pochi valori riassuntivi, capaci di indicare importanti proprietà della popolazione o del campione oggetto di indagine Esplorare le relazioni Valutare l’esistenza e la grandezza relazioni tra le variabili rilevate delle Fare previsioni utilizzare i dati raccolti per prevedere i valori che ci si aspetta di trovare nella popolazione oggetto di indagine in particolari condizioni Obiettivi della statistica - esempi Descrivere i dati Qual è il numero di vittorie della squadra? Qual è la performance dell’atleta? Esplorare le relazioni Che relazione c’è tra adiposità in eccesso, forza e velocità? Fare previsioni Qual è la probabilità di vittoria dell’atleta o della squadra note le seguenti condizioni (stato di forma, morale, forza dell’avversario, …) Obiettivi della statistica - esempi Descrivere i dati Quanti sono i pazienti ricoverati? Quanti sono maschi? Quanti femmine? Esplorare le relazioni Che relazione c’è tra obesità e mal di schiena? Fare previsioni Qual è la probabilità di ripristino funzionalità motoria dopo un ictus? della Concetti di base Popolazione Insieme o collezione di oggetti, numeri, misure o osservazioni. Le popolazioni possono essere: Finite Gli iscritti ad una palestra in un determinato anno Infinite Tutte le possibili uscite di testa o croce in successivi lanci di una moneta Campione Un sottoinsieme della vengono raccolti i dati popolazione su cui Concetti di base Unità statistica Minima indagine unità da cui si raccolgono i dati in una Individuo Famiglia Regione Gara Variabile Caratteristica che può assumere valori diversi nelle diverse unità statistiche Altezza dei bambini di una classe Peso degli atleti Età dei pazienti di una clinica Concetti di base Modalità Valore assunto da una variabile determinata unità statistica Individuo Peso Giorgio Mario Roberto 80 kg 75 kg 77 kg Modalità in una Natura della Statistica Statistica descrittiva ha a che fare con la presentazione, organizzazione e sintesi dei dati Tabelle, grafici, indici di sintesi Statistica Inferenziale ci permette di generalizzare i risultati ottenuti dai dati raccolti in un piccolo campione ad una popolazione più ampia Stima di parametri Test di ipotesi Statistica descrittiva ed inferenziale Popolazione Campione Media, dev. standard, … Stat. descrittiva Stat. inferenziale Perché studiare un campione? I motivi per cui spesso viene esaminato un campione, e non l’intera popolazione sono: Risorse limitate Pochi dati disponibili Impossibilità a compiere determinati test La frequenza Frequenza Il concetto di frequenza è uno dei più importanti nella statistica Frequenza: quanto spesso si presenta un determinato valore o intervallo di valori? Frequenza relativa: proporzione quanto spesso si presenta un determinato valore o intervallo di valori, rispetto al totale delle osservazioni? Frequenza conta percentuale quanto spesso si presenta un determinato valore o intervallo di valori rispetto a 100 osservazioni? Frequenza Frequenza assoluta Numero di volta che si osserva ciascuna modalità di una variabile Frequenza relativa freq. assoluta/n° totale di unità statistiche Frequenza percentuale freq. Relativa X 100 obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 distanza 15 16 18 19 20 20 22 22 22 23 24 24 25 25 25 25 25 26 26 26 27 27 27 28 28 28 28 28 28 29 29 29 31 31 31 32 33 34 35 football In 2 calci, la distanza percorsa dal pallone riempito di aria è stata uguale a 24 yds f(24)=2 p(24)=2/39=0.051 %(24)=0.051*100=5.1% Frequenza cumulativa Frequenza cumulativa assoluta Somma delle frequenze corrispondenti alle osservazioni più piccole rispetto all’osservazione data più la frequenza dell’osservazione stessa Frequenza cumulativa relativa Proporzione delle frequenze corrispondenti alle osservazioni più piccole rispetto all’osservazione data più la frequenza dell’osservazione stessa Freq. cum ass/n° totale di unità statistiche Frequenza cumulativa percentuale Proporzione delle frequenze corrispondenti alle osservazioni più piccole rispetto all’osservazione data più la frequenza dell’osservazione stessa Freq cum rel X 100 obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 distanza 15 16 18 19 20 20 22 22 22 23 24 24 25 25 25 25 25 26 26 26 27 27 27 28 28 28 28 28 28 29 29 29 31 31 31 32 33 34 35 football In 12 calci, la distanza percorsa dal pallone riempito di aria è inferiore o uguale a 24 yds fc(24)=12 pc(24)=12/39=0.307 %c(24)=0.307*100=30.7% Tabelle di frequenza Elaborazione di tabelle di frequenza L’elaborazione di tabelle di frequenza è il primo passo per comprendere come si presentano le variabili prese in esame Le Tabelle di sintesi dei dati Generalità presentano i dati in forma sintetica, organizzati secondo righe e colonne Tabelle a singola entrata è presentata la distribuzione di frequenza di UN SOLO carattere statistico Tabelle a doppia entrata è presentata la distribuzione di frequenza di DUE caratteri statistici A seconda dei tipi di dati Dati Rappresentazione di tutte le modalità possibili Dato nominali ed ordinali numerici discreti e continui Dati aggregati per classi Tabelle: Partendo da questi dati grezzi: Id Sesso Età Classe di esposizione Nazionalità 0001 M 35 lieve fumatore italiana 0002 F 40 non fumatore francese 0003 M 60 forte fumatore italiana 0004 M 29 lieve fumatore italiana 0005 M 27 medio fumatore belga 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca 0011 F 24 non fumatore francese 0012 F 28 forte fumatore italiana 0013 M 36 non fumatore italiana Indice rappresentato Modalità Freq. assoluta Freq. relativa M 7 7/13 F 6 6/13 Carattere Sesso Singola entrata, Variabile Dicotomica Tot. 13 Conta dei soggetti che nel campione presentano quella specifica modalità Raggruppare in classi Nel caso di variabili numeriche, invece di riportare tutte le differenti modalità della variabile, i dati vengono raggruppati in classi o intervalli di valori Come sono costituite le classi? Valori predefiniti (logica, letteratura) Liberi es. classi età (0-14, 15-30, 30-65, >65) classi tempo (<7gg, 7-14, 15-30, 30-60, >60) A larghezza costante Suddivisioni statistiche (quantili) quartili, quintili, decili (a numerosità costante) si usa quando non ci sono valori di cut-off noti aumenta la potenza statistica Classi dicotomiche es classi quinquennali di età Si costruiscono utilizzando 1 solo valore di cut-off (valore soglia) Classi ordinali Si costruiscono utilizzando più di un cut-off Tabelle: In questo caso, ha senso la frequenza cumulativa ! Partendo da questi dati grezzi: Id Sesso Età Classe di esposizione Nazionalità 0001 M 35 lieve fumatore italiana 0002 F 40 non fumatore francese 0003 M 60 forte fumatore italiana 0004 M 29 lieve fumatore italiana 0005 M 27 medio fumatore belga 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca 0011 F 24 non fumatore francese 0012 F 28 forte fumatore italiana 0013 M 36 non fumatore italiana Indice rappresentato Classi di Modalità Carattere Età Singola entrata, Variabile Numerica Freq. assoluta Freq. Freq. relativa cumulativa 10-29 6 6/13 6/13 30-39 4 4/13 10/13 >39 3 3/13 13/13 Tot. 13 Conta dei soggetti che nel campione presentano quella specifica modalità Tabelle: Doppia entrata, Variabile Ordinale Partendo da questi dati grezzi: Id Sesso Età Classe di esposizione Nazionalità Modalità del carattere 2 Carattere 2 Modalità del carattere 1 0001 M 35 lieve fumatore italiana 0002 F 40 non fumatore francese 0003 M 60 forte fumatore italiana 0004 M 29 lieve fumatore 0005 M 27 medio fumatore italiana Carattere 1 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca 0011 F 24 non fumatore francese 0012 F 28 forte fumatore italiana 0013 M 36 non fumatore italiana Esposizione belga Sesso M F Tot. non 2 4 6 lieve 3 0 3 medio 1 0 1 forte 1 2 3 Tot. 7 6 13 Conta dei soggetti nel campione che presentano la combinazione di entrambe le modalità Tabelle a doppia entrata Nel caso delle tabelle a doppia entrata, è possibile riportare per ogni casella, oltre alla frequenza assoluta, la frequenza relativa Di Di Di riga utilizzando come denominatore il totale di riga colonna utilizzando come denominatore il totale di colonna cella utilizzando come denominatore il totale generale Tabelle: Doppia entrata, Variabile Ordinale Come calcolare la %? Sesso Età Classe di esposizione Nazionalità 0001 M 35 lieve fumatore italiana 0002 F 40 non fumatore francese 0003 M 60 forte fumatore italiana 0004 M 29 lieve fumatore italiana 0005 M 27 medio fumatore belga 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca 0011 F 24 non fumatore francese 0012 F 28 forte fumatore italiana 0013 M 36 non fumatore italiana % di colonna Sesso Esposizione Id M F Tot. non 2 4 6 lieve 3 0 3 medio 1 0 1 forte 1 2 3 Tot. 7 6 13 Id Sesso Età Doppia entrata, Variabile Ordinale % di colonna Classe di esposizione Nazionalità 0001 M 35 lieve fumatore italiana 0002 F 40 non fumatore francese 0003 M 60 forte fumatore italiana 0004 M 29 lieve fumatore italiana 0005 M 27 medio fumatore belga 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca 0011 F 24 non fumatore francese 0012 F 28 forte fumatore italiana 0013 M 36 non fumatore italiana Sesso Esposizione Tabelle: M F non 28.6% 66.7% lieve 42.9% 0.0% medio 14.3% 0.0% forte 14.3% 33.3% Tot. 100.0% 100.0% Tot. Id Sesso Età Doppia entrata, Variabile Ordinale % di riga Classe di esposizione Nazionalità 0001 M 35 lieve fumatore italiana 0002 F 40 non fumatore francese 0003 M 60 forte fumatore italiana 0004 M 29 lieve fumatore italiana 0005 M 27 medio fumatore belga 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca 0011 F 24 non fumatore francese 0012 F 28 forte fumatore italiana 0013 M 36 non fumatore italiana Sesso Esposizione Tabelle: M F non 33.3% 66.7% lieve 100.0% 0.0% medio 100.0% 0.0% forte 66.7% 33.3% Tot. 100.0% 100.0% Tot. trial 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 air 25 23 18 16 35 15 26 24 24 28 25 19 27 25 34 26 20 22 33 29 31 27 22 29 28 29 22 31 25 20 27 26 28 32 28 25 31 28 28 helium 25 16 25 14 23 29 25 26 22 26 12 28 28 31 22 29 23 26 35 24 31 34 39 32 14 28 30 27 33 11 26 32 30 29 30 29 29 30 26 football Football - air classi_air | Freq. Percent Cum. ------------+----------------------------------10-14 y | 0 0.00 0.00 15-19 y | 4 10.26 10.26 20-24 y | 8 20.51 30.77 25-29 y | 20 51.28 82.05 30-34 y | 6 15.38 97.44 35-39 y | 1 2.56 100.00 ------------+----------------------------------Total | 39 100.00 Football - helium classi_hel | Freq. Percent Cum. ------------+----------------------------------10-14 y | 4 10.26 10.26 15-19 y | 1 2.56 12.82 20-24 y | 5 12.82 25.64 25-29 y | 17 43.59 69.23 30-34 y | 10 25.64 94.87 35-39 y | 2 5.13 100.00 ------------+----------------------------------Total | 39 100.00 Football – air and helium air helium 10-14 y 0 4 15-19 y 4 1 20-24 y 8 5 25-29 y 20 17 30-34 y 6 10 35-39 y 1 2 39 39 tot Football – air and helium air % colonna helium % colonna n % n % 10-14 y 0 0.0 4 10.3 15-19 y 4 10.3 1 2.6 20-24 y 8 20.5 5 12.8 25-29 y 20 51.3 17 43.6 30-34 y 6 15.4 10 25.6 35-39 y 1 2.6 2 5.1 39 100.0 39 100.0 tot Un esempio Problema Valutare in un campione di soggetti la frequenza di eventi coronarici acuti ed i fattori ad essi associati Ipotesi di ricerca L’abitudine al fumo, la pressione arteriosa ed il tipo di personalità sono associati ad una maggiore probabilità di manifestare un evento coronarico acuto Tabelle a singola entrata Descrivono la distribuzione di frequenza di una sola variabile alla volta Sono utilizzate per variabili binomiali, nominali, ordinali e numeriche (raggruppando, in quest’ultimo caso, i dati in classi) La personalità Tipo A si riferisce a persone che tendono ad essere competitive e aggressive La personalità Tipo B sono praticamente l’opposto I Tipo A tendono a manifestare lo stress con chi li circonda, i Tipo B interiorizzano lo stress. Type A or B| personality | Freq. Percent ------------+----------------------A | 18 51.43 B | 17 48.57 ------------+----------------------Total | 35 100.00 Tabelle a singola entrata Nel caso di variabili numeriche discrete, se le modalità sono un numero ridotto, si riporta la frequenza di tutti i valori Cigarettes | smoked per | day | Freq. Percent Cum. ------------+----------------------------------0 | 11 31.43 31.43 15 | 3 8.57 40.00 20 | 8 22.86 62.86 25 | 3 8.57 71.43 30 | 7 20.00 91.43 35 | 2 5.71 97.14 40 | 1 2.86 100.00 ------------+----------------------------------Total | 35 100.00 Tabelle a singola entrata Nel caso di variabili numeriche continue, si aggregano i dati in classi P. Arter. | Sistolica | Freq. Percent Cum. ------------+----------------------------------<110 | 3 8.57 8.57 110-119 | 4 11.43 20.00 120-129 | 11 31.43 51.43 130-139 | 3 8.57 60.00 >=140 | 14 40.00 100.00 ------------+----------------------------------Total | 35 100.00 Tabelle a doppia entrata Descrivono la distribuzione di frequenza di due variabili contemporaneamente Sono utili per valutare l’eventuale presenza di associazione (e la forza dell’associazione) tra due variabili | ev. coronarico acuto Type | no si | Total -----------+----------------------+---------A | 12 6 | 18 B | 15 2 | 17 -----------+----------------------+---------Total | 27 8 | 35 Tabelle a doppia entrata Per valutare l’eventuale presenza di associazione (e la forza dell’associazione) tra due variabili, si riporta oltre alla frequenza assoluta, una misura di frequenza relativa (i.e. percentuale) Nell’esempio, viene riportata la percentuale di riga | ev. coronarico acuto Type | no si | Total -----------+----------------------+---------A | 12 6 | 18 | 66.67 33.33 | 100.00 -----------+----------------------+---------B | 15 2 | 17 | 88.24 11.76 | 100.00 -----------+----------------------+---------Total | 27 8 | 35 | 77.14 22.86 | 100.00 Tabelle a doppia entrata In quest’altro esempio di tabella di frequenza a doppia entrata, sono riportate la frequenza assoluta e la frequenza relativa (% di riga) | ev. coronarico acuto ab. fumo | no si | Total ---------------+----------------------+---------non fumatore | 10 1 | 11 | 90.91 9.09 | 100.00 ---------------+----------------------+---------fumatore | 9 2 | 11 | 81.82 18.18 | 100.00 ---------------+----------------------+---------forte fumatore | 8 5 | 13 | 61.54 38.46 | 100.00 ---------------+----------------------+---------Total | 27 8 | 35 | 77.14 22.86 | 100.00 Tabelle a n entrate In questo esempio è stata riportata una tabella a tre entrate, per le variabili Abitudine al fumo Tipo di personalità Presenza dell’evento coronarico acuto | ev. coronarico acuto and | Type | --- no ----- si --ab. fumo | A B A B ---------------+------------------------non fumatore | 5 5 1 fumatore | 4 5 1 1 forte fumatore | 3 5 4 1 Esercitazione La tabella seguente riporta la distribuzione di frequenza del numero di figli in un campione di famiglie Qual è l’unità statistica? Quante sono le unità statistiche? Qual è la variabile in esame? Che tipo di variabile è? N° figli 0 1 2 3 4 5 6 Tot frequenza 10 3 6 8 31 15 2 75 Esercitazione La tabella seguente riporta la distribuzione di frequenza del numero di figli in un campione di famiglie Quante sono le famiglie che hanno 5 figli? Quante sono in percentuale le famiglie che hanno 5 figli? Quante sono le famiglie che hanno al massimo 5 figli? Quante sono in percentuale le famiglie che hanno al massimo 5 figli? N° figli 0 1 2 3 4 5 6 Tot frequenza 10 3 6 8 31 15 2 75 Esercitazione I dati seguenti rappresentano le età di 48 soggetti che frequentano un centro di riabilitazione fisica. Utilizza una tabella di frequenza per rappresentare in modo sintetico i dati 32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26 22 Un esempio Di un gruppo di atleti raccogliamo delle informazioni relative al tipo di sport praticato, al peso, all'altezza ed al numero di infortuni subiti Vorremmo conoscere la frequenza degli infortuni e se questo valore differisce nei diversi sport Il dataset Sport praticati Sport | Freq. Percent ------------+------------------------Atletica | 4 22.22 Basket | 7 38.89 Nuoto | 3 16.67 Pallavolo | 4 22.22 ------------+-------------------------Total | 18 100.00 Numero di infortuni N° di infortuni Freq. Percent Cum. ------------+----------------------------------0 | 6 33.33 33.33 1 | 4 22.22 55.56 2 | 5 27.78 83.33 3 | 3 16.67 100.00 ------------+----------------------------------Total | 18 100.00 Esercitazione La frequenza di infortuni è diversa a seconda dello sport praticato? Costruisci una tabella a doppia entrata Sport e numero di infortuni | N° infortuni Sport | meno di 2 2 o più | Total -----------+----------------------+---------Atletica | 3 1 | 4 Basket | 4 3 | 7 Nuoto | 2 1 | 3 Pallavolo | 1 3 | 4 -----------+----------------------+---------Total | 10 8 | 18 Sport e numero di infortuni | N° infortuni Sport | meno di 2 2 o più | Total -----------+----------------------+---------Atletica | 3 1 | 4 | 75.00 25.00 | 100.00 -----------+----------------------+---------Basket | 4 3 | 7 | 57.14 42.86 | 100.00 -----------+----------------------+---------Nuoto | 2 1 | 3 | 66.67 33.33 | 100.00 -----------+----------------------+---------Pallavolo | 1 3 | 4 | 25.00 75.00 | 100.00 -----------+----------------------+---------Total | 10 8 | 18 | 55.56 44.44 | 100.00 % di riga