LEZIONE “ELEMENTI DI STATISTICA DESCRITTIVA” PROF. CRISTIAN SIMONI Università Telematica Pegaso Elementi di statistica descrittiva Indice 1 2 La statistica, i dati e altri concetti fondamentali ---------------------------------------------------- 3 1.1. Popolazione -------------------------------------------------------------------------------------------- 3 1.2. Campione ----------------------------------------------------------------------------------------------- 4 1.3. Variabili (variabili quantitative, qualitative, casuali) -------------------------------------------- 5 1.4. Scale di misurazione ---------------------------------------------------------------------------------- 5 Ordinare, raggruppare e rappresentare graficamente i dati ------------------------------------- 8 2.1 Le tabelle -------------------------------------------------------------------------------------------------- 8 2.2 L’istogramma --------------------------------------------------------------------------------------------- 9 2.3 L’aerogramma -------------------------------------------------------------------------------------------- 9 2.4 Poligono di frequenza --------------------------------------------------------------------------------- 10 3 Misure di tendenza centrale --------------------------------------------------------------------------- 12 3.1 Media aritmetica---------------------------------------------------------------------------------------- 12 3.2 Mediana-------------------------------------------------------------------------------------------------- 12 3.3 Moda ----------------------------------------------------------------------------------------------------- 13 3.4 Quartile, decile e percentile --------------------------------------------------------------------------- 13 4 Misure di dispersione ----------------------------------------------------------------------------------- 15 4.1 Intervallo di variazione -------------------------------------------------------------------------------- 15 4.2 Deviazione standard o scarto quadratico medio o sigma ( ) ------------------------------------ 15 4.3 Il coefficiente di variazione (CV) -------------------------------------------------------------------- 16 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 2 di 16 Università Telematica Pegaso Elementi di statistica descrittiva 1 La statistica, i dati e altri concetti fondamentali Con il termine statistica intendiamo quella disciplina che si occupa della raccolta, dell’organizzazione, della sintesi e dell’analisi di dati. I dati sono pertanto il materiale di base della statistica, ossia delle cifre numeriche risultanti o da un conteggio o da una misura (ad es. la rilevazione della temperatura corporea di un paziente o il conteggio di pazienti dimessi dal nosocomio). Le fonti dei dati possono essere: 1. le rilevazioni periodiche (ad es. le informazioni periodiche sui pazienti); 2. le indagini, ovvero l’ottenimento di nuovi dati attraverso specifici quesiti; 3. le strategie messe in campo dall’operatore sanitario al fine di ottenere la massima collaborazione del paziente. 4. La letteratura già disponibile su un certo argomento o quesito analogo al nostro, al quale qualcuno abbia già dato risposta e conservato dati. Se prendiamo in considerazione esclusivamente gli aspetti di raccolta, organizzazione, sintesi e presentazione di dati di un collettivo, siamo di fronte ad una procedura di statistica descrittiva. Quando si studiano fenomeni per i quali non è possibile prendere in considerazione un numero elevato di individui, si procede estraendo casualmente un gruppo di essi (campione) e si cerca così di risalire alle caratteristiche del gruppo più grande: in questo caso siamo di fronte ad una procedura di statistica inferenziale. Gli strumenti della statistica sono utilizzati in molti campi, se tali strumenti sono impiegati nel campo medico, assumono la denominazione di biostatistica, ovvero la raccolta e l’analisi dei dati provenienti dalle scienze biologiche e dalla medicina. 1.1. Popolazione Con popolazione in ambito statistico s’intende un collettivo di elementi cui siamo interessati in un particolare momento. La popolazione è definita dalla nostra sfera d’interesse e può essere di due tipologie: finita o infinita, a seconda se una popolazione di valori consiste in un numero fissato di valori o se la popolazione è costituita da una serie interminabile di valori. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 3 di 16 Università Telematica Pegaso 1.2. Elementi di statistica descrittiva Campione Poiché non è sempre possibile esaminare tutti coloro che compongono una data popolazione statistica, se ne analizza una parte di quest’ultima. Il campione riflette dunque fedelmente, ma in numero ridotto, la popolazione presa in esame. Le tipologie di campioni che si possono estrarre da una popolazione sono molteplici, prendiamo in considerazione: il campionamento casuale semplice, il campionamento sistematico, il campionamento stratificato e il campionamento a grappoli. Quando un campione viene estratto da una popolazione in modo tale che ciascuno di tutti i possibili campioni (della medesima dimensione) abbiano la stessa probabilità di essere estratti, parliamo di campione casuale semplice. Casualità, dunque, non significa “scelto a caso”, ma possibilità uguali affinché ogni elemento della popolazione possa essere scelto (ad esempio il metodo di sorteggio di numeri rappresentanti ogni individuo del campione). Il campionamento sistematico è possibile quando siamo in possesso di elenchi completi di una popolazione, da cui estrarre il nostro campione. Si parte da un individuo qualsiasi della popolazione, scelto a caso, poi si aggiungono tutti gli individui che cadono in un intervallo, da noi stabilito, all’interno dell’elenco. Se stabiliamo dunque di scegliere un individuo ogni 10, partendo dalla posizione 3, ecco che il nostro campione sarà formato da tutti gli individui in posizione 13, 23, 33 etc…, fino al raggiungimento del numero necessario, prefissato in precedenza, per comporre il campione stesso. Il campionamento stratificato. Poniamo il caso che nel nostro ospedale vi siano 500 pazienti di età diverse: bambini, adulti, anziani. Per creare un campione stratificato da questa popolazione dobbiamo innanzi tutto, oltre che definire delle classi, accertare che ogni individuo sia presente in una sola classe, affinché non compaia più di una volta. In un secondo momento procediamo estraendo, all’interno di ciascuna classe, un campione casuale semplice. La somma di tutti i campioni casuali semplici, estratti dalle classi, vanno a comporre un campione stratificato (nel nostro esempio la somma dei tre campioni casuali estratti dalle classi: bambini, adulti e anziani) . Se ci troviamo di fronte a delle classi con una distribuzione diversificata di individui, ad es.: 50 bambini, 200 adulti e 250 anziani, possiamo creare un campione stratificato proporzionale. Tale tipologia di campione stratificato consiste nel mantenere, appunto nel campione, le stesse proporzioni della popolazione totale (nel nostro esempio: 10% bambini, 40% adulti, 50% anziani). Il campione può essere però anche non proporzionale e dunque, in questo secondo caso, da ogni classe estraiamo lo stesso numero di individui che, nell’esempio preso in esame in precedenza, Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 4 di 16 Università Telematica Pegaso Elementi di statistica descrittiva significa comporre il campione con 1/3 di dati provenienti dalla classe bambini, 1/3 da quella adulti e 1/3 da quella anziani. Concludiamo con il campionamento a grappoli (cluster). Anche in questo campionamento bisogna suddividere la popolazione in classi, ma, al contrario del campionamento stratificato, non si estraggono gli individui da più classi ma si prende in considerazione, come campione, direttamente una o più classi intere. Potremmo dividere, ad esempio, tutti i pazienti dell’ospedale per reparto di degenza (poniamo che i reparti siano 10) e prelevare casualmente solo 3 classi, ossia tre soli reparti ospedalieri. I tre gruppi sorteggiati diventeranno così il nostro campione a grappoli. 1.3. Variabili (variabili quantitative, qualitative, casuali) Con variabile indichiamo la possibilità che una data caratteristica possa assumere valori diversi in soggetti diversi. La frequenza cardiaca o la pressione sistolica sono esempi di variabili, ossia caratteristiche che non sempre assumono gli stessi valori. Le variabili possono essere di diversa natura: sono variabili quantitative se forniscono informazioni sulla grandezza (ad. es. peso dei pazienti). Sono variabili qualitative quelle caratteristiche che non possono essere misurate come ad esempio le diagnosi dei malati. Le variabili qualitative dunque, più che con la misurazione, hanno a che fare con la classificazione o categorizzazione. Infine una variabile può essere casuale quando i valori sono generati da fattori casuali, non possono essere pertanto predetti (ad esempio numero ricoveri in una giornata). 1.4. Scale di misurazione La misurazione è l’attribuzione di un valore numerico ad un evento o ad un oggetto, secondo regole che consentono di rappresentare importanti proprietà degli eventi/oggetti stessi. Ai fini della misurazione possiamo utilizzare diversi tipi di scale. La scala può essere nominale, ossia consistente in una classificazione delle osservazioni effettuate in varie categorie: a es. uomo-donna; bambino-adulto. Trattasi del livello più basso di misurazione, con questa scala attribuiamo “etichette” alle varie classi. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 5 di 16 Università Telematica Pegaso Elementi di statistica descrittiva H L A I B F C N D M G B Gli individui contenuti nell’insieme hanno le stesse caratteristiche (proprietà transitiva della scala nominale , se A=B e B=C allora A=C e proprietà simmetrica: se A=B allora B=A). Quelli fuori invece non presentano le stesse caratteristiche e dunque sono esclusi. Vi è poi la scala ordinale: qui le osservazioni possono essere classificate in base ad un qualche criterio oltre che in base alla loro categoria. Ad es. un paziente, dopo una cura, può risultare: 1) non migliorato, 2) migliorato, 3) molto migliorato. La scala ordinale dunque ha lo scopo di classificare le osservazioni in modo progressivo (dal valore più basso a quello più alto) e permette di creare delle graduatorie. A + B C D E F G H I L In questa scala le distanze non sono regolari, possiamo desumere semplicemente che il paziente “I” sia migliorato molto di più del paziente “B”. La scala ad intervalli: questa scala specifica non soltanto la posizione in graduatoria ma anche la distanza tra ciascuna delle modalità. Possiamo dunque ordinare le unità in relazione al fatto che possiedano in misura maggiore o minore una determinata caratteristica e possiamo, inoltre, indicare l'esatta distanza tra esse. Esempi classici sono la misurazione della temperatura in gradi Celsius o i battiti cardiaci al minuto. La scala ad intervalli non è dotata però di un cosiddetto zero assoluto ma esso è arbitrario, come appunto nel caso della misurazione della temperatura. A B C D E F Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 6 di 16 Università Telematica Pegaso Elementi di statistica descrittiva In questa scala BC=EF etc..; è possibile qui attribuire un valore quantitativo alla distanza tra due posizioni della scala. Se invece è possibile individuare uno zero assoluto, ci troviamo di fronte ad una scala a rapporti, attraverso la quale si può mettere a confronto quantità diverse calcolandone il rapporto ( ad esempio una certa rilevazione è di entità doppia rispetto ad un’altra). La statura, il peso e la lunghezza sono misurate ad esempio con scale a rapporti. 0 1 2 3 4 5 6 7 In questa scala siamo in grado di dire ad esempio che 4 è il doppio di due o che 3 è la metà di 6. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 7 di 16 Università Telematica Pegaso Elementi di statistica descrittiva 2 Ordinare, raggruppare e rappresentare graficamente i dati Lo spoglio dei dati è sostanzialmente un’ operazione di conteggio il cui risultato è definito distribuzione statistica. I numeri ottenuti per ogni classificazione, che vanno a definire la distribuzione, sono detti frequenze. Con frequenza di un dato, dunque, s’intende il numero di volte in cui il dato stesso compare. La frequenza è detta assoluta quando determina il numero di osservazioni che appartengono a una certa classe (frequenza assoluta della classe). Con frequenza relativa, invece, s’intende il rapporto tra la frequenza assoluta e la totalità della popolazione statistica su cui si sta svolgendo l’indagine (rapporto tra la sua frequenza n e la somma N di tutte le frequenze). Per calcolare la frequenza relativa bisogna dunque dividere ogni frequenza assoluta per la somma di tutte le frequenze; se poi moltiplichiamo per 100 ciascuna delle frequenze relative ottenute, troviamo le percentuali. Guariti malati Deceduti Totale popolazione Frequenze assolute 98 39 53 190 Frequenze relative 0,5158 0,2053 0,2789 1,0000 Percentuali 51,58 20,53 27,89 100,00 Esempio di popolazione con frequenze riscontrate . 2.1 Le tabelle La tabella è una riproduzione semplificata del fenomeno osservato, che rende l’informazione statistica sintetica e rapidamente leggibile. Se prendiamo in considerazione più di un dato carattere qualitativo, otteniamo una tabella di contingenza (o a doppia entrata). Quando ordiniamo i dati in tabelle, possiamo raggruppare un insieme di osservazioni selezionando dei gruppi d’intervalli contigui (non sovrapponibili), in modo tale che ciascuna osservazione possa essere collocata in uno solo degli intervalli, detti anche classi. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 8 di 16 Università Telematica Pegaso Elementi di statistica descrittiva [Fonte: Istituto tumori di Milano] 2.2 L’istogramma Se vogliamo rappresentare graficamente la distribuzione di frequenze attraverso un istogramma, collochiamo sull’asse delle ascisse (orizzontale) i valori della variabile; sull’asse delle ordinate (verticale) invece rappresentiamo le frequenze assolute. Su ogni classe dell’asse orizzontale collochiamo una barra rettangolare alta quanto l’effettiva frequenza riscontrata. peso pazienti frequenza 60 40 20 0 2.3 L’aerogramma Si divide una circonferenza in settori, ciascuno dei quali ha un’area proporzionale alla frequenza corrispondente in percentuale. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 9 di 16 Università Telematica Pegaso Elementi di statistica descrittiva 13% 13% 17% 1° Trim. 2° Trim. 3° Trim. 4° Trim. 57% 2.4 Poligono di frequenza È utile quando le classi da rappresentare sono molte. Sull’asse orizzontale vengono rappresentati gli intervalli di classe; sull’asse verticale invece rappresentiamo le frequenze. Per costruire un poligono di frequenza può essere necessario stabilire il valore centrale di ogni classe di valori e posizionarlo sull’asse orizzontale, poi si deve segnare con un punto la frequenza di ogni classe stessa sull’asse verticale. I vari punti vanno poi uniti in una linea che si conforma come spezzata. Si preferisce l’istogramma al poligono di frequenza quando si vuole evidenziare bene il numero di casi che cadono in ogni intervallo di classe; mentre è preferibile il poligono di frequenza quando si vuole illustrare con maggior chiarezza l’andamento dei dati. Tuttavia si possono sovrapporre entrambi per avere un quadro più preciso sulla distribuzione. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 10 di 16 Università Telematica Pegaso Elementi di statistica descrittiva Causes of death - standardised death rate per 100 000 inhabitants, males.In questo esempio, tratto dal sito ufficiale Eurostat, osserviamo le più comuni cause di morte in Europa. Sulle ordinate vi sono le frequenze relative a ciascuna causa di morte, mentre sulle ascisse gli anni dal 2000 al 2008. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 11 di 16 Università Telematica Pegaso Elementi di statistica descrittiva 3 Misure di tendenza centrale 3.1 Media aritmetica Si calcola sommando tutti i valori di un campione o di una popolazione o di una semplice distribuzione di risultati, dividendo la somma ottenuta per il numero dei valori sommati. Vantaggi: l’immediatezza e semplicità del calcolo; inoltre l’unicità del dato che riassume un insieme di dati. Svantaggi: il limite principale è dovuto al fatto che nella media aritmetica i dati estremi influenzano la media stessa, ciò può risultare talvolta non opportuno e non rappresentativo dell’insieme intero di dati. M( o )=(x1 + x2 + x3 + xn)/n Dove: = media del campione; osservazioni del campione; 3.2 oppure = i-esima osservazione della variabile X; n = numero di = sommatoria di tutti gli del campione. Mediana Se prendiamo un insieme ordinato di dati (in ordine crescente o decrescente), la mediana è quel valore che divide in due parti uguali l’insieme stesso. Se queste sono dispari la mediana è il valore centrale (ad esempio su 11 valori la mediana è rappresentato dal sesto valore). Nel caso i valori siano pari, la mediana è rappresentata dalla media aritmetica dei due valori centrali (se abbiamo 10 valori si procede alla media aritmetica tra il quinto e il sesto valore). La mediana presenta vantaggi analoghi alla media, ovvero l’unicità del valore e la semplicità e, in più, non è influenzata dai valori estremi come la media. 2 4 4 8 10 12 15 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 12 di 16 Università Telematica Pegaso 3.3 Elementi di statistica descrittiva Moda Con moda intendiamo quel valore che compare più frequentemente all’interno del nostro campione. Può verificarsi tuttavia il caso in cui tutti i valori siano diversi e pertanto l’insieme delle nostre osservazioni non hanno moda; oppure può verificarsi al contrario che vi sia più di un valore “moda” all’interno delle nostre rilevazioni. L’uso tipico della moda nell’ambito sanitario consiste nella possibilità di rilevazione di quali diagnosi risultano più frequenti fra i ricoveri. La diagnosi maggiormente riscontrata in un gruppo di pazienti è detta diagnosi modale. 6 8 10 10 10 13 15 17 3.4 Quartile, decile e percentile A conclusione di questa sezione accenniamo a quei valori medi simili alla mediana. I Quartili dividono la serie ordinata in quattro parti contenenti ciascuna lo stesso numero di dati. Il primo quartile Q1 è il valore che supera un quarto dei termini mentre il secondo quartile Q2 è la mediana, ed infine, il terzo quartile Q3 è il valore che supera tre quarti dei dati. I decili sono i valori che dividono l’insieme dei dati in dieci parti uguali, mentre i percentili sono i novantanove valori che dividono l’insieme in cento parti uguali. Il primo quartile è sul valore 7 (25% dei valori cumulati); il secondo sul 13 (50%); il terzo su circa il 21 e il quarto è rappresentato dal valore finale. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 13 di 16 Università Telematica Pegaso Elementi di statistica descrittiva 0 1 Frequ. relativa % 4,2% 2 2 8,3% 12,5% 4 1 4,2% 16,7% 5 1 4,2% 20,8% 7 1 4,2% 25,0% 9 1 4,2% 29,2% 10 1 4,2% 33,3% 11 1 4,2% 37,5% 12 2 8,3% 45,8% 13 1 4,2% 50,0% 14 1 4,2% 54,2% 16 1 4,2% 58,3% 19 1 4,2% 62,5% 21 4 16,7% 79,2% 22 1 4,2% 83,3% 24 1 4,2% 87,5% 25 1 4,2% 91,7% 26 1 4,2% 95,8% 29 1 4,2% 100,0% Punteggio Frequenza Frequ. Cumulata 4,2% = Q1 =Q2 =Q3 =Q4 Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 14 di 16 Università Telematica Pegaso Elementi di statistica descrittiva 4 Misure di dispersione Le rilevazioni possono assumere valori diversi: tale fenomeno è detto variabilità o dispersione. La variabilità può essere di dimensioni ridotte, quando i valori sono molto simili tra loro, o viceversa molto pronunciata nel caso in cui i dati siano tra loro molto diversi. La media, da sola, può non essere dunque sufficiente a descrivere la distribuzione di alcuni dati; pertanto è necessario fare riferimento ad operazioni più complesse come l’intervallo di variazione (range), la deviazione standard e il coefficiente di variazione. 4.1 Intervallo di variazione Esso costituisce l’indicatore più semplice della variabilità dei punteggi. Al punteggio massimo ottenuto si sottrae quello più basso. L’ IV o range, indica dunque la variabilità dei punteggi di una serie di misure. IV= valore più grande – valore più piccolo Limiti: dal momento in cui vengono presi in considerazione solamente i valori più grandi e più piccoli si finisce per tralasciare i valori intermedi. 4.2 Deviazione standard o scarto quadratico medio o sigma ( ) Più i risultati si discostano dalla media, più è elevato il grado di variabilità dei dati. È necessario calcolare così una misura di variabilità che tenga conto della dispersione dei valori attorno alla loro media. Per calcolare la deviazione standard si sottrae il valore della media da ciascuno dei singoli valori di una distribuzione; si elevano poi al quadrato le differenze ottenute e si sommano tra loro. Tale somma dovrà essere poi divisa per il numero dei valori presenti nella distribuzione. Infine, dovrà essere calcolata la radice quadrata del risultato ottenuto. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 15 di 16 Università Telematica Pegaso Elementi di statistica descrittiva Il valore della deviazione standard aumenta più i valori sono distanti dalla media; diminuisce più i valori della serie sono vicini alla media. 2 x1 M 2 x2 M 2 ... xn M 2 Dove: = deviazione standard; n = rappresenta un singolo valore della distribuzione; n= numero totale valori; M= media. Se il valore della deviazione standard è ridotto, ciò significa che i punteggi della distribuzione sono vicini alla media; se invece il suo valore è ampio, i punteggi si dimostreranno lontani dalla media. 4.3 Il coefficiente di variazione (CV) Per mettere a confronto due distribuzioni di dati, i cui valori delle deviazioni standard sono diversi, dobbiamo dividere i valori delle deviazioni standard (σ) stesse per le rispettive medie aritmetiche. Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633) 16 di 16