Corso introduttivo di Statistica Statistica Descrittiva Concetti e Terminologia introduttiva della Statistica Distribuzioni di frequenza e rappresentazioni grafiche Principali Indici di Posizione e Variabilità Appendice: requisiti molto basilari di Matematica Simona Iacobelli Corso di Statistica. Simona Iacobelli 1 Perché la Statistica nelle Scienze • La Statistica è solitamente conosciuta per l’utilizzo in sondaggi di opinione, ricerche di mercato, sondaggi e proiezioni elettorali • Elementi comuni di questo tipo di studi: l’oggetto di studio … Riguarda una moltitudine di «individui» Presenta una variabilità Necessita una misurazione Interessano le relazioni fra il fenomeno in oggetto e altri fenomeni (caratteristiche) Vengono raccolti e analizzati dei dati • Qualsiasi fenomeno COLLETTIVO che presenti una VARIABILITA’ è oggetto di studio tramite tecniche statistiche (sviluppate dalla Matematica) • Lo studio è basato su una raccolta di dati (OSSERVAZIONE) e loro successiva analisi e presentazione • L’obiettivo è fornire valutazioni QUANTITATIVE del fenomeno e delle sue relazioni con altri fenomeni • Statistica nella Biologia «Biometria»: misurazione, quantificazione («della vita»). Interessa conoscere un fenomeno e metterlo in relazione con altri fenomeni. La Statistica in laboratorio e la Misura dell’Errore • Un esperimento di misura fornisce un risultato soggetto a variabilità – La variabilità ha varie fonti, da quella intrinseca dell’oggetto che si sta misurando, a quella dei vari elementi che entrano in gioco nello svolgimento dell’esperimento, a quella dovuta all’operatore che lo conduce, etc. • La misura viene quindi ripetuta per «rimuovere» matematicamente (facendo una medie dei valori ottenuti) la variabilità casuale • Ogni misura viene quindi accompagnata da una valutazione dell’errore • (Una parte de) Le considerazioni da fare per ricavare la misura e la stima dell’errore sono di tipo statistico – MISURA ± ERRORE – Altre considerazioni sono relative al background scientifico specifico dell’ambito in cui si opera, ad esempio possono essere legate alla sensibilità dello strumento, a modelli teorici etc. – La Teoria degli Errori viene solitamente proposta all’interno di un corso di Fisica – Nel corso vedremo alcuni aspetti della misura dell’errore in chiave statistica Corso di Statistica. Simona Iacobelli 2 Osservazione ESEMPI DI STUDI Condizioni di Variabili: Tipo di contratto, livello degli stipendi, tipo di istituzione lavoro settore (etc) biotecnologie In associazione con: sesso, età, titolo di studio, … Unità statistica: Individuo (impiegato nel settore) Esiti del tumore del seno Variabili: Durata sopravvivenza, occorrenza di recidive, qualità di vita … In associazione con: età, trattamenti, biomarkers … Unità statistica: Donna (con diagnosi di tumore) Domanda di servizi sociali per le famiglie Variabili: Tipo di servizio richiesto, durata dell’assistenza, … In associazione con: tipologia famiglia, reddito, regione geografica, … Unità statistica: Famiglia (assistita da servizi sociali) Mutazioni DNA per esposizione a inquinante Variabili: FISH, test della cometa, … In associazione con: tipo sostanza inquinante, durata esposizione, … L’individuazione dell’unità statistica di uno Unità statistica: cellula (?) studio è legata alla definizione di osservazioni indipendenti, un aspetto rilevante (e non semplice) su cui torneremo Osservazione Acquisire conoscenza del fenomeno tramite osservazione richiede: - Una precisa definizione di cosa interessa (popolazione obiettivo, popolazione osservata e caratteristiche di interesse) - Un piano di campionamento / sperimentale - La rilevazione e organizzazione di dati relativi agli oggetti di interesse ESEMPIO Esiti del tumore del Durata della sopravvivenza, occorrenza di recidive, seno qualità della vita (QoL) In associazione con caratteristiche alla diagnosi e trattamenti Popolazione obiettivo: tutte Variabili rilevate: le (possibili) pazienti - Data della diagnosi e del decesso (o ultima visita) - Data e tipo di ogni episodio di recidiva Popolazione osservata: le - Punteggi riportati nei questionari sulla QoL pazienti dell’Istituto Regina - Caratteristiche alla diagnosi: Età, stato in Elena di Roma con menopausa, stadio del tumore, abitudine fumo, etc diagnosi fatta dal Trattamenti: tipo, durata, dosi etc. 01/01/2000 al 31/12/2010 Corso di Statistica. Simona Iacobelli 3 Popolazione Considerato un fenomeno di interesse, possiamo immaginare che esista una POPOLAZIONE di individui* che, se interamente osservata, ci permette di conoscere ogni aspetto di interesse del fenomeno Essa è anche detta POPOLAZIONE OBIETTIVO Può essere una popolazione reale, potenzialmente osservabile interamente (es. «i residenti in Italia oggi»), o una popolazione ideale, fittizia, non identificabile Esempio: Interessa studiare gli effetti del virus dell’influenza stagionale Popolazione Obiettivo: tutti gli individui che sono stati già esposti al contagio, o lo saranno, tutti i pazienti che si sono ammalati, o si ammaleranno; compresi i soggetti esposti o ammalatisi in passato, e deceduti Matematicamente, rappresentiamo la Popolazione come un insieme *Gli elementi che costituiscono la popolazione sono le unità statistiche Campione Il sottoinsieme degli individui su cui andiamo effettivamente a osservare il fenomeno è detto «popolazione osservata», o CAMPIONE. Il numero n di unità nel campione è detto dimensione, o numerosità, o ampiezza, del campione La popolazione obiettivo è il vero insieme di interesse. Ma non è osservabile interamente Il campione è la parte della popolazione obiettivo che posso osservare. Affinché l’osservazione sia utile, il campione deve essere rappresentativo della popolazione – ossia, ogni fenomeno che vado a misurare nel campione deve essere «uguale» a come esso è nella popolazione Come selezionare il campione dipende dal tipo di studio, dalla fattibilità, dal budget etc. I metodi statistici per l’elaborazione dei dati dipendono a loro volta dal tipo di campionamento utilizzato. Di questi aspetti si occupano le branche della teoria dei campioni, del disegno degli esperimenti, dell’epidemiologia. In generale consideriamo il caso di estrazione casuale dalla popolazione obiettivo, dove tutti gli individui hanno la stessa probabilità di essere estratti, e l’estrazione di uno è indipendente da quali altri individui vengono estratti. Corso di Statistica. Simona Iacobelli 4 Il ruolo del Calcolo delle Probabilità Idealmente, il campione è assimilabile a un insieme di palline estratte da un’urna, dove l’urna è costituita da tutta la popolazione obiettivo. Questo ci consente di utilizzare gli strumenti di quella parte della Matematica che è il Calcolo delle Probabilità per collegare i dati osservati alla popolazione obiettivo. Nei metodi statistici affrontati in questo corso il campione è assimilabile a un insieme di individui estratti con equiprobabilità e indipendenza dalla popolazione obiettivo – come palline estratte a caso con ripetizione da un’urna (campionamento casuale semplice) La popolazione è l’urna contenente tutte le palline = tutti i possibili valori della variabile che ci interessa. Il termine CAMPIONE si riferisce alle unità estratte, e in senso esteso si riferisce anche direttamente ai valori osservati su tali unità F 54 sesso età M 71 I dati sono assimilabili a numeri estratti dall’urna di tutti i possibili valori (popolazione) Popolazione, campione: concetti e notazioni • Obiettivo: trasferire la conoscenza ricavata dal campione alla Popolazione generalizzare. Processo di Inferenza Statistica. • Il campionamento casuale semplice è una buona procedura per ottenere un campione rappresentativo. Maggiore la numerosità del campione, maggiore è la rappresentatività e la precisione delle procedure di inferenza. • Ogni oggetto di interesse viene matematicamente considerato una variabile aleatoria X, relativa alla popolazione, e il campione è un insieme di n determinazioni della variabile aleatoria X con variabilità età 22 31 54 53 38 71 54 età Corso di Statistica. Simona Iacobelli 71 Popolazione = urna. Variabile di interesse X [lettera maiuscola]. Valori incogniti. X sintetizzata da un parametro es. µ, σ, π, θ [lettere greche] Campione = n valori di X osservati: x1, x2, …, xn [lettere minuscole] Sintetizzati da un indice es.x , s, p [lettere latine] Questo indice è un numero calcolato dai valori x1, ,…, xn 5 Un insieme di dati osservati Esempio: lo studio riguarda pazienti diabetici. Questo dataset ha n=12 osservazioni (ovvero 12 unità, qui sono «pazienti») e 5 variabili (o caratteri) ovvero caratteristiche Righe unità Colonne variabili I valori assunti da una variabile sono chiamati modalità Distinguiamo variabili «quantitative» e «qualitative» patid Sesso Età Educazione Complicanze N. ricoveri 1 M 55 Università Neuropatia 0 2 F 51 Secondaria Nessuna 2 3 F 44 Università Retinopatia 2 4 M 62 Secondaria Neuropatia 3 5 M 48 Università Nessuna 0 6 F 51 Secondaria Nessuna 0 7 M 69 Primaria Retinopatia 1 8 F 58 Primaria Nessuna 0 9 F 72 Secondaria Nessuna 0 10 M 50 Secondaria Retinopatia 0 11 F 78 Primaria Altro 1 12 F 46 Secondaria Neuropatia 0 Un dataset Solitamente in un dataset per le analisi statistiche compaiono solo numeri. Le variabili quantitative (come Età e N.ro Ricoveri) hanno, per definizione, modalità numeriche. Per le variabili qualitative (come Sesso, Educazione, Complicanze) tutte le modalità vengono registrate mediante codici numerici corrispondenti alle etichette (labels). Per esempio Complicanze ha ora codici numerici 0,1,2,3 che corrispondono alle etichette: patid sesso eta edu complic ricoveri 1 1 55 3 1 0 2 2 51 2 0 2 3 2 44 3 2 2 4 1 62 2 1 3 5 1 48 3 0 0 0=Nessuna 6 2 51 2 0 0 1=Neuropatia 7 1 69 1 2 1 8 2 58 1 0 0 9 2 72 2 0 0 10 1 50 2 2 0 11 2 78 1 3 1 12 2 46 2 1 0 2=Retinopatia 3=Altro Corso di Statistica. Simona Iacobelli 6 Classificazione delle Variabili • I caratteri vengono classificati secondo la seguente terminologia, che permette di definirne la natura e il tipo di operazioni che è possibile fare sulle sue modalità, per manipolarle, confrontarle e sintetizzarle decidere quali metodi statistici usare QUALITATIVE o categoriche QUANTITATIVE SCONNESSE o nominali DISCRETE sesso M,F patologia ulcera, tumore gastrico, tumore intestinale, … numero di componenti (della famiglia) 1,2,3,4, … gravidanze precedenti 0, 1, 2, 3, … ORDINATE CONTINUE titolo di studio nessuno o licenza elementare, licenza media, licenza superiore, laurea stadio malattia I,II,III, IV peso (kg) 56.4, 78.2, … WBC (x 103/ml) 3.4, 2.8, … (in questo corso la distinzione fra discrete e continue non è particolarmente rilevante nella pratica) Tipo di variabile gerarchia Tabella riassuntiva • Il contenuto informativo della variabile, e quindi la possibilità di elaborare l’informazione, aumenta secondo questa gerarchia. Tipo di Variabile Operazioni possibili sulle modalità e sintesi statistiche* Qualitativa sconnessa Confronto: Stabilire uguaglianza o diversità (= o ≠) Manipolazione: accorpamento delle modalità Sintesi: moda Qualitativa ordinata Confronto: Stabilire relazioni di superiorità / inferiorità Manipolazione: accorpamento (mantenendo l’ordinamento) Sintesi: moda e modalità mediana (in generale, quantili) Quantitativa Confronto: Differenza o rapporto (-, /) Manipolazione: Suddivisione in classi; applicazione di operazioni matematiche (+, -, ·, /, log, …) Sintesi: (classe modale), mediana, media aritmetica, deviazione standard, coefficiente di variazione * (Menzioniamo solo qui il metodo statistico per una sintesi descrittiva univariata) Corso di Statistica. Simona Iacobelli 7 Variabili Qualitative o Categoriche • Categorica ↔ classificazione, gruppi • Le modalità corrispondono a nomi / attributi / caratteristiche descrivibili attraverso “parole” • • A volte si utilizzano codici numerici che però non corrispondono a conteggi o misurazioni, ma esprimono convenzioni Non si può applicare alcuna operazione matematica!! • SCONNESSE: non si ha un ordinamento naturale o “tipico” o stabilito per convenzione universale • è possibile solo dire se due unità sono uguali o diverse (se presentano la stessa modalità o modalità diverse) • ORDINATE: esiste un ordinamento naturale o “tipico” • è possibile stabilire relazioni di superiorità / inferiorità fra due unità; Non farsi ingannare dalle codifiche numeriche!! non ha senso calcolare delle differenze per stabilire la “distanza” fra due unità Manipolazione delle variabili qualitative Ricodifica PATOLOGIA PATOLOGIA ulcera (2) 1 - tumore gastrico tumore (1, 3) 2 - ulcera gastrica 3 - tumore intestinale PATOLOGIA gastrica (1, 2) intestinale (3) STADIO TUMORE I II STADIO TUMORE I - iniziale III II-III – progredito IV IV - terminale Corso di Statistica. Simona Iacobelli Per i caratteri qualitativi si può fare un accorpamento di modalità (che abbia senso!) Per i qualitativi sconnessi, esso può seguire vari criteri. Per un qualitativo ordinato, è necessario rispettare l’ordinamento delle modalità 8 Variabili Quantitative • Presentano modalità effettivamente numeriche, ottenute tramite conteggio o misurazione; sulle modalità è possibile eseguire operazioni matematiche; due modalità sono confrontabili mediante differenza o rapporto • DISCRETE: le modalità possono essere enumerate; vi sono valori compresi fra due modalità che NON sono a loro volta delle modalità possibili («gap» fra modalità) Numero ricoveri • Generalmente ottenute tramite conteggio 1 2 • CONTINUE: le modalità NON possono essere enumerate; assume valori in un intervallo • Generalmente ottenute tramite misurazione. Nota: ogni misurazione è soggetta ad arrotondamento, tuttavia non ci sono «gap»: ogni numero compreso fra due modalità è a sua volta una possibile modalità 56.4 56.7 Peso (kg) Una variabile discreta che assume un numero molto alto di modalità, ad es. il numero di abitanti di un comune, o l’età misurata in anni compiuti, è assimilabile a una variabile continua Manipolazione di variabili quantitative ln(WBC) WBC 2.2 0.788 3.2 1.160 1.8 0.588 2.1 0.742 Età -| 25 25 -| 45 25 < Età ≤ 45 (25, 45] 45 -| 65 65 - Corso di Statistica. Simona Iacobelli Età >65 (classe aperta) Le modalità quantitative possono essere trasformate mediante tutte le operazioni matematiche (purché abbia senso / sia utile!) Le variabili quantitative continue (o discrete con molte modalità) possono essere ridotte in CLASSI, accorpando le modalità. I limiti delle classi sono anche detti cutpoint. 9 Variabili binarie o dicotomiche • Una variabile dicotomica assume solo due possibili modalità – Es: Sesso (M/F); Diabete (No/Sì); Risposta al trattamento (No/Sì) • In generale ogni variabile dicotomica può essere vista come una variabile indicatrice della assenza o presenza di una certa caratteristica – Sesso = M/F Femmina: no/sì • La codifica numerica usuale per le variabili indicatrici è 0/1: 0=no=assenza, 1=sì=presenza • (In inglese si chiamano anche dummy variables) Variabili dicotomiche per rappresentare una variabile qualitativa • Una variabile qualitativa che assume k possibili modalità può essere rappresentata da k-1 variabili dicotomiche: – Si sceglie una modalità di riferimento, detta «baseline» – Per le altre modalità si definiscono le corrispettive variabili indicatrici • Es: Patologia (tumore gastrico, ulcera gastrica, tumore intestinale; k=3) – – – – Baseline: tumore gastrico Definiamo le due (k=3-1) indicatrici: ULCGAS =1 se Patologia=«ulcera gastrica»; =0 altrimenti TUMINT =1 se Patologia=«tumore intestinale»; =0 altrimenti PATOLOGIA ULCGAS TUMINT a - tumore gastrico 0 0 b - ulcera gastrica 1 0 c - tumore intestinale 0 1 Corso di Statistica. Simona Iacobelli L’informazione nella colonna «PATOLOGIA» è completamente riprodotta nelle 2 colonne «ULCGAS» e «TUMINT» 10 Classificazione delle variabili: esercizio X1 = tipo di trasmissione delle malattie infettive: acqua, aria, animale, contatto diretto X2 = fase biologica (vita degli insetti: uovo, larva, giovane, adulto) X3 = Body Mass Index (BMI): peso (kg)/altezza (m)^2 X4 = Classe di Body Mass Index (BMI): sottopeso, peso normale, sovrappeso, obeso X5 = Karnofsky Performance Score (più alto=migliore): 10, 20, …, 80, 90, 100 QUALITATIVE o CATEGORICHE QUANTITATIVE SCONNESSE X1 DISCRETE (X5) ORDINATE X2 X4 CONTINUE X3 X5 ! Definizioni e considerazioni relative alla classificazione delle variabili sono «triviali» ma nelle applicazioni è FONDAMENTALE come PRIMO PASSO dell’analisi statistica dei dati (o della stesura di un protocollo di ricerca) chiarire il TIPO di variabile, per poter decidere con quale metodo procedere all’analisi Statistica: elaborazione dei dati Acquisire conoscenza del fenomeno tramite osservazione richiede: - Una precisa definizione di cosa interessa (popolazione obiettivo, popolazione osservata, caratteristiche di interesse) - Scelta del campione (teoria dei campioni; disegno degli esperimenti; disegno di studi osservazionali; …) - La rilevazione e organizzazione di dati relativi agli oggetti di interesse - L’elaborazione o analisi statistica dei dati - Sintesi descrittiva della distribuzione di ciascuna variabile di interesse - Sintesi (misura) dell’associazione fra variabili - Generalizzazione dei risultati dal campione osservato alla popolazione obiettivo: inferenza statistica Corso di Statistica. Simona Iacobelli 11 Descrivere una variabile in un campione Architettura Sesso Età Scuola Media M 27 Tecnico 24.3 F 22 Classico 27.1 F 24 Classico 22.3 M 26 Tecnico 19.9 M 28 Scientifico 20.5 Le variabili di interesse sono il sesso, l’età, la scuola di provenienza, la media dei voti agli esami. Come possiamo descrivere = sintetizzare queste variabili? Biologia Sesso Consideriamo questi due piccoli campioni (n=5) di studenti di due corsi di laurea (Architettura, Biologia) Età Scuola Media M 22 Scientifico 28.3 F 22 Scientifico 28.1 F 21 Classico 25.3 F 26 Scientifico 24.1 F 23 Scientifico 27.7 I due campioni hanno le stesse caratteristiche? Descrivere una variabile in un campione Architettura Sesso Valutazione «qualitativa»: Età Scuola Media M 27 Tecnico 24.3 F 22 Classico 27.1 F 24 Classico 22.3 M 26 Tecnico 19.9 M 28 Scientifico 20.5 Biologia Sesso Età Scuola Media M 22 Scientifico 28.3 F 22 Scientifico 28.1 F 21 Classico 25.3 F 26 Scientifico 24.1 F 23 Scientifico 27.7 Corso di Statistica. Simona Iacobelli … A Biologia c’è una forte prevalenza di Femmine. A Biologia ci sono più Femmine che ad Architettura. A B. ci sono più studenti di Scientifico che di Classico. Non ci sono Tecnici. Ad A. c’è più variabilità di tipo di Scuola. A B. sono più giovani e più bravi che ad A (hanno media più alta) Dobbiamo essere in grado di fare una valutazione quantitativa, e fornire misure «oggettive» 12 Descrivere una variabile in un campione SESSO Il solo elenco delle possibili modalità di una variabile non è sufficiente a conoscere come essa si presenta nel campione! PATOLOGIA M 1 - tumore gastrico F 2 - ulcera gastrica 3 - tumore intestinale Età WBC -| 25 2.2 25 -| 45 3.2 45 -| 65 65 - Descrivere una variabile osservata vuol dire fornire la sua distribuzione: una indicazione di «quanto» ogni singola modalità è presente nel campione Mentre per i caratteri qualitativi (o quantitativi in classi) la soluzione è intuitiva e basilare (conteggi, frequenze) per i caratteri quantitativi continui introdurremo degli strumenti statistici più specifici 1.8 2.1 Distribuzioni di frequenza Distribuzione degli studenti immatricolati dell’università xxx rispetto alla FACOLTA’ Facoltà f n (carattere qualitativo non ordinato) p (%) Medicina 454 0.244 24.4 Scienze 1227 0.659 65.9 Lettere 153 0.082 8.2 27 0.015 1.5 1861 1.000 100.0 Ingegneria freq. assoluta freq relativa freq percentuale (%) L’operazione intuitiva per descrivere la presenza di una modalità nel campione è il conteggio, che ci porta alle frequenze assolute. Le freq. relative e percentuali esprimono la frequenza in termini relativi, rispettivamente su un totale pari a 1 e a 100 Corso di Statistica. Simona Iacobelli 13 Percentuali Distribuzione degli studenti immatricolati dell’università xxx rispetto alla FACOLTA’ Facoltà f n p (%) Medicina 454 0.244 Scienze 1227 0.659 65.9 Lettere 153 0.082 8.2 27 0.015 1.5 1861 1.000 100.0 Ingegneria freq. assoluta 24.4 freq relativa freq percentuale (%) es. per la seconda modalità: 1227 100 0.659 100 65.9 1861 1227 : 1861 65.9 : 100 Numerosità totale del campione Queste quantità esprimono lo stesso rapporto della parte al tutto (frazione): E’ il concetto di proporzione (lo stesso vale per la freq relativa, che esprime la proporzione rispetto al totale =1) totale =100 Grafici di frequenze Distribuzione degli studenti immatricolati dell’università xxx rispetto alla FACOLTA’ Facoltà n 454 24.4 Scienze 1227 65.9 Lettere 153 8.2 Ingegneria % (o freq. ass. Vd. oltre) p (%) Medicina 27 1.5 1861 100.0 100.0% 90.0% 80.0% 70.0% 60.0% 50.0% 40.0% 30.0% 20.0% 10.0% 0.0% % Medicina Scienze Lettere Grafico a colonne Corso di Statistica. Simona Iacobelli Ingegneria Grafico «a torta» (aerogramma circolare) 14 Importanza delle misure relative Compariamo graficamente la distribuzione degli studenti per facoltà in due università (o in due campioni diversi): le percentuali eliminano l’influenza della numerosità campionaria, rendendo le frequenze comparabili Facoltà n n Medicina 454 32 Scienze 1227 24 Lettere 153 22 27 12 1861 90 Ingegneria Questo grafico, pur corretto, è scarsamente informativo. Il problema è che la numerosità dei due campioni è diversa. Per eliminare l’influenza delle diverse numerosità dobbiamo usare le frequenze percentuali Importanza delle misure relative Compariamo la distribuzione degli studenti per facoltà in due università (o in due campioni diversi): le percentuali eliminano l’influenza della numerosità campionaria, rendendo le frequenze comparabili Facoltà n p (%) p (%) n Medicina 454 24.4 32 35.6 Scienze 1227 65.9 24 26.7 Lettere 153 8.2 22 24.4 27 1.5 12 1861 100.0 90 13.3 100.0 Ingegneria (Già con questo semplice esempio di report statistico incontriamo un principio generale: i confronti devono essere fatti «a parità» di elementi influenti …) Corso di Statistica. Simona Iacobelli 15 Grafici errati o fuorvianti 70.0% 60.0% 50.0% 40.0% 30.0% 20.0% 10.0% 0.0% Medicina Scienze Lettere Ingegneria Questi due grafici non sono «errati», ma possono essere fuorvianti, ad esempio inducono a sovrastimare l’importanza della modalità «Scienze» rispetto alle altre modalità (Correggere il primo: asse da 0% a 100%. Evitare il secondo preferendo la torta bidimensionale: usare il volume non aggiunge informazione, anzi evidenzia alcune modalità e schiaccia le altre) Il grafico «a linee» è in questo contesto errato, perché la variabile è qualitativa e sconnessa. E’ invece un grafico molto utile per descrivere tendenze rispetto a variabili che scandiscono il tempo, o comunque un indicatore quantitativo (continuo). QUALE MODALITA’ RAPPRESENTA BENE TUTTA LA DISTRIBUZIONE? Un primo indice sintetico: la Moda Distribuzione degli studenti immatricolati dell’università xxx rispetto alla FACOLTA’ Facoltà Moda n p (%) Medicina 454 24.4 Scienze 1227 65.9 Lettere 153 8.2 Ingegneria 27 1.5 1861 100.0 Moda: modalità con la maggiore frequenza. E’ la migliore sintesi della distribuzione di una variabile categorica non ordinata. Possiamo dire che lo studente «tipico» è iscritto a Scienze. 100.0% 80.0% 60.0% 40.0% 20.0% 0.0% Medicina Scienze Moda Corso di Statistica. Simona Iacobelli Lettere Ingegneria Moda Comunque la Moda è tanto più rappresentativa della distribuzione quanto più la sua freq. rel. Si avvicina a 1 16 Frequenze cumulate Distribuzione dei partecipanti a un sondaggio rispetto al TITOLO DI STUDIO Titolo di Studio Lic. Elementare Lic. Media Inferiore n p (%) (carattere qualitativo ordinato) N P (%) 142 8.0 142 8.0 605 33.9 747 41.9 Lic. Media Superiore 832 46.7 1579 88.6 Laurea o oltre 204 11.4 1783 100.0 1783 100.0 freq. cumulate assolute percentuali Le frequenze cumulate sono i totali parziali delle frequenze; possono essere assolute, relative o percentuali. Ad es. l’ultima colonna ci permette di dire rapidamente che «il 42% dei partecipanti ha al massimo la licenza media inferiore»; e pertanto il 58% ha più di «media inferiore»; «l’89% ha al massimo la licenza superiore», etc. Le frequenze cumulate hanno senso solo per variabili almeno ordinate. Sono utili in particolare per individuare la mediana e altri i quantili della distribuzione (vd. oltre) Descrizione di variabili quantitative discrete Distribuzione dei partecipanti a un sondaggio rispetto al Numero di Figli Moda Numero figli n p N P 0 776 43.5% 776 43.5% 1 602 33.8% 1378 77.3% 2 228 12.8% 1606 90.1% 177 9.9% 1783 100.0% 1783 100.0% 3 (carattere discreto) Una variabile quantitativa discreta con poche modalità può essere descritta da una tabella di frequenze come una qualitativa ordinata; tuttavia è possibile calcolare indici sintetici più esaustivi della Moda. Una variabile quantitativa discreta con molte modalità è assimilabile a una continua. Corso di Statistica. Simona Iacobelli 17 Variabili quantitative discrete ~ continue Distribuzione dei pazienti di uno studio rispetto all’ANNO di calendario del trapianto ricevuto n 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 Total 14 24 30 35 66 67 97 108 90 101 99 126 123 166 p 1,2 2,1 2,6 3,1 5,8 5,8 8,5 9,4 7,9 8,8 8,6 11,0 10,7 14,5 1146 100,0 P 1,2 3,3 5,9 9,0 14,7 20,6 29,1 38,5 46,3 55,1 63,8 74,8 85,5 100,0 Distribuzione in classi. Ovvero: Distribuzione della variabile PERIODO 1997-2004 2005-2008 2009-2010 Total n 150 183 149 482 p P 31,1 38,0 30,9 100,0 31,1 69,1 100,0 Nota: Più precisamente la notazione per le classi dovrebbe essere in continuo: 1996 -| 2004 2004 -| 2008 2008 -| 2010 Qui la notazione, seppure non precisa, è facilmente comprensibile - poiché non esistono modalità intermedie, es. 2004.3 non esiste - e quindi possiamo essere più flessibili Descrizione di variabili quantitative continue Distribuzione di 56 pazienti pediatrici per ETA’ Età freq. % Cum (carattere continuo) % Cum 0 -| 2 14 25 14 25 2 -| 5 24 43 38 68 5 -| 12 14 25 52 93 12 -| 18 4 7 56 100 56 100 Per queste variabili è possibile definire delle classi, e quindi trattarle come le variabili ordinate, descrivendo la distribuzione in classi cioè le frequenze (con % e cumulate) della tabella. Tuttavia la descrizione grafica richiede uno strumento apposito (istogramma). La classe modale = classe con la maggiore frequenza soffre dell’arbitrarietà delle classi scelte e non è sufficiente a descrivere la distribuzione – vedere oltre gli indici sintetici di posizione e variabilità. Corso di Statistica. Simona Iacobelli 18 Necessità di una rappresentazione grafica specifica per variabili continue Distribuzione di 56 pazienti pediatrici per età Età freq. % 0 -| 2 14 25 2 -| 5 24 43 5 -| 12 14 25 12 -| 18 4 7 56 100 La semplice rappresentazione delle frequenze percentuali delle classi fornisce una rappresentazione distorta del fenomeno se le classi non hanno la stessa ampiezza; inoltre è affetta dall’arbitrarietà della scelta delle classi Rappresentazione tramite grafico a colonne. 50 43 45 40 35 30 25 25 Le classi 0-|2 e 5-|12 hanno la stessa frequenza, e quindi vengono rappresentate come aventi la stessa importanza. 25 20 15 7 10 5 0 0 -| 2 2 -| 5 5 -| 12 12 -| 18 Supponiamo ora di scegliere le classi diversamente Necessità di una rappresentazione grafica specifica per variabili continue Distribuzione di 56 pazienti pediatrici per età Età freq. % Età 0 -| 2 14 25 2 -| 5 24 5 -| 12 12 -| 18 freq. 14 25 43 2 -| 5 24 43 14 25 5 -| 7 4 7 4 7 7 -| 12 10 18 56 100 12 -| 18 4 7 56 43 0.4 40 0.35 35 30 25 100 43% 0.45 50 45 % 0 -| 2 0.3 25 25 0.25 25% 18% 0.2 20 0.15 15 7 10 0.1 5 0.05 0 0 0 -| 2 2 -| 5 5 -| 12 12 -| 18 7% 0 -| 2 2 -| 5 5 -| 7 7% 7-|12 12 -| 18 Avendo scelto di suddividere l’intervallo 5-|12 in due classi, la distribuzione sembra molto diversa, le modalità comprese fra 5 e 7 anni sembrano avere meno importanza del range 0-|2 Corso di Statistica. Simona Iacobelli 19 La densità di frequenza Età freq. % 0 -| 2 14 25.0 2 -| 5 24 42.9 5 -| 12 14 25.0 12 -| 18 4 7.1 56 100 La stessa frequenza (14 unità) della prima e della terza classe viene “spalmata” su intervalli di ampiezza diversa, rispettivamente di 2 anni (2-0) e di 7 anni (12-5); Immaginando di passare a intervallini di età di ampiezza 1 (0-1 anno; 1-2 anni; 2-3 anni; etc) si avrebbero: • dalla classe 0-|2, 14 casi spalmati su 2 anni circa 14 / 2 = 7 casi per ciascun intervallino • dalla classe 5-|12, 14 casi spalmati su 7 anni circa 14 / 7 = 2 casi per ciascun intervallino La frequenza va rapportata all’ampiezza della classe, ottenendo la densità di frequenza, un valore che rappresenta quante unità sono presenti in ogni intervallino di ampiezza 1 frequenza ampiezza frequenza ampiezza densità densità Istogramma, o grafico della densità Distribuzione di 56 pazienti pediatrici per ETA’ Età freq. % (carattere continuo) ampiezza densità 0 -| 2 14 25 2–0=2 14 / 2 = 7.0 2 -| 5 24 43 5 -| 12 14 25 5–2=3 12 – 5 = 7 24 / 3 = 8.0 14 / 7 = 2.0 4 7 18 – 12 = 6 4 / 6 = 0.7 56 100 12 -| 18 AREA di un rettangolo = FREQUENZA della classe corrispondente 14 0 2 5 frequenza ampiezza GRAFICI 24 14 DENSITA’ = base x altezza 4 12 18 Età Istogramma Corso di Statistica. Simona Iacobelli 20 Curve teoriche di densità Se immaginiamo di fare un istogramma con intervallini piccolissimi, e di unire i punti medi del lato superiore delle colonne, otteniamo un grafico dato da una curva continua. La matematica fornisce equazioni di curve continue che possono essere interpretate come curve di densità teoriche, corrispondenti a distribuzioni “ideali” di fenomeni quantitativi di interesse X (es. la curva Normale). FREQUENZA attesa dei valori di X compresi fra aeb f(x) = AREA sotto la curva delimitata da a e b 0 2 5 a b 12 b f ( x) dx a 18 Varie forme della distribuzione Distribuzioni SIMMETRICHE: la massa di densità si dispone in parti “uguali” rispetto ad un immaginario asse (“di simmetria”) La forma “a campana” è tipica di fenomeni che possano essere ricondotti agli effetti “del caso”, come l’altezza degli individui La distribuzione ASIMMETRICA a destra è tipica di molti fenomeni biologici, ad es. per i caratteri a valori positivi che possono assumere valori molto alti, ma non molto bassi, come il peso corporeo, il valore dei WBC, etc Corso di Statistica. Simona Iacobelli Distribuzione BIMODALE, cioè con la densità concentrata in due masse. Spesso è indice fenomeno che è diverso in due sotto-popolazioni, es: altezza delle Femmine e dei Maschi Nella distribuzione Asimmetrica a sinistra, rispetto a un ipotetico asse di simmetria, vi è una massa di densità nella coda sinistra, su valori bassi 21 Indici sintetici per descrivere la forma della distribuzione A Distribuzione dell’ETA’ ALLA DIAGNOSI in 3 popolazioni diverse (es: pazienti affetti da 3 diverse malattie) Tabelle e grafici di frequenza forniscono una rappresentazione completa dei dati. 15 25 35 45 55 65 75 85 95 Gli indici statistici servono a fornire delle sintesi di alcuni aspetti delle distribuzioni. B I due aspetti essenziali sono: 15 25 35 45 55 65 75 85 95 C 15 25 35 45 55 65 75 85 95 La posizione del carattere sull’asse, eventualmente indicando un valore che sia rappresentativo di tutti gli altri La variabilità del carattere, ossia se le osservazioni sono omogenee, simili fra loro, oppure tendono a essere eterogenee, disperse [anche: indice di errore nella misura] Indici per descrivere la forma della distribuzione Schema riassuntivo Descrizione Tendenza Centrale o Posizione Media Aritmetica Mediana Moda Quantili Variabilità Forma Intervallo (Range) Asimmetria (Skewness) Intervallo Interquartilico Varianza Deviazione Standard Coefficiente di Variazione Corso di Statistica. Simona Iacobelli 22 QUALE MODALITA’ RAPPRESENTA BENE TUTTA LA DISTRIBUZIONE? La media aritmetica Esistono vari tipi di medie (aritmetica, geometrica, armonica, quadratica, etc) che forniscono sintesi della posizione. La media aritmetica è solitamente la più adeguata fra le medie. La media, sostituita a ciascuna osservazione, ricostituisce la somma totale delle modalità La media è l’ammontare totale del carattere (somma di tutte le osservazioni) ripartito in parti uguali Voto x x x1 x2 xn n x i n x i nx 26 24 18 24 28 24 72 72 Media = 72 / 3 = 24 Pratica Media di una variabile quantitativa discreta da una tabella di frequenze ! Campione di 8 individui, distribuzione del Numero di Figli: Non confondere modalità (Figli) e frequenze! Figli (xi) freq. (ni) 0 4 0 1 3 3 2 1 2 8 5 tot xi ni Totale Numero di figli = (0+0+0+0)+(1+1+1)+(2) = 0·4 + 1 ·3 + 2 ·1 Le unità sono n=8, mentre le modalità sono 3. Occorre ricostruire l’ammontare totale del carattere, e poi dividerlo numero di unità L’ammontare del carattere corrispondente ad ogni modalità è dato dal prodotto modalità ∙ frequenza Media = 5 / 8 = 0.6 k x n j x Corso di Statistica. Simona Iacobelli j 1 n j k j 1 xj nj n k x j fj j 1 23 Pratica Media di una variabile quantitativa continua, dati raggruppati in classi Es: Peso corporeo per un campione di 64 atlete peso (kg) xi freq. (ni) -| 50 4 45 180 50 -| 60 17 55 935 60 -| 70 24 65 1560 70 -| 80 11 75 825 8 85 680 80 - ! xi ni 64 4180 Il principio è sempre quello di ricostituire l’ammontare totale del carattere, e dividerlo per il numero di unità. Il problema è che le modalità sono intervalli di valori del carattere. Soluzione: assegnare a ciascuna classe un valore rappresentativo – solitamente, il valore centrale xj Media = 4180 / 64 = 65.3 l j 1 l j 2 Per le classi aperte si sceglie un valore rappresentativo “plausibile”; la stima della media può cambiare per scelte diverse Media di due (o più) gruppi Pratica Un articolo riporta che il valore medio del colesterolo in un gruppo di 40 uomini è pari a 198 mg/dl, mentre in un gruppo di 16 donne è di 190 mg/dl. Quanto vale la media nella popolazione totale?? x x n M 198 40 198×40=7920 F 190 16 190×16=3040 56 10960 ! tot i nx Seguendo la logica, deriviamo il concetto di MEDIA PONDERATA In questo caso i pesi sono le numerosità dei due gruppi, ma il concetto può essere generalizzato x n1 x1 n2 x2 n1 n2 xP x1 p1 x2 p2 xn pn p1 p2 pn media ≠ (198+190)/2=194 Procedere secondo la regola generale: dividere l’ammontare totale per l’ampiezza campionaria media = 10960 / 56 = 195.7 Corso di Statistica. Simona Iacobelli x x x i i x tutti n gr1 i gr 2 n1 n2 24 SOTTO QUALE ASPETTO LA MEDIA ARITMETICA RAPPRESENTA BENE TUTTA LA DISTRIBUZIONE? Proprietà della media aritmetica min max − >0 − <0 X x - È inclusa nel range, cioè nell’intervallo fra il minimo e il massimo valore osservato min( xi ) x max( xi ) − ̅ Considerate le distanze fra ciascun valore osservato e la media aritmetica (“scarti” o “errori”): - Sono bilanciate nel senso che la somma degli scarti negativi è pari alla somma degli n scarti positivi, ovvero la somma di tutti gli scarti è nulla: x x 0 i 1 i - La distanza euclidea totale dei valori osservati dalla media aritmetica, che è data dalla somma dei quadrati degli scarti, è la minima possibile (ossia è minore che da qualunque altro punto di riferimento C) : n n x x 2 i 1 i any x C 2 i 1 i Limitazioni della media aritmetica – + x X x Dovendo BILANCIARE scarti positivi e negativi, e collocarsi nel centro rispetto ai valori osservati, la media è influenzata dai valori molto alti e dai valori molto bassi Se questi si spostano ancora più verso “l’esterno”, la media li segue: è attratta dai VALORI ESTREMI La media aritmetica è una sintesi insoddisfacente della distribuzione: – Quando si hanno uno o più valori estremi molto anomali – Quando la distribuzione è asimmetrica x Corso di Statistica. Simona Iacobelli 25 Indici di posizione basati sulle frequenze Quando la distribuzione è simmetrica ma media aritmetica si colloca al centro, quindi è un corretto valore rappresentativo della posizione (Nel caso della distribuzione bi- o pluri-modale pur essendo un valido valore centrale, sarà poco rappresentativo della distribuzione) Quando la distribuzione è asimmetrica la media aritmetica si colloca lontana da buona parte delle osservazioni, spostata nella direzione della coda. Non è quindi un buon indice di posizione. Un buon indice deve tenere conto che una grande massa di frequenza è collocata sui valori più bassi. Possiamo considerare un buon indice il valore tale che ripartisce in due metà la massa di frequenza: definiamo così la mediana QUALE MODALITA’ RAPPRESENTA BENE TUTTA LA DISTRIBUZIONE? La mediana: introduzione Distribuzione di 56 pazienti pediatrici per ETA’ Età freq. 0 -| 2 14 25 2 -| 5 24 43 5 -| 12 14 25 12 -| 18 Media: modalità che corrisponde all’ammontare totale ripartito in parti uguali fra le unità % 4 7 56 100 x 4 .9 x x n i mediana 3.75 Mediana: modalità che separa le unità in due gruppi di uguale numerosità, il 50% presenta un valore inferiore della mediana, l’altro 50% presenta un valore superiore Il 50% delle osservazioni è minore della mediana, e il 50% è maggiore Proprietà: n n xi x any i 1 0 2 mediana Corso di Statistica. Simona Iacobelli 5 12 x C i i 1 18 Età media 26 La mediana di n osservazioni Ordiniamo in senso crescente le osservazioni, attribuendogli la posizione in graduatoria (rango) La mediana è la modalità che occupa il rango centrale Esempio: In un campione di 13 soggetti viene osservato il carattere Altezza (cm): 173 155 162 165 167 175 171 169 164 178 156 158 166 155 156 158 162 164 165 166 167 169 2 1 3 4 5 6 7 8 9 6 osservazioni (50%) 171 173 175 10 11 178 12 6 osservazioni (50%) 13 osservazioni ordinate rango mediana = 166 Esempio: n=6 osservazioni della variabile Body Weight, già ordinate: 55 61 68 72 84 91 3 oss (50%) 3 oss (50%) Poichè n=6 è pari, consideriamo il 3° e 4° valore, e siccome non coincidono ne prendiamo il valore medio: la mediana è = 70 La mediana: regola generale Ordiniamo in senso crescente le osservazioni, attribuendogli la posizione in graduatoria (rango): Notazione: x(1) indica il primo valore in ordine di grandezza, ossia il minimo osservato, x(2) è il secondo nella lista ordinata, etc. x(n) è il massimo osservato x(1) x(2) …. x(n-1) x(n) La mediana è la modalità che occupa il rango centrale Se n è dispari, il rango centrale è pari a n 1 dunque la mediana è il valore 2 Se n è pari, i ranghi centrali sono pari a fra i due valori x n x n 2 Corso di Statistica. Simona Iacobelli x n 1 2 n n ; 1 dunque la mediana è la media 2 2 1 2 27 SOTTO QUALE ASPETTO LA MEDIANA RAPPRESENTA BENE TUTTA LA DISTRIBUZIONE? Robustezza della mediana La mediana è centrale rispetto ai ranghi, non rispetto ai valori. Questo la rende robusta cioè poco sensibile rispetto alla presenza dei alcuni valori molto estremi, e quindi ben rappresentativa di distribuzioni asimmetriche Osserviamo ad esempio cosa accade agli indici di posizione del campione dell’età di 13 soggetti quando i due valori più alti vengono sostituiti da due valori ancora più alti: x 166.1 173 155 162 165 167 175 171 169 164 178 156 158 166 x 169.6 210 189 155 156 158 162 164 165 166 167 169 1 2 3 4 5 6 7 8 6 osservazioni (50%) 9 171 173 189 10 11 210 12 13 6 osservazioni (50%) mediana = 166 La mediana non cambia poiché l’ordinamento delle prime 11 osservazioni non cambia (invece la media cambia perché l’ammontare totale cambia) Pratica Mediana di una distribuzione di frequenze di una variabile quantitativa discreta Distributione del Numero di parti precedenti in un campione di n=8 donne ni Parti Ni 0 6 6 1 5 11 2 3 14 3 3 17 4 1 18 tot 18 n/2=9 la 9a unità presenta la modalità “1” Infatti le prime 6 donne presentano la modalità “0”, con “0” non raggiugiamo la metà delle unità del campione. Includendo le 5 modalità pari a “1” raggiugiamo una frequenza cumulata pari a 11, e quindi abbiamo incluso la 9a modalità; essa è anche la 10a Mediana =1 Corso di Statistica. Simona Iacobelli La mediana è la modalità di rango tra n/2 e n/2+1 (qui n è pari). Per individuarla rapidamente calcoliamo le frequenze cumulate. ! Come al solito vi potrebbe essere confusione fra le frequenze (6; 5; 3 etc) e le modalità (0, 1, 2 etc). La mediana è una delle modalità 28 Pratica Mediana di una distribuzione di frequenze di una variabile quantitativa continua in classi Possiamo rapidamente individuare la classe che contiene la mediana usando le frequenze cumulate percentuali. Distribuzione dell’Età di 56 pazienti pediatrici Age freq. p (%) cum. P (%) 0 -| 2 14 25 14 25 2 -| 5 24 43 38 68 5 -| 12 12 21 50 89 12 -| 18 6 11 56 100 56 100 Con la seguente formula basata su una approssimazione individuiamo un valore esatto per la mediana: mediana N /2C L1 ( L 2 L1) F Il 50% della frequenza cumulata viene raggiunto in corrispondenza della seconda classe. Dunque la classe 2-|5 è la classe mediana. dove la classe mediana è (L1, L2) e ha frequenza F, mentre alla classe precedente corrispondeva una frequenza cumulata pari a C (in questa formula si usano le freq. assolute) La mediana può essere calcolata come: 56 − 14 2+ 2 · 5 − 2 = 3.75 24 Spiegazione della formula Pratica Mediana di una distribuzione di frequenze di una variabile quantitativa continua in classi Distribuzione dell’Età di 56 pazienti pediatrici Age freq. p (%) cum. P (%) 0 -| 2 14 25 14 25 2 -| 5 24 43 38 68 5 -| 12 12 21 50 89 6 11 56 100 56 100 12 -| 18 Frequenza totale fra L1 e L2: F = 24 Frequenza totale fra L1 e M: − La classe mediana è 2-|5. La mediana M viene determinate in base alla densità: M rispetta la proporzione fra frequenza e lunghezza dell’intervallo: − : M=L1 + − 1 = : · Corso di Statistica. Simona Iacobelli L1 2 M = − 14 L2 5 2− 1 ↔ 2− 1 M=2 + · 5 − 2 = 3.75 29 Pratica Modalità mediana della distribuzione di una variabile qualitativa ordinata Distribuzione dei partecipanti a un sondaggio rispetto al TITOLO DI STUDIO Titolo di Studio n p (%) N ! P (%) Lic. Elementare 142 8.0 Lic. Media Inferiore 605 33.9 747 41.9 Lic. Media Superiore 832 46.7 1579 88.6 Laurea o oltre 204 11.4 1783 100.0 1783 100.0 142 8.0 Il concetto di modalità mediana è applicabile anche a variabili qualitative purchè ordinate. Si procede come per il caso di una variabile continua in classi, cioè guardando alle frequenze cumulate. La modalità mediana è “Media Superiore”. Se la variabile non è ordinata non ha senso individuare la mediana: l’ordine delle classi è arbitrario! (rivedere ad es. la tabella di frequenze della variabile Facoltà per gli studenti iscritti all’università xxx) Generalizzazione della mediana: i quartili • • • La mediana separa la distribuzione in due parti, ognuna comprendente il 50% delle osservazioni Possiamo utilizzare lo stesso concetto considerando altre frazioni percentuali, defiinendo così altri quantili Dividendo in 4 parti, individuiamo i QUARTILI : essi separano porzioni della massa di frequenze pari a 25% – Il 10 quartile (Q1) separa il primo 25% dal restante 75% – Il 2° quartile coincide con la mediana – Il 30 quartile (Q3) separa il primo 75% dal restante 25% Il 75% delle osservazioni è minore di Q3 Il 25% delle osservazioni è minore di Q1 Q1 è posizionato a delimitare una area =0.25 sotto la coda sinistra Corso di Statistica. Simona Iacobelli Q1 mediana x Q3 è posizionato a delimitare una area =0.25 sotto la coda destra 30 Generalizzazione della mediana: i quantili • Consideriamo vari percentili utili. Ad esempio l’intervallo fra il 5° e il 95° percentile individua un range che esclude solo il 10% dei valori più estremi – Il 5° percentile P5 è tale che solo il 5% ha un valore inferiore a esso – Il 95° percentile P95 è tale che solo il 5% ha un valore superiore a esso – Un modo per eliminare l’influenza delle osservazioni estreme sulla media aritmetica è di eliminare una certa percentuale di valori estremi e ricalcolarla (alpha-trimmed average) Terminologia: • Considerando porzioni pari a 1/3 = 33.33% definiamo i terzili – Il 1° terzile (ovvero P33) separa il 33.33% dei valori più bassi dal restante 66.67%; il 2° terzile si colloca in corrispondenza del 66.67% dei valori • Definiamo analogamente i decili (Il 1° decile separa il primo 10% dal restante 90%, è cioè P10, etc) Pratica Interpretazione dei quantili Es: Per l’età di 70 studenti di un corso di statistica, sappiamo che: Quartili: Mediana (Q2) =20.5 Q1=20.1 Q3=22 P10 (decimo percentile, e anche primo decile) =18.5 P66 (66-mo percentile, e anche secondo terzile)=21.7 - metà studenti avevano meno di 20.5 anni, e metà studenti più di 20.5 anni - Uno su 4 (25%) aveva meno di 20.1 anni, 1 su 10 meno di 18.5 anni - Uno su 4 (25%) aveva più di 22 anni. Ovvero ¾ avevano al massimo 22 anni - Uno su 3 (33%) aveva più di 21.7 anni. Ovvero 2/3 avevano al massimo 21.7 anni - e per differenza, ad es.: - uno su 4 avevano un’età compresa fra 20.1 e 20.5 - il 15% aveva un’età compresa fra 18.5 e 20.1 - etc Corso di Statistica. Simona Iacobelli 31 Boxplot: un grafico per distribuzioni continue basato sui quartili (Qui l’asse per i valori della variabile è in verticale, ma può essere in orizzontale) 7070,00 25% Q3 mediana 25% 6060,00 Età 25% Q1 25% 5050,00 4 40 40,00 2 eta outlier La «scatola» (box) è un rettangolo delimitato dal primo e terzo quartile Q1 e Q3. All’interno della scatola, la linea più spessa è collocata in corrispondenza della mediana. Quando essa è all’incirca al centro del rettangolo, la distribuzione è simmetrica. Viceversa, ci indica il tipo di asimmetria. Le linee esterne («whiskers») sono disegnate a rappresentare la variabilità, ma non vi è consenso sul come: a volte in base alla deviazione standard (vd oltre), a volte congiungendo il minimo e il massimo, etc. Solitamente i valori fortemente estremi («outliers») sono rappresentati come punti isolati. Boxplot: un grafico per distribuzioni continue basato sui quartili Distribuzione asimmetrica a sin Q1 Q2 Q3 Corso di Statistica. Simona Iacobelli Distribuzione simmetrica Q1 Q2 Q3 Distribuzione asimmetrica a ds Q1 Q2 Q3 32 QUALE MODALITA’ RAPPRESENTA BENE TUTTA LA DISTRIBUZIONE? Appropriatezza degli indici di posizione La media è una sintesi soddisfacente, tende a coincidere con la mediana, e con la moda x Moda, mediana x Mediana Moda E’ opportuno rimarcare la bimodalità: ne’ media ne’ mediana sono sintesi soddisfacenti La mediana è preferibile alla media Moda, mediana Moda x Variabilità Distribuzioni dell’Età osservate in tre diversi campioni Queste tre distribuzioni sono sostanzialmente simmetriche e si eguagliano rispetto alla posizione centrale, rappresentata dalla media (≈mediana); esse sono però chiaramente diverse fra loro. L’aspetto che le differenzia è la variabilità. Età 15 25 35 45 55 25 35 45 55 25 35 x Corso di Statistica. Simona Iacobelli 45 55 La prima presenta una grande massa di frequenza concentrata sui valori centrali, e piccole masse nelle code (sui valori più bassi e sui valori più alti): molti valori sono simili al valore centrale. 65 La seconda ha anch’essa una forma sostanzialmente a campana, ma è più piatta, presenta frequenze non trascurabili su valori molto bassi e molto alti, anche al di fuori del range della prima distribuzione. Molti valori sono diversi dal valore centrale. Nella terza distribuzione la maggior parte dei valori è diversa dal valore centrale. 33 COME POSSIAMO MISURARE LA VARIABILITA’ DELLA DISTRIBUZIONE? Indici di variabilità basati su intervalli Range = Massimo - Minimo Il range può indicare «troppa» variabilità, quando vi siano pochi valori molto estremi (outliers) Età 25 35 45 55 (ad esempio, se nel primo campione fosse presente anche un individuo di età =70, il range fornirebbe una misura molto sovrastimata della variabilità) Inoltre, non distingue per esempio la prima dalla terza distribuzione 15 25 35 45 55 65 Intervallo Interquartilico = Q3-Q1 Questo intervallo è più robusto del range. E’ informativo soprattutto quando conosciamo anche la mediana, che è un valore centrale rispetto a Q1 e Q3. 25 35 x 45 Tuttavia, soprattutto con distribuzioni simmetriche, è naturale pensare alla variabilità con riferimento alle distanze dalla media aritmetica 55 COME POSSIAMO MISURARE LA VARIABILITA’ DELLA DISTRIBUZIONE? Indici di variabilità basati sugli scarti Nel caso delle distribuzioni simmetriche una misura più efficace della variabilità può essere basata sulle distanze fra i valori osservati e la loro media aritmetica, gli «scarti» o «errori» xi x Età 25 35 45 55 Abbiamo visto che è proprietà della media che somma(scarti)=0, dunque non possiamo farne una media aritmetica (verrebbe =0 per costruzione). Ne facciamo una sorta di media quadratica, ottenendo la deviazione standard: 15 25 35 45 55 65 n x x i std 25 35 x Corso di Statistica. Simona Iacobelli 45 2 i 1 n 1 55 34 Indici di variabilità basati sugli scarti n x x 2 i std i 1 n 1 La deviazione standard rappresenta la distanza media delle osservazioni dalla loro media. COME POSSO SINTETIZZARE L’ERRORE COMMESSO USANDO LA MEDIA PER RAPPRESENTARE TUTTA LA DISTRIBUZIONE? Funge da valore di riferimento per valutare la rilevanza della distanza fra due osservazioni. n x x 2 i var i 1 n 1 std var var std 2 Assume un’importanza fondamentale nelle distribuzioni a campana (vd. Distribuzione Normale). La quantità sotto la radice quadrata è già di per sé un indice di variabilità, detto varianza. E’ meno utile in ambito descrittivo poiché la sua unità di misura e l’ordine di grandezza non sono quelli della variabile X. E’ un indice importante in statistica inferenziale, nei modelli statistici, etc. Un altro indice di variabilità è il coefficiente di variazione, che è un indice relativo Coefficiente di variazione • • Il CV è una misura relativa di variabilità: esprime la variabilità in proporzione alla dimensione media del carattere; inoltre, è un numero senza unità di misura è quindi una misura adatta a confrontare la variabilità fra popolazioni diverse, o fra caratteri diversi Rapporto fra deviazione std standard e media aritmetica CV 100 (espresso in %) x X = peso neonato: media = 3.2 kg, std = 0.5 kg Y = peso madre: media = 60 kg, std = 4.5 kg Z = altezza neonato: media = 51 cm, std = 2.5 cm Il peso è più variabile nei neonati o nelle madri? I neonati sono più variabili rispetto al peso o all’altezza? X : CV = (0.5 kg / 3.2 kg)∙100 = 15.6 Y : CV = (4.5 kg / 60 kg) = 7.5 Z : CV = (2.5 cm / 51 cm) = 4.9 I neonati sono più variabili rispetto al peso che all’altezza (circa tre volte tanto) e in termini di peso sono variabili il doppio delle madri Corso di Statistica. Simona Iacobelli 35 Pratica Calcolo della deviazione standard Età per un campione di 7 individui xi-m ETA’ xi (xi-m)2 9.29 65 35 -20.71 429.08 44 -11.71 137.22 43 -12.71 161.65 71 15.29 233.65 63 7.29 53.08 69 13.29 176.51 0 1277.429 media m=55.7 Ad esempio alla seconda riga: (35-55.7) = -20.71 ; (-20.71)2 = 429.08 Varianza = 1277.429 / 6 = 212.9048 std = √212.9048 = 14.59126 ! 86.22 n Attenzione a svolgere le operazioni in ordine: x x 2 i i 1 Prima si calcolano gli scarti, xi – media; n 1 Poi ogni scarto viene elevato al quadrato; Poi si sommano i quadrati; I calcoli vengono riportati qui con arrotondamento, ma i risultati finali sono basati con più cifre decimali – per questo abbiamo piccole, apparenti discrepanze Si divide per (n-1), ottenendo la VARIANZA; Si estrae la radice quadrata Pratica Calcolo della deviazione standard: formula più rapida Età per un campione di 7 individui (xi)2 ETA’ xi 65 4225 35 1225 44 1936 43 1849 71 5041 63 3969 69 4761 media m=55.7 23006 Per il calcolo della varianza: 23006 - 7∙(55.7)2=1277.429 ! Il numeratore della VARIANZA si ottiene più rapidamente applicando la seguente formula: n x i 1 i 2 nx 2 (questa formula alternativa produce esattamente lo stesso risultato, eventuali discrepanze dei risultati dei due approcci possono essere dovute all’arrotondamento) Varianza = 1277.429 / 6 = 212.9048 std = √ 212.9048 = 14.59126 Corso di Statistica. Simona Iacobelli 36 Trasformazione di variabili • • A volte è utile / necessario trasformare una variabile X prima di poterla analizzare, ad esempio perché il metodo statistico richiede che X abbia distribuzione Normale. Esistono innumerevoli trasformazioni utili. Una molto semplice è la trasformazione logaritmica Y=log(X), che permette di «schiacciare» i valori alti, ed è dunque molto utile a rendere simmetrica una variabile molto asimmetrica. Trasformazioni lineari • Una trasformazione lineare Y=a+bX può essere necessaria ad esempio per cambiare unità di misura (ad es. per X=Temperatura, per passare da gradi Celsius a gradi Fahrenheit) • La media aritmetica mantiene la linearità, ossia • Per la varianza: • Una trasformazione lineare molto importante è la seguente, detta Standardizzazione: Z ( )= = + ( ) X x s • Con questa operazione (sottrarre la media e dividere per la deviazione standard) otteniamo una variabile Z di media 0 e deviazione standard 1 • La trasformazione inversa (ancora lineare, ovviamente) è: z x z Corso di Statistica. Simona Iacobelli 37 Appendice Prerequisiti di Matematica • Nozioni elementari (o poco più): – L’arrotondamento e la notazione scientifica – Regole di calcolo – La sommatoria – La funzione logaritmo – La retta Basics Arrotondamento e notazione scientifica • Arrotondare un numero significa ridurre il numero di cifre decimali (quelle dopo “la virgola”, che qui, adottando la convenzione internazionale, rappresentiamo con un punto). valore originario 1 decimale 2 decimali 12.422 12.4 12.42 11.237 11.2 11.24 10.251 10.2 10.25 10.257 10.3 10.26 14.0 14.0 14.00 Se la cifra decimale successiva a quella a cui ci vogliamo fermare è: <5 troncare il numero >5 aumentare di 1 unità l’ultimo decimale =5 guardare alla cifra ancora successiva, e seguire lo stesso criterio Corso di Statistica. Simona Iacobelli • • • • Numeri molto piccoli o molto grandi sono spesso riportati con notazione scientifica: 0.00043 = 4.3e-04 dove e-04 ↔ · 10^(-4) 0.0000005 = 5e-7 30000000248 = 3e+10 «Quanti decimale usare?» - Nel fare i calcoli: il più possibile! Arrotondare a ogni passaggio comporta un grosso errore di arrotondamento sul risultato finale. - Nei report: scegliere un numero di decimali relativamente al livello di precisione desiderabile 38 Basics Regole di calcolo basic k volte a a a k a k volte a a a a k k ( a b) k a k b ( a b) a b 1 1 1 ( a b) a b k k k a2 b a b 2 a2 a a b 2 a 2 b 2 2ab 2 b b a b c a b c a b c 0 a b c 0 a a c a bc b b c x log a b x a b Basics La funzione logaritmo log a b x a x b ln b log e b x e x b Logaritmo in base a di b Logaritmo naturale: ha in base il numero di Nepero e=2.718… ln(1)=0 L’esponenziale exp(x) è la funzione inversa del logaritmo (naturale) ln(x)<0 per 0<x<1 ln(x) non definito per x<=0 y y=ln(x) x 1 Trasformare X nel suo logaritmo, Y=lnX, implica “schiacciarne” i valori molto alti Corso di Statistica. Simona Iacobelli 39 Basics La sommatoria k times a a a k a Somma di k termini tutti uguali fra loro Somma di k termini anche diversi fra loro: ciascun termine da sommare viene indicato con una notazione generale come ai, dove il pedice i indica di volta in volta 1, 2, …, n. k a1 a2 a3 ai ak ai Si legge: “sommatoria (o somma) degliia1 con i per i che va da 1 a k” 3 k i 1 i 3 ( a1 a2 a3 ) (a4 ak ) ai ai Si usa il simbolo di SOMMATORIA Σ (sigma maiuscolo) per indicare lo somma degli n termini a1 , a2 … an Basics La retta b=tang(angolo) y Curva descritta dall’equazione: y = 5 + 1·x y = 2 + 1·x y=a+b∙x y = 2 +0.5·x a intercetta b pendenza y=a y=2 b > 0 : retta crescente x b < 0 : retta decrescente b = 0 : retta parallela all’asse delle ascisse (asse x) b misura la variazione di Y quando X aumenta di 1; la retta è l’unica curva in cui tale variazione è sempre la stessa, qualunque sia il valore di partenza di x Corso di Statistica. Simona Iacobelli y = 2 - 1·x x y Δx Δy 0 a 1 a+b 1 b 10 a+10b 11 a+11b 1 b 40