Appunti di Statistica sociale (Draft) Ilia Negri [email protected] 5 gennaio 2014 2 Indice 1 Indroduzione: perché la statistica sociale 1.1 Perché la statistica serve a tutti . . . . . . . . . . . . . . . . . . . . . 1.2 La statistica nella vita di tutti i giorni . . . . . . . . . . . . . . . . . 2 Rappresentare i dati e le loro distribuzioni 2.1 Introduzione . . . . . . . . . . . . . . . . . . 2.2 Prime definizioni . . . . . . . . . . . . . . . 2.3 Diversi dati diverse variabili . . . . . . . . . 2.4 Dati e tavole . . . . . . . . . . . . . . . . . . 2.5 Dati e grafici . . . . . . . . . . . . . . . . . 2.6 Esempi . . . . . . . . . . . . . . . . . . . . . 2.6.1 Il geyser Old Faithful . . . . . . . . . 2.6.2 Un caso di attribuzione letteraria . . 2.6.3 Il primo bacio non si scorda mai . . . 3 Valori medi 3.1 La moda . . . . . . . . . . . . . 3.2 La media artitmetica . . . . . . 3.3 La mediana . . . . . . . . . . . 3.4 Medie per i dati in classi . . . . 3.5 Simmetria e asimmetria . . . . 3.6 Quale media scegliere? . . . . . 3.7 Quartili, perentili e quantili . . 3.8 Il box-plot . . . . . . . . . . . . 3.9 Soluzione degli esercizi assegnati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 5 . . . . . . . . . 7 7 8 10 12 20 30 30 34 35 . . . . . . . . . 41 42 43 45 46 50 51 53 54 55 4 La variabilità 57 4.1 Il range e lo scarto interquartile . . . . . . . . . . . . . . . . . . . . . 58 4.2 Scarto quadratico medio e varianza . . . . . . . . . . . . . . . . . . . 60 1 2 INDICE 5 Operazioni sui dati 63 5.1 Trasformazioni di scala . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.2 Standardizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 6 Siamo tutti normali? 71 6.1 La curva è normale! . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 6.2 La normale standardizzata . . . . . . . . . . . . . . . . . . . . . . . . 76 6.3 Un po’ di formule matematiche e un po’ di storia . . . . . . . . . . . 81 7 Dal campione alla popolazione 83 7.1 Campionamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 7.2 Dalla popolazione al campione: il caso della media . . . . . . . . . . . 86 8 Intervalli di confidenza 89 8.1 La media campionaria . . . . . . . . . . . . . . . . . . . . . . . . . . 90 8.2 Gli ingredienti e la ricetta . . . . . . . . . . . . . . . . . . . . . . . . 90 9 La proporzione 95 9.1 Il modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 9.2 Intervallo di confidenza per la proporzione π . . . . . . . . . . . . . . 97 10 Test statistici 10.1 Verifica d’ipotesi: la teoria . . . . . . . . . . . . . . . . . . . . 10.2 Verifica d’ipotesi: la pratica . . . . . . . . . . . . . . . . . . . 10.2.1 Test per la media di popolazione normale: σ nota . . . 10.2.2 Test per la media di popolazione normale: σ non nota . 10.2.3 Test per la proporzione . . . . . . . . . . . . . . . . . . 10.3 Il livello di significativià del test: α . . . . . . . . . . . . . . . 10.4 Test con alternativa unilaterale . . . . . . . . . . . . . . . . . 11 Tabelle di contingenza 11.1 Il test χ2 per l’associazione tra due variabili 11.2 Prima le donne e i bambini . . . . . . . . . . 11.3 Dire qualcosa di più sulla dipendenza . . . . 11.4 Odds Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 99 102 102 105 108 111 112 . . . . . . . . . . . . . . . . . . 117 . 117 . 121 . 124 . 125 Capitolo 1 Indroduzione: perché la statistica sociale 1.1 Perché la statistica serve a tutti Che ci pensiate o meno e che ci crediate o meno la vostra vita è piena degli embrioni dei concetti che trovano la loro esatta formulazione nella statistica. Qualche esempio? Pensate a quando la mattina prima di uscire di casa decidete se prendere o meno l’ombrello. Se avrete successo o meno ad un incontro che vi interessa particolarmente. O al voto che prevedete di prendere in questo esame. Quello che state facendo è elaborare un concetto statistico sulla base dei dati che avete immagazzinato con la vostra esperienza. La statistica non è altro che quella materia che si occupa di capire e che utilizza i dati. I dati possono essere di qualunque tipo o natura. Qualche esempio? La serie storica delle precipitazioni in una qualunque città, la rilevazione del quoziente di intelligenza, il numero di volte che uno scrittore usa un certo tipo di parole non contestuali ogni mille parole (tipo: da, allora, quindi, . . . ), il numero di giorni che una persona passa in vacanza in un anno. Nel nostro corso ci occuperemo di due tipi di statistica. Il primo tipo è la statistica descrittiva che consiste nei metodi per descrivere e sintetizzare le caratteristiche salienti di un certo insieme di dati. Le caratteristiche salienti di un insieme di dati sono in genere la loro distribuzione, il loro valore medio e la loro variabilità. Osservazione importante: la variabilità è la caratteristica fondamentale della statistica. Se non ci fosse variabilità non ci sarebbe la statistica e vivremmo in un mondo banale tutto uguale ad una media! I metodi utilizzati sono principalmente i grafici, e poi metodi numerici (occorrerà fare qualche calcolo) per dare informazioni sulla media e sulla variabilità dei dati che ci appropinquiamo ad analizzare. 3 4 CAPITOLO 1. INDRODUZIONE: PERCHÉ LA STATISTICA SOCIALE Il secondo tipo di statistica è quella inferenziale, che si occupa di utilizzare quel poco di cui siamo a conoscenza per estenderlo, facendo una stima o delle previsioni, a quello che non possiamo conoscere. Per questo tipo di statistica un ruolo importante riveste la teoria della probabilità. La teoria della probabilità è infatti in grado di fornire un modello matematico per l’incertezza dei possibili risultati di un fenomeno. In questo senso la probabilità può essere vista come una misura dell’incertezza. Possiamo dire che la statistica è capace di quantificare l’incertezza, tramite la probabilità. Essa mette gli statistici in grado di fare affermazioni categoriche, cioè in completa sicurezza, circa il loro grado di incertezza! Ad esempio, l’istat conduce ogni anno le indagini sul benessere delle famiglie italiane. Si registrano in ogni provincia il numero di famiglie monogenitoriali su un certo numero di capifamiglia intervistati. La percentuale di famiglie monogenitoriali in una certa provincia rilevata tra gli intervistati, può essere usata come stima per la percentuale di famiglie monogenitoriali in quella provincia, e sulla base di questa stima il governo locale può prevedere una serie di servizi legati al welfare. Con la teoria della probabilità potremo avere un modello di questa percentuale e saremo in grado di dire ad esempio: la percentuale di famiglie monogenitoriali in Italia non è uguale in tutte le province. Nel fare questa affermazione ci si concede di sbagliare il 5% dei casi. Cioè si fa un’affermazione certa sul grado di incertezza! Naturalmente non saremo mai in grado di dire quante sono le famiglie monogenitoriali in una certa provincia in un certo istante, ma siamo in grado di prevedere in maniera verosimile la proporzione di tali famiglie. La statistica è importante nella vita di tutti i giorni perchè senza la vita reale non ci sarebbe bisogno della statistica! Come si diceva sopra, se tutti la pensassero e agissero allo stesso modo e se tutto fosse sempre uguale a se stesso, non avremmo bisogno di prevedere nulla! E sarebbe un mondo senza statistica ma molto noioso! Nella vita reale ogni cosa è diversa e ogni individuo pensa e agisce in modo diverso. Nelle scienze sociali la statistica è utilizzata per spiegare le differenze tra gruppi di persone o luoghi. Ad esempio possiamo essere interessati a come varia il numero di famiglie monogenitoriali rispetto alle condizioni economiche e sociali di un gruppo di famiglie, oppure rispetto alla posizione geografica. Come potete rendervi conto se aprite un giornale o un sito web, la statistica viene utilizzata pressoché ovunque, con grafici, opinioni basate su dati e previsioni su andamenti di vari fenomeni. Spesso queste informazioni possono influenzare anche la vita delle persone in modo rilevante. Questo corso cercherà di mostrarvi come utilizzare varie tecniche della statistica, e anche se non le utilizzerete mai più nella vita, come il detto, impara l’arte e mettila da parte, sarete almeno in grado di capire 1.2. LA STATISTICA NELLA VITA DI TUTTI I GIORNI 5 Figura 1.1: Il grafico trasmesso da Fox News come vengono fatte certi tipi di analisi e di previsione e non vi farete ingannare da chi a volte usa i dati in modo non appropriato per ingannare o attirare favori! 1.2 La statistica nella vita di tutti i giorni Questo è un esercizio utile. Prendiamo un giornale qualunque e andiamo a vedere quanti grafici vengono riportati e in che contesto. Cerchiamo di capire se ci sono descrizioni dei dati o previsioni. Ci renderemo conto durante il corso come cambierà la nostra sensibilità di fronte allo notizie che riportano questo tipo di informazioni. Come compito durante il corso dovrete sempre prendere un giornale e analizzare questo tipo di informazioni. Se lo farete sarete in grado una volta che lavorerete in una redazione di fermare la messa in onda di un grafico di questo tipo. Nella Figura 1.1 appare il grafico a torta presentato durante una trasmissione televisiva molto famosa degli USA. A un certo numero di persone era stato chiesto quali candidati vedevano favorevolmente per 6 CAPITOLO 1. INDRODUZIONE: PERCHÉ LA STATISTICA SOCIALE contrastare Obama. Casa c’è di sbagliato? Cosa puó avere indotto questo errore? Proveremo a rispondere nella Sezione 2.5. Capitolo 2 Rappresentare i dati e le loro distribuzioni In questo capitolo dopo aver dato alcune definizioni importanti e fondamentali per cominciare a studiare e a capire la statistica, presenteremo i diversi tipi di dati con cui possiamo avere a che fare in indagini statistiche, e quindi mostreremo come questi dati possano essere rappresentati sia in forma di tabelle che in forma di grafici e disegni. 2.1 Introduzione Molti lettori forse non conoscono il significato della parola distribuzione. Prima di cominciare ad analizzare i dati occorre introdurre qualche termine specifico della statistica per capirci e capire di cosa stiamo parlando. Ogni qualvolta si vuole studiare un fenomeno in cui è presente una certa variabilità della risposta in presenza delle stesse condizioni entra in gioco la statistica. Proviamo a cercare qualche esempio nella vita di tutti i giorni. Le famiglie della provincia di Bergamo aventi un certo reddito e composte da un certo numero di componenti scelgono luoghi diversi e tempi diversi per le loro vacanze. Se vogliamo studiare il fenomeno riguardante le vacanze delle famiglie della provincia di Bergamo (fenomeno di interesse per gli enti pubblici, e o privati e che interessa diversi tipi di studiosi, di sociologia, di economia ad esempio) entra in gioco la statistica. I tecnici incaricati di uno studio sulla fattibilità di un impianto in grado di trasformare in energia elettrica l’energia scaturita durante le eruzioni di vapore acqueo di un geyser registrano per ogni eruzione il tempo di pausa tra un’eruzione e la successiva e il tipo di di eruzione. Anche in questo caso per decidere sulla fattibilià (dal 7 8 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI punto di vista economico, di impatto ambientale e di gestione delle risorse) entra in gioco la statistica. I metodi statistici si occupano principalmente 1. di raccogliere i dati; 2. della presentazione dei dati; 3. dell’analisi dei dati. Sulla base delle informazioni fornite dai dati ed elaborate dagli statistici starà ai tecnici e agli studiosi delle diverse discipline prendere decisioni sul fenomeno oggetto di studio, sia esso un’indagine sulle famiglie monogenitoriali, sulle vacanze degli italiani o sulla fattibilià di un impianto industriale, piuttosto che risolvere problemi concernenti il disegno e la progettazione di prodotti e processi industriali. Sulla base delle stesse informazioni si può considerare anche l’impiego dei dati a fini previsivi e conoscitivi di un fenomeno. In ultima analisi si può dire che il primo scopo della statistica è la la comprensione delle cause della variabilità. Per parafrasare e ricordare questo scopo citiamo la Legge di Murphy (A. Bloch): “Anche sotto le condizioni più rigorosamente controllate un sistema si comporta come gli pare e piace”; e la sua trasposizione sul territorio coniata dal Prof. Roberto Colombi come Legge bergamasca: “Non tutte le ciambelle riescono col buco!” 2.2 Prime definizioni Supponiamo di aver fatto un indagine per capire come lo stato civile, il grado di scolarità e il reddito influenzino il numero di figli presenti in un certo nucleo famigliare rappresentato dal capofamiglia (non necessariamente di sesso maschile). Il fenomeno studiato in questo caso è di tipo sociale. Si intervistano 20 capofamiglia e le loro risposte sono elencate nella Tavola 2.1. Le 20 persone intervistate costituiscono un campione della popolazione di tutte le famiglie. La popolazione in statistica non necessariamente sarà riferita a persone. Si tratta in generale di un concetto astratto che non può essere osservato nella sua interezza e completezza e per questo motivo se ne sceglie un campione. Ad esempio nell’esempio sulla fattibilià dell’impianto per la generazione dell’energia dalle eruzioni del geyser, la popolazione è costituita da tutte le possibili eruzioni passate, presenti e future del geyser. Tornaniamo ora all’ultimo esempio, per introdurre l’oggetto principale della statistica. I quattro argomenti di cui viene richiesto il valore (stato civile, grado di scolarità, numero dei figli, reddito) sono chiamate variabili. 2.2. PRIME DEFINIZIONI u unità stat. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 X Y stato grado di civile scolarità N L S O V A V O C L N S C S C O V L N O N S N A S S C S N S C L V O S O C S C S 9 Z numero di figli 0 1 3 4 1 1 0 2 3 0 1 0 1 4 3 0 2 2 4 4 W reddito in ¤ 72.50 54.28 50.02 88.88 62.30 45.21 57.50 78.40 75.13 58.00 53.70 91.29 74.70 41.22 65.20 63.58 48.27 52.52 69.50 85.98 Tabella 2.1: Stato civile X, grado di scolarità Y , numero di figli Z, reddito W di 20 capofamiglia intervistati per un indagine sociale. 10 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI Ogni rispondente è detto unità statistica o caso. Le risposte che ogni unità statistica dà, ovvero i valori delle variabili osservati sulle unità statistiche, sono dette osservazioni. In ogni insieme di dati (chiamato dataset) i casi o le unità statistiche sono gli individui o le unità del campione. Le variabili sono invece le caratteristiche che assumono valori diversi su ogni unità del campione o individuo. Poiché repetita iuvant vediamo di fissare questi primi concetti. Definizione 2.2.1. La popolazione è l’intera collezione di individui, oggetti, eventi, astratta o concreta, sulla quale si ricercano informazioni. Non è possibile osservare interamente la popolazione, per cui si ricorre ad un sottoinsieme di essa. Definizione 2.2.2. Un sottoinsieme della popolazione è detto campione. Sono gli elementi della popolazione che si osservano realmente. Vale la pena osservare che un campione non garantisce di riflettere sempre le caratteristiche della popolazione. A volte può essere sostanzialmente diverso dalla popolazione da cui viene estratto. Due campioni della stessa popolazione sono diversi uno dall’altro a volte anche enormemente diversi. Definizione 2.2.3. Unità statistica o caso è ogni elemento del campione. Definizione 2.2.4. Variabile è ogni caratteristica di interesse che viene rilevata sugli elementi del campione. Definizione 2.2.5. Dataset è l’insieme di tutti i valori di ogni variabile che è rilevata sugli elementi del campione. 2.3 Diversi dati diverse variabili Le variabili possono essere di diverso tipo a seconda delle modalità con cui si manifestano i diversi valori che assumono. I valori che assumono sulle unità del campione sono i nostri dati. Le due grandi categorie sono le variabili quantitative (o numeriche) e le qualitative (o categoriche). Tra le quantitative distinguiamo le variabili numeriche discrete (risultato di un conteggio) e le continue (risultato in genere di una misura di qualunque tipo). Tra le qualitative distinguiamo tra quelli ordinali (dove è possibile stabilire un ordine tra le categorie) e nominali (dove questo ordine non è possibile). Il modo migliore per riconoscere il tipo di variabile è pensare alle operazioni che si possono fare su di loro. La prima domanda è sicuramente: sono 2.3. DIVERSI DATI DIVERSE VARIABILI 11 numeri oppure no? Se sono numeri si tratta di variabili quantitative altrimenti qualitative. Prestare attenzione che a volte nei risultati di un indagine le qualità possono essere codificate con un codice numerico! Questo non significa che ad esempio, se il sesso viene codificato con 1 (femmina) e 2 (maschio), il sesso sia una variabile numerica! Se sono numeri la seconda domanda è: sono il risultato di un conteggio o di una misurazione (con cronometro, bilancia, o qualsiasi altro strumento) espressa in una certa unità di misura? Nel primo caso si tratta di variabili numeriche discrete nel secondo caso di variabili continue. Tutte le variabili inerenti il denaro (reddito, prezzo di un’azione ad esempio) sono in genere considerate come variabili continue (si misurano nella unità di valuta corrente, ad esempio ¤). Se non si tratta di numeri la domanda è: posso ordinare le categorie? Se la risposta è affermativa si tratta di variabili qualitative ordinabili, altrimenti si tratta di una variabile nominale. Si noti che tutte le variabili qualitative presentano al più un numero finito di modalità, quindi anche loro a volte sono chiamate discrete. Il seguente schema riassume quanto appena descritto per i diversi tipi di dati o variabili con anche alcuni esempi. • Numerici o quantitativi – Risultato di una misura: continui (distanza, reddito, durata, peso) – Risultato di un conteggio: discreti (numero di figli, numero di esami, numero di giorni) • Categorici o qualitativi (nominali o ordinali) – Ordinali (titolo di studio, scala Mercalli per l’intensità di un terremoto) – Nominali (genere, religione, trattamento) Vediamo alcuni esempi. Esempio 2.3.1. Su un campione di n = 20 capofamiglia sono state rilevate le seguenti variabili: stato civile (X), livello di scolarità (Y ), numero di figli (Z), reddito in migliaia di euro (W ). Lo stato civile presenta le seguenti modalità N C X= V S = Nubile o celibe = Coniugato = Vedovo = Separato, divorziato 12 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI Si tratta di una variabile qualitativa nominale. Il livello di scolarità (Y ), presenta le seguenti modalià A O Y = S L = Analfabeta, alfabeta = Scuola dell’obbligo = Diploma di scuola superiore = Laurea e superiore Si tratta di una variabile qualitativa ordinale (è possibile dire sempre quale modalità viene prima di un’altra) La variabile numero di figli (Z) è una variabile numerica discreta. La variabile reddito (W ) è una variabile numerica continua (misurata in ¤). I risultati dell’indagine sono riportati nella Tabella 2.1, che rappresenta il nostro dataset. Esempio 2.3.2. La Tabella 2.2 rappresenta i valori della scala Mercalli per misurare l’intensità di un terremoto in base agli effetti prodotti. In questo caso non si tratta di un dataset. Provate però a descrivere un possibile campione e a capire chi è la popolazione. Esempio 2.3.3. La Tabella 2.3 registra la durata (in minuti) del periodo dormiente delle eruzioni e tipo dell’eruzione precedente del geyser Old Faithful (Wyoming, USA). In questo caso la popolazione sono tutte le possibili eruzioni del geyser. Il campione è costituito dalle n = 60 eruzioni analizzate. Le variabili considerate sono due. La prima nella tabella è indicata con Pausa. Si tratta di una variabile continua (durata della pausa, viene misurata in minuti con un cronometro). La seconda è il Tipo di eruzione precedente a quella considerata. Si tratta di una variabile qualitativa ordinale. Le eruzioni precedenti sono classificate secondo questa variabile in due categorie (le modalità della variabile): Corta o Lunga. È una variabile ordinale poiché si puó sempre dire che Corta viene prima di Lunga. Esercizio 2.3.4. Raccogliere da giornali e riviste esempi di indagini statistiche ed identificare il fenomeno, la popolazione, il campione, le unità statistiche, le variabili analizzate. 2.4 Dati e tavole Quando si hanno i dati relativi ad una o più variabili rilevate su un campione di n unità statistiche la prima volontà dello statistico è quella di rappresentare i dati. Rappresentare i dati significa in realtà dare un immagine di come si distribuiscono 2.4. DATI E TAVOLE Grado Denominazione 1 Strumentale 2 Leggerissima 3 Leggera 4 Mediocre 5 Forte 6 Molto forte 7 Fortissima 8 Rovinosa 9 Disastrosa 10 Distruttrice 11 Catastrofe 12 Grande catastrofe 13 Effetti È percepita solo dai sismografi. È avvertita solo dalle persone ipersensibili in momenti di quiete e ai piani più elevati. Viene avvertita da un numero maggiore di persone, le quali non si allarmano perché generalmente non si rendono conto che si tratta effettivamente di scosse telluriche. Le persone che sono in casa l’avvertono e qualcuna anche tra quelle che si trovano all’aperto. I lampadari oscillano, i pavimenti possono dare degli scricchiolii. Sentita tanto dalle persone che si trovano in casa quanto da quelle fuori casa. Gli oggetti sospesi oscillano ampiamente, gli orologi a pendolo si fermano, si hanno tremiti dei vetri e delle stoviglie. Si ha risveglio brusco dal sonno e può generare panico senza danni alle persone. Gli oggetti cadono e cosı̀ i calcinacci dei muri in cui si possono formare lievi lesioni. La popolazione, presa dal panico, abbandona le case. Possono cadere comignoli e tegole, mentre i muri presentano lesioni non molto gravi. Suono di campane. Lesioni gravi ai fabbricati, crollo di qualche muro interno. Qualche ferito, raramente vittime. Alcuni crolli di case, altri edifici gravemente lesionati. Molti i feriti, non numerose le vittime. Crolli di molti fabbricati. Parecchie le vittime, moltissimi i feriti. Numerose vittime. Quasi tutti gli edifici crollati. Formazione di crepacci e frane. Distruzione di qualsiasi opera umana. Tabella 2.2: Descrizione delle diverse modalità della scala Mercalli che misura l’intensità di un terremoto in base agli effetti sulla popolazione. 14 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI Pausa 76 80 84 50 93 55 76 58 74 75 80 56 80 69 57 Tipo Pausa Lunga 90 Lunga 42 91 Lunga Corta 51 Lunga 79 Corta 53 82 Lunga Corta 51 76 Lunga Lunga 82 Lunga 84 53 Corta Lunga 86 51 Lunga Lunga 85 Tipo Lunga Corta Lunga Corta Lunga Corta Lunga Corta Lunga Lunga Lunga Corta Lunga Corta Lunga Pausa 45 88 51 80 49 82 75 73 67 68 86 72 75 75 66 Tipo Corta Lunga Corta Lunga Corta Lunga Lunga Lunga Lunga Lunga Lunga Lunga Lunga Lunga Corta Pausa 84 70 79 60 86 71 67 81 76 83 76 55 73 56 83 Tipo Lunga Lunga Lunga Lunga Lunga Lunga Corta Lunga Lunga Lunga Lunga Corta Lunga Corta Lunga Tabella 2.3: Durata del periodo dormiente (Pausa) e tipo di eruzione precedente (Tipo) di un campione di 60 eruzioni del geyser Old Faithful (Wyoming, USA). questi dati, cioè è dare un’immagine della distribuzione dei dati. Le tavole di dati sono il primo esempio della rappresentazione della distribuzione dei dati. A questo punto è necessaria una precisazione. Esiste una distribuzione della variabile che stiamo studiando sulla popolazione che non potremo mai sapere come è fatta. Proveremo a immaginarla e a fare qualche ipotesi su di essa. (Ricordiamoci che solo Dio, per chi crede, conosce questa distribuzione). Noi mortali statistici possiamo solo ricavare la distribuzione della variabile su un campione e descrivere questa distribuzione (statistica descrittiva). Dopo questa descrizione, potremo mettere un modello sulla variabile e sulla base dei dati ricavati sul campione potremo dire se il modello proposto è corretto oppure no (statistica inferenziale). Quindi veniamo alle tavole. Torniamo all’Esempio 2.3.1. Concorderete sul fatto che mostrare la Tavola 2.1 dell’intero dataset non da molte informazioni al lettore. Questo fatto è ancora più evidente se guardiamo la Tavola 2.3 dei dati dell’Esempio 2.3.3. Lo scopo delle tavole è quello di rappresentare un insieme di dati. Il tipo di tavole e le informazioni contenute in essa naturalmente dipendono dal tipo di dati e di quante variabili andiamo a descrivere la distribuzione. Anche se si può pensare che fare una tavola sia un operazione assai semplice, come ci si può rendere conto leggendo un giornale, non sempre sono di facile com- 2.4. DATI E TAVOLE X N C V S Totale 15 ni fi = ni /n pi = fi · 100% 6 0.30 30 7 0.35 35 4 0.20 20 3 0.15 15 n = 20 1.00 100 Tabella 2.4: Tavola delle frequenze assolute (ni ), relative (fi ) e percentuali (pi ) per la variabile X stato civile nel campione dell’esempio 2.3.1. X assume i seguenti valori: N=nubile o celibe, C=coniugato/a, V=vedovo/a, S=separato/a o didorziato/a prensione. Dobbiamo tenere presente quando andiamo a fare una tavola che lo scopo principale di una tavola è trasformare un insieme di dati in un formato che sia facile da capire e che faccia capire le caratteristiche salienti della distribuzione che andiamo a rappresentare. Come dicevamo sopra il tipo di tavola e le informazioni che può contenere dipendono dal tipo di variabile i cui dati osservati andiamo a rappresentare. Cominciamo con i dati dell’Esempio 2.3.1. Consideriamo la variabile X stato civile. Come abbiamo visto si tratta di una variabile qualitativa non ordinale. Riportare in una tabella la distribuzione di questa variabile sul campione osservato, significa riportare in una tabella i valori che questa variabile assume e le frequenze con cui questi valori sono assunti. Le frequenze per questo tipo di dati possono essere di tre tipi a seconda dell’interesse che abbiamo. La Tabella 2.4 le riporta tutte e tre. Si tratta delle frequenze assolute, delle frequenze relative e delle frequenze percentuali. Come si calcolano? Le frequenze assolute si calcolano semplicemente contando quante volte si presenta una certa modalità. Nel campione considerato ad esempio sono presenti 6 nubili o celibi, 7 coniugati e cosı̀ via. Le frequenze assolute si indicano in genere con ni dove la i in basso è un indice che sta ad indicare la generica modalità ovvero la i-esima modalità. Nel nostro esempio n1 (quindi per i = 1) sta and indicare la frequenza assoluta dei nubili o celibi, n2 sta ad indicare il numero dei coniugati, n3 il numero dei vedovi ed n4 il numero dei separati. Abbiamo cosı̀ le quattro frequenze assolute n1 , n2 , n3 ed n4 che si possono anche scrivere ni con i da 1 a 4 ovvero ni , i = 1, . . . , 4. Naturalmente la somma delle frequenze assolute deve essere uguale al numero delle osservazioni, nell’esempio abbiamo: 6 + 7 + 4 + 3 = 20 in formula n1 + n2 + n3 + n4 = n, dove n = 20. In generale se ci sono k modalità avremo k 16 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI frequenze assolute (nell’esempio k = 4) e abbiamo la prima formula di questo testo: k X ni = n, ovvero n1 + n2 + · · · + nk = n i=1 che si legge: la somma delle frequenze assolute è uguale al numero delle osservazioni. Le frequenze relative sono invece calcolate dividendo ogni frequenza assoluta per il numero totale di osservazioni. In sostanza fatto un intero la totalità delle osservazioni (nell’esempio le venti osservazioni diventano l’intero) si va a vedere che parte di questo intero si prende ciascuna modalità. Ad esempio la frequenza relativa dei nubili è 0.30. La somma di tutte le frequenze relative è 1. Le frequenze percentuali sono praticamente la stessa cosa delle frequenze relative, ma l’intero si considera uguale a 100. Nell’esempio, il 30% del campione osservato è costituito da nubili o celibi. Indicate con fi le frequenze relative e con pi le frequenze percentuali, il loro calcolo avviene in questo modo fi = ni , n pi = ni · 100%, n i = 1, . . . , k La seconda formula di questo libro ci dice che la somma delle frequenze relative è 1, mentre la somma delle frequenze percentuali è 100%. k X i=1 fi = 1 k X pi = 100% i=1 Le frequenze relative e quelle percentuali a differenza delle frequenze assolute permettono un confronto immediato tra distribuzioni con numerosità diverse. Consideriamo il seguente esempio. Esempio 2.4.1. Un campione di 10000 iscritti ad una società di lavoro interinale sono analizzati in base al sesso e all’avviamento al lavoro. Lo studio ha come obiettivo quello di capire se ci sia discriminazione di genere. I dati percentuali sono riportati in nella Tabella 2.5. La tabella ci dice che delle 10000 unità intervistate il 53.4% sono maschi e il 46.6% sono femmine. Per quanto riguarda la condizione lavorativa abbiamo che tra coloro avviati al lavoro che sono 1700, il 59% sono uomini, il 41% sono donne. Le frequenze assolute si possono ricavare dalla tabella se sono date le numerosità totali. Ad esempio Il 59% di 1700 è 1003, quindi sono 1003 gli uomini avviati al lavoro dei 5340 mentre il 41% di 1700 è 697 che sono le donne avviate al lavoro delle 4660. Le percentuali in questo caso ci forniscono un indicazione del fenomeno nel suo complesso permettendo un confronto. 2.4. DATI E TAVOLE Maschi Femmine 17 Iscritti alla Società (10000) 53.40 46.60 100 Avviati al lavoro (1700) 59.00 41.00 100 Tabella 2.5: Percentuali degli iscritti ad una società di lavoro interinale in base al sesso e alla condizione rispetto all’avviamento al lavoro. Campione di 10000 unità. Dati dell’autore. Tra parentesi le numerosità assolute. Riguardo all’esempio occorre fare due precisazioni. La prima riguarda la numerosià sulla quale si basa la percentuale. Se non fossero fornite le numerosità tra parentesi non potremmo risalire alle frequenze assolute e quindi, ad esempio, calcolare la frequenza relativa di donne avviate al lavoro: 697/4660 = 0.15 cioè il 15% e la frequenza relativa di uomini avviati al lavoro 1003/5340 = 0.19 ciè il 19%. Quindi in una tabella di frequenze relative o percentuali occorre dare le informazioni che permettano di risalire ai dati originali, cioè occorre dare la numerosità totale da cui si ricavano le percentuali. La seconda precisazione riguarda le cifre decimali. In una tabella occorre che tutte le frequenze relative abbiano sempre lo stesso numero di decimali. Il problema è quante cifre decimali? In genere non esiste una regola fissa, a volte può dipendere anche da esigenze grafiche. Una regola empirica è quella di utilizzare due cifre decimali in più rispetto a quelle dei numeri sui quali si compie l’operazione. Quindi se abbiamo numeri interi, con zero cifre decimali, il rapporto può essere espresso con due cifre. L’importante è che tutti i numeri abbiano lo stesso numero di cifre decimali. Con le cifre decimali abbiamo anche il problema dell’arrotondamento. Il numero π = 3.141593 arrotondato alla seconda cifra significativa decimale è 3.14, arrotondato a tre cifre decimali è 3.142. Infatti arrotondiamo al numero con tre cifre decimali più vicino al numero π. Abbiamo che 4.141 < 3.141593 < 3.142 e π è più vicino a 3.142. Quindi ogni volta che la cifra che segue il decimale al quale si vuole arrotondare è maggiore o uguale a 5 si arrotonda al decimale successivo. Ogni volta che è minore di 5 si arrotonda al decimale stesso. Ad esempio quando abbiamo calcolato la frequenza relativa di donne avviate al lavoro: 697/4660 = 0.1495708 lo abbiamo arrotondato a 0.15. Quando si fanno gli arrotondamenti occorre prestare attenzione anche ad un altro fatto. La somma totale delle frequenze relative deve essere uno. Può capitare che in seguito agli arrotondamenti la somma sia più grande o più piccola di uno. In questo caso occorre fare degli aggiustamenti diversi per far si che la somma dia uno. La regola può essere quella, se ad esempio la somma delle frequenze relative è 1.1, di arroton- 18 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI dare per difetto il numero decimale tra quelli arrotondati per eccesso che si discosta meno dal 5. Ad esempio se abbiamo arrotondato a due cifre decimali le frequenze relative 0.1791, 0.1753, 0.1771, 0.4685 otteniamo 0.18, 0.18, 0.18, 0.47. La somma di dei numeri arrotondati è 1.01. osservando i 4 numeri tutti arrotondati per eccesso notiamo che quello che era più lontano dal suo arrotondamento è 0.1753 e quindi questo sarà arrotondato a 0.17. Quindi le frequenze relative sono 0.18, 0.17, 0.18, 0.47 e in questo caso la somma è uno. Per i caratteri ordinali si possono calcolare le frequenze cumulate, sia assolute che relative che percentuali. Esse rispondono a domande del tipo: quante osservazioni vi sono che si presentano con meno di un certo valore? Per ottenere la frequenza cumulata di una modalità si sommano la frequenza relativa di quella modalità e di tutte le precedenti. Quindi se ci sono k modalità con frequenze relative f1 , P f2 , . . . , fk tali che ki=1 fi = 1, la prima frequenza relativa cumulata è uguale al valore della frequenza relativa della prima modalità, F1 = f1 , la seconda frequenza relativa cumulata F2 = f1 + f2 . In generale la i-esima frequenza cumulato è ottenuta P sommando le prime i frequenze relative Fi = f1 +f2 +· · ·+fi = ij=1 fj , i = 1, . . . , k. Esempio 2.4.2. Rendimento (I insufficiente, S = sufficiente, B = buono e O = ottimo) rilevato su 350 studenti: S, S, O, S, O, O, B, B, B, O, O, B, O, B, B, O, I, B, O, O, B, O, B, B, B, B, O, I, S, I, I, O, B, O, O, B, O, O, B, S, O, B, O, B, O, I, B, O, I, I, O, O, O, I, B, S, B, B, B, O, B, I, O, I, B, O, O, O, O, B, O, B, O, B, B, B, O, O, B, S, I, O, O, O, S, S, B, S, O, I, O, B, B, I, B, O, I, O, O, S, I, O, O, O, B, I, O, O, I, O, B, O, S, I, B, I, O, I, B, B, B, O, O, B, I, S, O, I, O, O, O, B, B, I, B, B, B, I, S, O, O, B, B, O, S, I, B, B, I, O, B, S, O, B, B, B, B, O, S, O, O, O, O, O, O, B, B, O, O, O, I, B, B, O, O, O, B, O, B, B, O, B, B, O, B, I, O, O, O, B, O, O, O, I, O, O, B, O, B, O, O, O, B, S, O, O, B, O, I, O, O, S, I, O, B, O, I, B, O, B, B, O, O, O, I, B, O, O, S, O, B, O, O, O, B, B, B, O, B, I B, B, B, O, B, B, O, O, O, I, O, O, O, B, I, O, O, B, O, B, O, O, O, B, I, B, B, B, O, I, O, I, B, B, O, O, O, B, O, S, O, I, O, O, O, B, B, B, B, B, B, B, I, O, O, B, O, B, O, O, B, O, O, O, B, B, O, B, O, O, B, O, S, B, B, I, O, B, B, B, O, I, B, B, I, B, O, O, B, O, S, O, O, I, O, O, B, O, O, O, O, B, O, B, B, O, O, B, O, B La Tabella 2.6 riporta le frequenze assolute ni , le frequenze relative fi , le frequenze percentuali pi , le frequenze cumulate assolute Ni , le frequenze relative cumulate Fi e le frequenze cumulate percentuali Pi . Possiamo rispondere alle seguenti domande direttamente dalle frequenze cumulate. Che proporzione di studenti hanno un rendimento superiore o uguale a sufficiente? Poicé il 13% ha un rendimento inferiore a sufficiente, il 100-13=87% ha un rendimento superiore a sufficiente. Quanti studenti hanno un rendimento superiore o uguale a sufficiente? L’87% degli studenti 2.4. DATI E TAVOLE xi I S B O Totale 19 ni 45 23 124 158 350 fi pi Ni Fi Pi 0.13 13% 45 0.13 13% 0.07 7% 68 0.20 20% 0.35 35% 192 0.55 55% 0.45 45% 350 1 100% 1.00 100% 350 1.00 100% Tabella 2.6: Tavola delle frequenze assolute, relative, percentuali, cumulate assolute, cumulate relative e cumulate percentuali per la variabile Rendimento, rilevata su 350 studenti, I=insufficiente, S=sufficiente, B=buono, O=ottimo. ha un rendimento superiore o uguale a sufficiente, prendendo la frequenza relativa 0.87 e moltiplicandola per il numero di studenti 0.87*350=304.5! come è possibile? Il motivo è legato agli arrotondamenti sulle frequenze relative. Se consideriamo le frequenze assolute il numero di studenti con un rendimento superiore o uguale a sufficiente è 23+124+158=305! Che proporzione di studenti hanno un rendimento inferiore a buono? Equivale a chiedere la proporzione di studenti che hanno un rendimento inferiore o uguale a sufficiente e quindi 0.20. Che proporzione di studenti hanno un rendimento inferiore o uguale a buono? Questo valore è dato direttamente dal valore 0.55. Riassumendo per i dati qualitativi nominali si possono calcolare e rappresentare in una tabella le seguenti frequenze P • frequenze assolute: n1 , n2 , . . . , ni , . . . , nk ; ki=1 ni = n P • frequenze relative: fi = nni ; ki=1 fi = 1 Se la variabile è ordinale si possono aggiungere le P • frequenze cumulate: Fi = ij=1 fj , i = 1, . . . , k. La Tabella 2.7 calcola le tre frequenze per la variabile tipo di eruzione precedente. Si noti che essendoci solo due modalità calcoliamo solo due frequenze assolute e relative e una sola cumulata, in quanto la seconda e ultima è sempre 1. Per fare una bella tabella occorre tenere presente le seguenti norme: 1. Indicare sempre chiaramente cosa contiene la tabella. A chi o a cosa, dove e quando sono stati rilevati i dati. Se necessario numerare la tavola. 2. Indicare sempre il nome ad ogni colonna e ad ogni riga. Se si usano acronimi indicare sempre il significato. 20 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI ni fi Fi Corta 17 0.28 0.28 Lunga 43 0.72 1 Totale 60 1 – Tabella 2.7: Frequenze assolute, relative e cumulate della variabile tipo di eruzione precedente per dati dell’Esempio 2.3.3. 3. Indicare sempre l’unità di misura. 4. Indicare i valori totali. 5. Incolonnare propriamente i numeri (i decimali devono stare allineati). 6. Utilizzare lo stesso numero di decimali. 7. Indicare la fonte dei dati. 2.5 Dati e grafici Produrre bei grafici permette di capire molto dei dataset con solo uno sguardo. Inoltre in genere per le persone è molto meglio capire un grafico che una tavola piena di numeri. Vi sono diversi grafici che è possibile utilizzare per rappresentare i dati. Il tipo di grafico dipende dal tipo di dati. Se i dati sono qualitativi nominali possono essere rappresentati graficamente in diversi modi: • tramite rettangoli • grafici a torta • rappresentazione tramite figure Nella rappresentazione tramite rettangoli, o barre, le modalità x1 , x2 , . . . , xk del carattere si sistemano su un segmento orizzontale in qualsiasi ordine e in modo equispaziato. In corrispondenza di ciascuna modalità si disegnano rettangoli di stessa base e altezza proporzionale alle frequenze ni , fi o pi . Se nello stesso grafico si rappresentano più fenomeni occorre che l’altezza sia proporzionale alle frequenze fi o pi in modo da poterli confrontare. 21 0 1 2 3 freq 4 5 6 7 2.5. DATI E GRAFICI C N S V stato civile Figura 2.1: Grafico delle frequenze assolute della variabile Stato civile nell’Esempio 2.3.1. 22 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI stato civile C N V S Figura 2.2: Grafico a torta delle frequenze assolute della variabile Stato civile nell’Esempio 2.3.1. Nella rappresentazione tramite diagrammi a torta (detti anche grafici a torta) si disegna un cerchio e si identificano dei settori circolari la cui ampiezza (o la cui area) è proporzionale alle frequenze relative fi o percentuali pi . L’intero cerchio rappresenta quindi la totalità del fenomeno, cioè vale 1 o 100% a seconda delle frequenze rappresentate. Anche in questo caso i settori vengono disegnati in un ordine qualsiasi e vengono colorati con colori diversi a seconda della modalità del carattere. Tornando al grafico riportato in Figura 1.1 risulta lampante come l’area dell’intero cerchio non possa essere pari al 100% in quanto sommando le frequenze percentuali il valore 100 è superato abbondantemente. L’errore nella rappresentazione è dovuta al fatto che ogni intervistato poteva esprimere scelte multiple sui candidati possibili e quindi la somma delle frequenze relative non poteva essere 1. Nella rappresentazione tramite figure si sceglie una figura per rappresentare l’unità di misura: | ^ = 1 Si rappresentano le modalità del carattere riportando un numero di figure propor- 2.5. DATI E GRAFICI 23 N C S V | | | | | | ^ ^ ^ ^ ^ ^ | | | | | | | ^ ^ ^ ^ ^ ^ ^ | | | ^ ^ ^ | | | | ^ ^ ^ ^ 6 7 3 4 Tabella 2.8: Rappresentazione delle frequenze assolute della variabile Stato civile nell’Esempio 2.3.1. xi A O S L Totli ni 2 6 8 4 20 fi pi Ni 0.1 10 2 0.3 30 8 0.4 40 16 0.2 20 20 1.0 100 20 Fi 0.1 0.4 0.8 1.0 1 Tabella 2.9: Frequenze assolute, relative, percentuali, cumulate assolute e cumulate relative del livello di scolarità nell’Esempio 2.3.1. zionale alla frequenza ni . Anche in questo caso le modalità vengono sistemate in un ordine qualsiasi. Se la variabile è di tipo qualitativo ordinale come ad esempio la variabile livello di scolarità (Y ) nell’Esempio 2.3.1, il grafico da utilizzare è preferibilmente il grafico a barre o a rettangoli dove occorre solo prestare attenzione all’ordine con cui si rappresentano le modalità che deve andare dal più basso a sinistra al più alto a destra. Si possono anche utilizzare i grafici a torta ma sono sconsigliati perché si perte l’informazione dell’ordine. I grafici con i disegni si possono utilizzare con l’accortezza di ordinare anche qui le modalità. Nel caso della variabile livello di scolarità nell’Esempio 2.3.1 le modalità con cui si presenta il fenomeno sono k = 4 x 1 = A x 2 = O x3 = S x4 = L La Tabella 2.5 riporta le frequenze, mentre nella Figura 2.3 vengono rappresentati tramite rettangoli le frequenze assolute. Se la variabile è di tipo quantitativo numerico discreto (conteggio) la rappresentazione grafica deve essere di tipo a bastoncino o segmento e l’asse su cui rappresentano i valori è di tipo numerico, per cui si deve prestare attenzione a come si rappresentano i valori rispettando l’unità di misura dell’asse. CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI 4 0 2 freq 6 8 24 A O S L grado scolarita' Figura 2.3: Grafico delle frequenze assolute del livello di scolarità nell’Esempio 2.3.1. 2.5. DATI E GRAFICI 25 xi 0 1 2 3 4 ni 5 5 3 3 4 20 fi pi Ni 0.25 25 5 0.25 25 10 0.15 15 13 0.15 15 16 0.20 20 20 1.00 100 Fi 0.25 0.50 0.65 0.80 1.00 Tabella 2.10: Frequenze assolute, relative, percentuali, cumulate assolute e cumulate relative del numero di figli nell’Esempio 2.3.1. Nell’Esempio 2.3.1 la variabile numero di figli a carico (Z) è di tipo quantitativo discreto. Le intensità con cui si presenta il fenomeno sono k = 5 x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4. Nella Tabella 2.5 sono riportate le frequenze, mentre nella Figura 2.4 sono rappresentate le frequenze assolute. Se la variabile è di tipo quantitativo continuo, la frequenza con cui si ripete una qualunque modalità è in genere uno. Quindi i tipi di grafici visti fino ad ora sarebbero privi di informazione per dati di questo tipo. Occorre dividere i valori possibili per la variabile in classi o intervalli e contare quanti valori cascano in ogni classe e quindi rappresentare i dati tramite un istogramma. Ad esempio la variabile reddito in euro (W ) dell’esempio 2.3.1 è una variabile quantitativa continua Le modalità o intensità con cui si presenta il fenomeno sono tutte distinte. Ricorriamo allora al raggruppamento dei dati in classi. Introduciamo 4 classi e andiamo a contare i valori che cascano in ogni classe e quindi calcoliamo le frequenze assolute relative e cumulate per ogni classe. Accanto a queste frequenze è importante anche riportare l’ampiezza di ogni classe che denotiamo con ai e la densità di frequenza definita come il rapporto tra la frequenza della classe e l’ampiezza della classe. Ha il significato di come le unità che cascano in quella classe si distribuiscono nella classe. Più è alta la densità più le unità sono dense nell’intervallo. La densità è denotata con li ed è definita come li = ni /ai . Si possono anche definire le densità relative, come rapporto tra le frequenze relative di una classe fi e l’ampiezza della classe, di = fi /ai . Il numero di classi e l’ampiezza delle classi dipende dal numero di dati e dai valori. In genere meno sono i dati meno sono le classi e l’ampiezza deve essere fissata in modo che in ciascun intervallo caschi almeno un certo numero di unità. Anche la scelta degli estremi inferiore e superiore del primo e dell’ultimo interval- 0 1 2 3 4 5 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI freq. assolute 26 0 1 2 3 4 numero di figli Figura 2.4: Frequenze assolute del numero di figli nell’Esempio 2.3.1. 2.5. DATI E GRAFICI 27 xi 40 a 50 50 a 58 58 a 70 70 a 95 ni 3 6 4 7 20 fi Ni 0.15 3 0.30 9 0.20 13 0.35 20 1.00 20 ai 10 8 12 25 li 0.30 0.75 0.33̄ 0.28 Tabella 2.11: Frequenze assolute, relative, percentuali, cumulate assolute ampiezza degli intervalli e densità assoluta del reddito in euro nell’Esempio 2.3.1. Gli estremi destri degli intervalli sono inclusi. lo rispettivamente è arbitraria. Il calcolo delle frequenze e la determinazione delle classi per la variabile reddito in euro dell’esempio 2.3.1 sono riportati nella Tabella 2.11, mentre l’istogramma è rappresentato nella Figura 2.5. Per costruire un istogramma i passi da seguire sono i seguenti: 1. Si suddividono i valori osservati in r classi: si denota con ai l’ampiezza della i-esima classe, i = 1, . . . , r 2. Si dispongono i valori degli estremi degli intervalli delle classi sull’asse delle ascisse rispettando l’unità di misura dell’asse. 3. Si calcolano le frequenza assolute o relative per ogni classe: ni o fi , i = 1, . . . , r. 4. Si calcolano le densità di frequenza assoluta relativa per ogni classe: li = di = afii ni ai o 5. Si tracciano dei rettangoli che hanno come base gli estremi dell’intervallo e come altezza la densità di frequenza li o di . In questo modo l’area di ogni rettangolo dell’istogramma è uguale alla frequenza assoluta (se l’altezza è li ) o relativa (se l’altezza è di ) della classe che costituisce la base. È molto importante che l’altezza dei rettangoli sia la densità (relativa o assoluta) e non la frequenza assoluta o relativa della classe. In quest’ultimo caso si otterrebbero dei grafici fuorvianti sul comportamento della variabile. Ad esempio si osservi come nell’istogramma riportato nella Figura 2.6 si abbia la percezione che vi sia una grandissima parte di redditi molto alti rispetto all’istogramma nella Figura 2.5. 28 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI 0.4 0.0 0.2 Density 0.6 Istrogramma corretto 40 50 60 70 80 90 w Figura 2.5: Istogramma della variabile reddito in euro nell’Esempio 2.3.1. Gli estremi destri degli intervalli sono inclusi. 2.5. DATI E GRAFICI 29 4 3 0 1 2 Frequency 5 6 7 Istogramma sbagliato! 40 50 60 70 80 90 w Figura 2.6: Istogramma NON CORRETTO della variabile reddito in euro nell’Esempio 2.3.1 dove l’altezza dei rettangoli è la frequenza assoluta della classe. 30 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI ni fi ai xi 40 ` 45 1 0.017 5 45 ` 50 2 0.033 5 50 ` 55 7 0.120 5 55 ` 60 6 0.100 5 60 ` 65 1 0.017 5 65 ` 70 5 0.083 5 70 ` 75 6 0.100 5 75 ` 80 11 0.180 5 80 ` 85 13 0.220 5 85 ` 90 5 0.083 5 90 ` 95 3 0.050 5 60 1 di 0.0033 0.0067 0.0230 0.0200 0.0033 0.0170 0.0200 0.0370 0.0430 0.0170 0.0100 Tabella 2.12: Tavola dei valori necessari per tracciare l’istogramma della variabile Tempo di pausa tra due eruzioni successive dai dati dell’esempio 2.3.3. 2.6 2.6.1 Esempi Il geyser Old Faithful Riprendiamo i dati dell’Esempio 2.3.3. Per fare l’istogramma della distribuzione dei tempi di pausa dobbiamo raccogliere i dati in classi. Costruiamo l’istogramma per la durata dei periodi di pausa dopo ogni eruzione del geyser Old Faithful. La Tabella 2.12 riporta le frequenze assolute ni le frequenze relative fi = nni l’ampiezza di ogni classe ai che in questo caso è 5 per ogni classe, e la densità di frequenza relativa di = afii . L’istogramma per tutti i dati è riportato in Figura 2.7. Consideriamo ora il sottocampione costituito dalle eruzioni con Eruzione precedente Corta e costruiamo l’istogramma per questa distribuzione. La tabella delle frequenze è riportata di seguito: xi ni 42 1 45 49 1 1 50 51 1 4 53 2 55 2 56 2 58 1 66 1 67 1 L’istogramma è riportato nella Figura 2.8 mentre lasciamo come esercizio di costruire una tavola analoga alla 2.13 per la variabile Durata del tempo di pausa per il sottocampione relativo alle eruzioni con eruzione precedente lunga. L’istogramma è riportato nella Figura 2.9. 2.6. ESEMPI 31 0.03 0.02 0.00 0.01 Density 0.04 0.05 Istogramma delle durate per tutti i dati 40 50 60 70 80 90 100 Durata (minuti) Figura 2.7: Istogramma della variabile Tempo di pausa. Il tempo è misurato in minuti. xi 40 ` 45 45 ` 50 50 ` 55 55 ` 60 60 ` 65 65 ` 70 ni 1 2 7 5 0 2 17 fi ai 0.06 5 0.12 5 0.41 5 0.29 5 0 5 0.12 5 1 di 0.01 0.02 0.08 0.06 0 0.02 Tabella 2.13: Tavola dei valori necessari per tracciare l’istogramma della variabile Tempo di pausa tra due eruzioni successive dai dati dell’esempio 2.3.3 solo per il sottocampione con eruzione precedente di tipo corto. 32 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI 0.06 0.04 0.00 0.02 Density 0.08 0.10 Durata del tempo di pausa per eruzione precedente corta 40 50 60 70 80 90 100 Durata (minuti) Figura 2.8: Istogramma della variabile Durata del tempo di pausa per il sottocampione con eruzione precedente di tipo Corta. 2.6. ESEMPI 33 0.06 0.04 0.00 0.02 Density 0.08 0.10 Durata del tempo di pausa per eruzione precedente lunga 40 50 60 70 80 90 100 Durata (minuti) Figura 2.9: Istogramma della variabile Durata del tempo di pausa per il sottocampione con eruzione precedente di tipo Lunga. 34 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI Tasso by H M 0a2 2 – 2a4 7 – 4 a 6 12 5 6 a 8 18 7 8 a 10 4 8 10 a 12 5 16 12 a 14 – 6 14 a 16 – 5 16 a 18 – 3 Totali 48 50 Tabella 2.14: Tasso della parola by in 48 scritti di Hamilton (H) e in 50 scritti di Madison (M) (numero di ricorrenze ogni 1000 parole). 2.6.2 Un caso di attribuzione letteraria Questo esempio riguarda gli 85 articoli sul federalismo che furono pubblicati negli Stati Uniti per convincere i cittadini dello stato di New York a ratificare la costituzione. Gli storici si diedero l’arduo compito di individuare chi erano gli autori di questi articoli. Per 73 di questi articoli non ci sono stati problemi di attribuzione, mentre per i restanti 12 gli storici non erano d’accordo se attribuire questi 12 scritti a Hamilton o a Madison, entrambi due scrittori di testi politici molto famosi e attivi a quell’epoca. Il contenuto politico non riesce a determinare quale dei due sia l’autore dei 12 scritti perché entrambi avevano le stesse idee politiche. Gli istogrammi possono aiutare a dirimere la questione. Gli autori tendono ad avere differenti stili di scrittura in particolare tendono ad usare parole non contestuali con un tasso (numero di parole ogni mille) con una distribuzione che li caratterizza. La Tabella 2.14 riporta il tasso della parola by rilevata ogni 1000 parole in 48 scritti di Hamilton (non solo quelli attribuiti a lui degli 85 sul federalismo) e in 50 scritti di Madison (anche in questo caso non sono stati considerati solo gli scritti sul federalismo). In un articolo del 1963, Mosteller e Wallace utilizzarono una metodologia statistica per l’attribuzione dei 12 scritti ad uno dei due autori. Qui prendiamo i loro dati e tracciamo gli istogrammi (anche per i dati numerici discreti possiamo farlo). La Tabella 2.15 riporta invece il tasso della parola by nei 12 scritti contesi sul federalismo. Dopo aver tracciato gli istogrammi per la variabile tasso sia per gli scritti di Hamilton che per quelli di Madison che per gli scritti contesi, il grafico riportato 2.6. ESEMPI Rate ni 0a2 – 35 2a4 – 4a6 2 6a8 1 8 a 10 2 10 a 12 4 12 a 14 2 14 a 16 1 16 a 18 – Tabella 2.15: Tasso della parola by nei 12 scritti contesi sul federalismo (numero di ricorrenze ogni 1000 parole). in Figura 2.10 sembra propendere per attribuire gli scritti contesi ad uno dei due autori senza molti dubbi. Si noti che per fare il confronto occorre prestare attenzione affinché in tutti i grafici la scala sia la stessa e si utilizzano frequenze relative perché il numero di scritti è diverso nelle tre distribuzioni. 2.6.3 Il primo bacio non si scorda mai In questo esempio vediamo invece come le frequenze cumulate possono aiutare a capire meglio un fenomeno. Nella Tabella 2.16 sono riportate le frequenze assolute ni , le frequenze assolute cumulate Ni e le frequenze relative cumulate della variabile età a cui è stato dato il primo bacio a sfondo sessuale. Si tratta di una variabile continua (l’età) ed è rilevata su un campione di 42 giovani uomini (dati privati). Abbiamo calcolato la frequenza cumulata relativa perché ci interessa confrontare questo fenomeno con quello riportato nella Tabella 2.17 in cui viene rilevata sullo stesso gruppo di giovani uomini l’età in cui hanno avuto il primo rapporto sessuale. La tabella riporta anche in questo caso le frequenze assolute ni , le frequenze assolute cumulate Ni e le frequenze relative cumulate. Dalla Tabella 2.16 ad esempio leggiamo che il più alto numero di uomini ha dato il primo bacio all’età di 15 anni (frequenza assoluta 12). Ma il dato che descrive meglio il fenomeno è il fatto che all’età di 15 anni, 34 uomini dei 42 (ovvero l’81%) hanno già dato il primo bacio (frequenza cumulata 34, frequenza cumulate relativa 0.81). Si deduce anche che almeno il 50% degli uomini ha dato il primo bacio ad un’età inferiore o uguale ai 14 anni (frequenza cumulata relativa 0.52). Dalla Tabella 2.17 invece leggiamo che che il primo rapporto sessuale è avvenuto dopo il primo bacio (prima osservazione età=11), che il più alto numero di uomini ha avuto il primo rapporto all’età di 18 anni (frequenza assoluta 15). Anche in questo caso il dato che descrive meglio il fenomeno è il fatto che all’età di 18 anni, 36 uomini dei 42 (ovvero l’86%) hanno già avuto il primo rapporto sessuale (frequenza cumulata 36, frequenza cumulate relativa 0.86). Si deduce anche che il 50% degli uomini ha avuto il primo rapporto sessuale ad un’età inferiore o uguale ai 17 anni (frequenza cumulata relativa 0.50). La tabella 2.18 riporta le due distribuzioni 36 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI 0.10 0.05 0.00 Density 0.15 Scritti di Madison 0 5 10 15 Rate 0.10 0.00 Density Scritti di Hamilton 0 5 10 15 Rate 0.10 0.05 0.00 Density 0.15 Scritti contesi 0 5 10 15 Rate Figura 2.10: Istogramma della variabile Tasso della parola by nei 50 scritti di Madison (M), nei 48 scritti di Hamilton (H) e nei 12 scritti contesi sul federalismo. 2.6. ESEMPI 37 Età 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Totali ni Ni 1 1 0 1 1 2 0 2 3 5 6 11 5 16 6 22 12 34 2 36 4 40 1 41 0 41 1 42 42 – Fi 0.024 0.024 0.048 0.048 0.119 0.262 0.381 0.524 0.810 0.857 0.952 0.976 0.976 1.000 – Tabella 2.16: Età del primo bacio a carattere sessuale di 42 giovani uomini. Frequenze assolute, frequenze cumulate e frequenze cumulate relative. Età 11 12 13 14 15 16 17 18 19 20 21 Totali ni 1 0 1 4 4 5 6 15 4 1 1 42 Ni 1 1 2 6 10 15 21 36 40 41 42 – Fi 0.02 0.02 0.05 0.14 0.24 0.36 0.50 0.86 0.95 0.98 1 – Tabella 2.17: Età del primo rapporto sessuale di 42 giovani uomini. Frequenze assolute, frequenze cumulate e frequenze cumulate relative. 38 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI Età 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Totali nB i 1 0 1 0 3 6 5 6 12 2 4 1 0 1 0 42 NiB 1 1 2 2 5 11 16 22 34 36 40 41 41 42 42 – FiB nR i 0.02 0 0.02 0 0.05 0 0.05 0 0.12 1 0.26 0 0.38 1 0.52 4 0.81 4 0.86 5 0.95 6 0.98 15 0.98 4 1 1 1 1 – 42 NiR 0 0 0 0 1 1 2 6 10 15 21 36 40 41 42 – FiR 0 0 0 0 0.02 0.02 0.05 0.10 0.24 0.36 0.50 0.86 0.95 0.98 1 – Tabella 2.18: Età del primo bacio a carattere sessuale e del primo rapporto sessuale di 42 giovani uomini. Frequenze assolute, frequenze cumulate e frequenze cumulate relative. (Apice B si riferiscono all’età del primo bacio, apice R all’età del primo rapporto). insieme. Per effettuare il confronto l’età è stata fissata da 7 a 21 anni per entrambe le distribuzioni. Le frequenze cumulate relative sono state arrotondate alla seconda cifra significativa. Nella figura 2.11 le due distribuzioni sono messe a confronto. Come si può osservare il grafico delle frequenze cumulate relative della distribuzione dell’età del primo rapporto sessuale sta sempre sotto il grafico delle frequenze cumulate relative dell’età del primo bacio. Questo significa che la prima distribuzione è sempre maggiore della seconda. Cioè l’età del primo rapporto sessuale è maggiore dell’eta del primo bacio. La linea orizzontale tracciata per F = 0.50 ci informa che l’età in cui almeno il 50% del campione ha dato il primo bacio è 14 anni, mentre l’età in cui almeno il 50% del campione ha avuto il primo rapporto sessuale è 17 anni. La lunghezza del segmento tra i due punti in cui la retta F = 0.50 interseca le due linee delle frequenze cumulate relative ci informa sul fatto che la metà della campione ha avuto il primo rapporto sessuale tre anni dopo che la metà del campione ha dato il primo bacio. 2.6. ESEMPI 39 0.8 1.0 Età al primo bacio e del primo rapporto sessuale 0.0 0.2 0.4 F 0.6 età primo bacio età primo rapporto 10 15 20 età Figura 2.11: Grafico delle frequenze cumulate relative per l’età al primo bacio e l’età del primo rapporto sessuale per 42 giovani uomini. La retta rappresenta F = 0.50. 40 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI Capitolo 3 Valori medi Il titolo di questo capitolo è al plurale perché come vedremo ci sono diversi tipi di medie per un certo tipo di dati e diverse medie per diversi tipi di dati (numerici o nominali). In inglese il termine average può indicare questo tipo di media mentre viene lasciato al termine mean il significato di media (aritmetica) di un certo numero di valori numerici. In italiano non abbiamo una tale ricchezza di vocaboli per cui dovremo prestare attenzione al fatto se con il termine media ci riferiamo ad un concetto, cioè se indichiamo quel valore che sintetizza l’intera distribuzione, oppure alla media aritmetica che è solo una delle medie a cui si riferisce il titolo del capitolo. In genere dal contesto si capirà a cosa ci stiamo riferendo. Quello che si vuole fare in questo capitolo è condensare in un solo numero (quando i dati sono di tipo numerico) o in una sola caratteristica (quando sono nominali) un intero insieme di dati relativi ad una certa variabile. Questo unico numero (nel caso delle variabili numeriche) viene chiamato, a seconda dei casi, moda, mediana o media (aritmetica, ma in realtà esiste anche la media armonica e altri tipi di media che non studieremo) Concludiamo questa introduzione con una poesia del poeta romano Trilussa (pseudonimo di Carlo Alberto Salustri, nato nel 1871 e morto nel 1950) dal titolo che non ha bisogno di presentazioni in questo volume e che sottolinea come il valore medio debba essere considerato con attenzione e non con leggerezza. LA STATISTICA Sai ched’è la statistica? È ’na cosa che serve pe fà un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che sposa. 41 42 CAPITOLO 3. VALORI MEDI Ma pè me la statistica curiosa è dove c’entra la percentuale, pè via che, lı̀ , la media è sempre eguale puro co’ la persona bisognosa. Me spiego: da li conti che se fanno seconno le statistiche d’adesso risurta che te tocca un pollo all’anno: e, se nun entra nelle spese tue, t’entra ne la statistica lo stesso perch’è c’è un antro che ne magna due. Come vedremo non sempre la media aritmetica di cui parla Trilussa va bene per descrivere fenomeni come questo. 3.1 La moda La moda può essere calcolata per qualunque tipo di variabile (o di dati). Definizione 3.1.1. La moda è la modalità per le variabili nominali (o il numero per le variabili numeriche) che si presenta con la frequenza maggiore. Per trovare la moda di una distribuzione bisogna allora calcolare tutte le frequenze (è indifferente se assolute o relative) e andare a vedere a quale modalità corrisponde la frequenza maggiore. Tale modalità è la moda della distribuzione o la moda della variabile. A volte può capitare che due modalità abbiano la frequenza maggiore, in questo caso si dice che la distribuzione è bi-modale. Anche quando rappresentando i dati graficamente si osservano due picchi distanti per le frequenze si può dire che la distribuzione è bi-modale. Ad esempio nel caso dei dati sui tempi di pausa del geyser Old Faithful dell’Esempio 2.3.3. Nella Figura 2.7 si notano due frequenze distinte nettamente più alte delle altre. In questo caso sono presenti due nette distribuzioni come lo studio dividendo le osservazioni rispetto alla variabile tipo di eruzione precedente mette in luce. Esercizio 3.1.2. Calcolare la moda per i dati dell’Esempio 2.4.2, Moda= ottimo. Esempio 2.3.1 per la variabile X stato civile e Z titolo di studio. 3.2. LA MEDIA ARTITMETICA 3.2 43 La media artitmetica La media aritmetica si può fare per le variabili numeriche. Se abbiamo la distribuzione del numero dei figli possiamo calcolare la media (aritmetica) del numero di figli, se abbiamo la distribuzione dei redditi possiamo calcolare la media (aritmetica) dei redditi. La media aritmetica si calcola in due passi: 1. Si sommano tutti i valori osservati 2. Si divide la somma ottenuta per il numero di valori osservati Non si può calcolare la media aritmetica di un carattere nominale. Ad esempio se abbiamo la seguente distribuzione M F Tot. 22 12 44 non possiamo fare la media tra M e F. Possiamo solo dire che in questo campione è maggiore il numero di maschi, cioè la moda è il carattere o modalità maschio. Neppure se fossero codificati M=1 22 F=2 12 Tot. 44 non possiamo calcolare 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1+ 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1+ 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 = 46 e quindi dire che la media è 46/44 = 1.05. La definizione di media aritmetica è un po’ complessa ma la diamo lo stesso. (Quella data sopra è la regola di calcolo non la definizione). Definizione 3.2.1. La media aritmetica di n valori è quel valore che se sostituito a tutti i valori lascia inalterata la somma totale degli n valori. Per rivederla con Trilussa, se io mangio due polli e tu zero, i due valori sono 2 e 0, il totale dei polli in gioco, anzi meglio, mangiati è 2+0=2. La media aritmetica è 1, per la statistica io mangio un pollo e anche tu un pollo, in totale sempre due polli si mangiano. Se si sostituisce sia a 2 che a 0 la media, 1, la somma totale dei polli mangiati non cambia, 1+1=2. 44 CAPITOLO 3. VALORI MEDI Riprendiamo i dati relativi alla durata dei tempi di pausa nell’esempio 2.3.3. Consideriamo la variabile Durata del tempo di pausa nel caso l’eruzione precedente sia di tipo corto. Sono 17 osservazioni del campione che per comodità riportiamo nella seguente tabella. xi ni 42 1 45 49 1 1 50 51 1 4 53 2 55 2 56 2 58 1 66 1 67 1 Calcoliamo la media aritmetica del tempo di pausa per questo sottocampione. 1. Prima si sommano tutti i valori tenendo presente che alcuni di essi si presentano più di una volta: 42+45+49+50+51+51+51+51+53+53+55+55+56+56+58+66+67= 909 2. Si divide il risultato per il numero di valori, in questo caso n = 17: 909 = 53.47 17 Si dice che la media aritmetica dei tempi di pausa tre due eruzioni successive quando la precedente è di tipo Corto è di 53.47 minuti. La media aritmetica si denota quasi universalmente con la x barrata. Ovvero si scrive x̄ = 53.47. Tale scrittura viene dal fatto che se si indicano con xi gli n valori di una generica variabile X la media aritmetica di ottiene applicando i due passi in uno solo come n 1X x̄ = xi . n i=1 Dal punto di vista inferenziale si può interpretare che se mi metto seduto accanto al geyser che ha appena avuto un eruzione di tipo corto, mi aspetto di dover aspettare (scusate il gioco di parole!) circa 53 minuti prima di vedere il geyser emettere il suo spruzzo di vapore. Tornando alla definizione, se si sostituisce ai 17 valori osservati il valore medio calcolato x̄ = 53.47 abbiamo che la somma totale dei tempi di attesa non cambia, infatti sommare per 17 volte il valore 53.47 equivale a calcolare il prodotto 53.47·17 = 908.99 che è uguale a 909 a meno degli arrotondamenti. Esercizio 3.2.2. Calcolare la media aritmetica della variabile Tempo di pausa quando l’eruzione precedente è di tipo lungo e indipendentemente dal dipo di eruzione precedente. Risultati per eruzione precedente Lunga x̄ = 78.19 totale x̄ = 71.18. Calcolare la media aritmetica della variabile Numero di figli nell’Esempio 2.3.1. Risultato: x̄ = 1.8. Cosa significa che la media aritmetica è 1.8 figli? 3.3. LA MEDIANA 45 Sfruttando la definizione di media aritmetica la media totale si può anche ottenere come 4271.16 17 ∗ 53.47 + 43 ∗ 78.19 = = 71.186 60 60 che a meno degli arrotondamenti è la media calcolata. 3.3 La mediana La mediana è un modo alternativo di calcolare il valor medio di una distribuzione inteso come quel valore che sintetizza al meglio la distribuzione dei dati (l’average inglese) e quindi descrive meglio il fenomeno oggetto di studio. Forziamo la mano a Trilussa. Supponiamo di avere 10 persone, una di essa che mangia 10 polli e le altre nove che non ne mangiano neppure uno. Abbiamo 10 valori, x1 = 10 e gli altri valori xi = 0 per i = 2, 3, . . . , 10. La media aritmetica del numero di polli mangiati a testa è ancora 1, cioè per dirla con Trilussa il pollo di media t’entra ne la statistica lo stesso perch’è c’è un antro che ne magna dieci!. Si capisce che in questo caso la media non descrive bene la distribuzione del numero di polli che si mangiano questi 10 cristiani! La mediana è un modo alternativo di riassumere la distribuzione che tiene conto di questa disparità. Definizione 3.3.1. La mediana è l’osservazione, cioè quel valore tra quelli osservati, che ha alla sua sinistra (cioè più bassi) la metà delle osservazioni e alle sua destra, cioè più alti l’altra metà delle osservazioni. La mediana è quindi quel valore che divide divide in due parti uguali le osservazioni. Vediamo le operazioni per calcolarla. 1. Si ordinano le n osservazioni dalla più piccola alla più grande. 2. Si calcola il valore n+1 . 2 (a) Se n è dispari l’osservazione che sta nella posizione na. n+1 -esima 2 è la media- (b) Se n è pari si prendono le due osservazioni centrali, quella che occupa la posizione n2 -esima e quella che occupa la posizione n2 + 1-esima e la mediana è data dalla media aritmetica di queste due osservazioni. Consideriamo le n = 17 osservazioni nell’esempio 2.3.3 relative alla variabile Durata del tempo di pausa nel caso l’eruzione precedente sia di tipo corto. Le 17 osservazioni ordinate dalla più piccola alla più grande sono: 42, 45, 49, 50, 51, 51, 51, 51, 53, 53, 55, 55, 56, 56, 58, 66, 67 46 CAPITOLO 3. VALORI MEDI Poiché n è dispari, calcoliamo il valore n+1 = 9. La nona osservazione è il valore 53, 2 dunque la mediana è 53. Scriveremo M e = 53. Consideriamo adesso le n = 60 osservazioni nell’esempio 2.3.3 relative alla variabile Durata del tempo di pausa indipendentemente dal valore della variabile Tipo di pausa precedente. Questi sono i valori ordinati della durata della pausa dopo un eruzione del Gaiser Old Faithful. 42 68 80 45 69 80 49 70 80 50 71 81 51 72 82 51 73 82 51 73 82 51 74 83 53 75 83 53 75 84 55 75 84 55 75 84 56 76 85 56 76 86 57 76 86 58 76 86 60 76 88 66 79 90 67 79 91 67 80 93 = 30.5, prendiamo i valori nella Per calcolare la mediana, poiché n è pari, 60+1 2 n n posizione 2 = 30 e 2 + 1 = 31, sono 75 e 75, per cui la mediana è M e = 75. Tornando all’esempio dei polli, se una persona mangia 10 polli e nove persone zero polli, la distribuzione ordinata delle osservazioni è 0, 0, 0, 0, 0, 0, 0, 0, 0, 10 il valore (10+1)/2 = 5.5, i due valori che occupano la quinta e la sesta posizione sono 0 e 0, per cui la mediana è zero. Quindi la mediana di questa distribuzione descrive molto meglio il fenomeno: il numero medio (inteso come sintesi della distribuzione) di polli mangiati da ciascuno è zero, non 1, con buona pace di Trilussa. 3.4 Medie per i dati in classi Molte volte i dati vengono forniti direttamente in classi. Come nel caso dell’indagine dell’ISTAT sulle famiglie e i soggetti sociali da cui sono presi i dati della Tabella 3.1. Si tratta di tre distribuzioni dell’età dei pendolari considerati in base al sesso. Vogliamo calcolare l’età media dei pendolari e capire se c’è differenza tra l’età degli uomini e delle donne. Quando i dati sono raccolti in classi e non possiamo risalire ai dati originari da cui sono state costruite le classi per calcolare la media aritmetica e la mediana dobbiamo fare delle ipotesi. Per la moda possiamo dire che la classe modale è sia per gli uomini che per le donne 25 − 34. La moda però non è molto informativa in questo caso. Di solito non si usa per i dati raccolti in classi. Per la media aritmetica dovremmo conoscere l’età di ogni unità che casca in una classe. Poiché non la conosciamo facciamo l’ipotesi che le unità siano distribuite uniformemente all’interno della classe, che equivale a ipotizzare che tutti abbiano l’eta che casca nel punto centrale dell’intervallo che determina la classe. Ad esempio il punto centrale della classe 14 − 24 è 19. Per determinare i punti centrali abbiamo 3.4. MEDIE PER I DATI IN CLASSI età 0-13 14-24 25-34 35-44 45-54 55-64 65-74 75 e più Totale 47 Uomini Donne totale 84 75 159 282 297 579 391 355 746 281 168 449 187 127 314 168 137 305 79 82 161 45 132 177 1517 1373 2890 Tabella 3.1: Persone pendolari verso un luogo diverso propria abitazione per sesso e classe di età - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali. una formula: se l’intervallo `e [a, b) il punto medio si ottiene sommano gli estremi e dividendo per due a+b Punto medio = 2 Quindi per calcolare la media dobbiamo calcolare tutti i punti medi e quindi calcolare la media della nuova distribuzione. Per i nostri dati i conti sono fatti nella Tabella 3.2. Facciamo attenzione che l’età è un carattere continuo quindi tutti i valori devono essere compresi. Abbiamo quindi modificato gli estremi dell’intervallo, perché chi ad esempio ha 24 anni e mezzo appartiene alla terza classe non alla seconda. Si noti che per l’ultima classe non era dato l’estremo superiore quindi abbiamo fatto l’ipotesi che fosse 84, per analogia alle classi precedenti. Per calcolare la media quindi consideriamo la distribuzione in cui l’età 6 si presenta 84 volte, l’età 19 si presenta 282 volte e cos via. La media dell’età dei pendolari uomini è 6 ∗ 84 + 18 ∗ 282 + 29 ∗ 391 + 39 ∗ 281 + 49 ∗ 187 + 59 ∗ 168 + 69 ∗ 79 + 79 ∗ 45 = 55959 e quindi 55959 = 36.89 1517 In modo analogo calcoliamo la media dell’età per le donne e la media dell’età per tutto il campione. I risultati sono: media etè donne 38.62, media età per tutto il campione 37.71. Possiamo concludere che le donne che fanno le pendolari hanno quasi due anni di più degli uomini in media. Per il calcolo della mediana quando i dati sono raccolti in classe il metodo migliore è il metodo grafico. Vediamo i passi per ottenerla 48 CAPITOLO 3. VALORI MEDI età valore centrale Uomini Donne totale 0 a 12 6 84 75 159 12 a 24 18 282 297 579 24 a 34 29 391 355 746 34 a 44 39 281 168 449 44 a 54 49 187 127 314 54 a 64 59 168 137 305 64 a 74 69 79 82 161 74 a 84 79 45 132 177 Totale – 1517 1373 2890 Tabella 3.2: Persone pendolari verso un luogo diverso propria abitazione per sesso e classe di età - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali. 1. Costruiamo il grafico delle frequenze cumulate relative. 2. Individuiamo sull’asse delle ordinate il valore F = 0.50. 3. Tracciamo la retta orizzontale in corrispondenza di F = 0.50 fino ad incontrare la spezzata delle frequenze cumulate relative. 4. Tracciamo la retta verticale dal punto dove la retta F = 0.50 incontra la spezzata delle frequenze cumulate relative fino all’incontro dell’asse. 5. La mediana è il punto dove questa retta incontra l’asse delle ascisse. Questo metodo grafico è in realtà dedotto da un metodo analitico, si individua la classe mediana, come quella classe in cui la frequenza cumulata relativa è uguale o supera il valore F = 0.50. Se la cumulata relativa è esattamente 0.50 la mediana è l’estremo superiore della classe. Sia che sia incluso sia che non lo sia nell’intervallo. Se il valore della frequenza cumulata supera 0.50, si cerca il valore sull’asse delle ascisse al quale corrisponde sulla spezzata delle frequenze cumulate il valore sull’asse delle ordinate di 0.50. La formula è la seguente. Indichiamo con F − e F + i valori delle frequenze cumulate della classe prima della classe mediana e della classe mediana rispettivamente. Indichiamo con xa e xb l’estremo inferiore e l’estremo superiore della classe mediana, indipendentemente se siano inclusi o esclusi dall’intervallo. La mediana è data da xb − xa M e = xa + + (0.50 − F − ) (3.1) F − F− Si noti che se la classe mediana ha come frequenza cumulata esattamente 0.50, allora nella formula sopra F + = 0.50 e la mediana è proprio xb , l’estremo superiore della 3.4. MEDIE PER I DATI IN CLASSI 49 età Uomini Ni Fi 0 a 12 84 84 0.06 12 a 24 282 366 0.24 24 a 34 391 757 0.50 34 a 44 281 1038 0.68 44 a 54 187 1225 0.81 54 a 64 168 1393 0.92 64 a 74 79 1472 0.97 74 a 84 45 1517 11 Totale 1517 – – Tabella 3.3: Uomini pendolari verso un luogo diverso propria abitazione per sesso e classe di et - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali. xi 40 a 50 50 a 58 58 a 70 70 a 95 ni 3 6 4 7 20 fi Ni 0.15 3 0.30 9 0.20 13 0.35 20 1.00 20 ai Fi 10 0.15 8 0.45 12 0.65 25 1 Tabella 3.4: Redditi di 20 capofamiglia. classe mediana. Vediamo un esempio con i dati dell’esempio dell’indagine dell’ISTAT sulle famiglie e i soggetti sociali. Nella Tabella 3.3 sono calcolate le frequenze cumulate relative. Dalla colonna delle frequenze cumulate relative deduciamo che la classe (24, 34] è la classe mediana. Notiamo poi che la frequenza relativa cumulata è proprio 0.50. La mediana in questo caso è l’estremo superiore della classe mediana, 35 anni. Consideriamo ora la Tabella 3.4, che riporta i dati del reddito dell’Esempio 2.3.1. La classe mediana è (58, 70]. Quindi xa = 58 xb = 70. La frequenza cumulata della classe mediana è F + = 0.65, la frequenza cumulata della classe prima della mediana è 0.45. Applicando la formula per la mediana otteniamo M e = 58 + 70 − 58 (0.50 − 0.45) = 61 0.65 − 0.45 La mediana del reddito è 61000 euro. (Ricordiamo che i dati del reddito erano in migliaia di euro). Vediamo un ultimo esempio. L’età mediana delle donne pendolari. La Tabella 3.5 contiene i dati per il calcolo della mediana. Dalla formula 3.1 abbiamo 50 CAPITOLO 3. VALORI MEDI età Donne Ni Fi 0 a 12 75 75 0.05 12 a 24 297 372 0.27 24 a 34 355 727 0.53 34 a 44 168 895 0.65 44 a 54 127 1022 0.74 54 a 64 137 1159 0.84 64 a 74 82 1254 0.90 75 a 84 45 1373 1 Totale 1373 – – Tabella 3.5: Donne pendolari verso un luogo diverso propria abitazione per sesso e classe di et - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali. M e = 24 + 34 − 24 (0.50 − 0.27) = 32.85 0.53 + −0.27 L’etè mediana delle donne pendolari è 33 anni. Esercizio 3.4.1. Fare il grafico delle frequenze cumulate relative dei dati nelle Tabelle 3.3, 3.4 e 3.5. Dedurre con il metodo grafico il valore della mediana per le tre distribuzioni. Esercizio 3.4.2. Calcolare la mediana dell’età del primo bacio e dell’età del primo rapporto sessuale per i dati nella Tabella 2.18. Dedurre con il metodo grafico il valore della mediana per le due distribuzioni facendo riferimento alla Figura 2.11. 3.5 Simmetria e asimmetria L’istogramma dei dati ci permette di capire se la distribuzione dei dati è di tipo asimmetrico o simmetrico. Possiamo tracciare seguendo la forma dell’istogramma una curva continua che mostra la distribuzione dei dati. La Figura 3.1 si riferisce ai tempi di sopravvivenza di 128 pazienti operati per un tumore ai polmoni (dati personali). Quando la distribuzione, come quella in figura, mostra la maggior parte dei dati nella parte sinistra o mostra valori bassi, con pochi valori alti, si dice che la distribuzione presenta un’asimmetria positiva. In questo caso la media assume un valore più alto della mediana. Quando succede il contrario (tanti valori alti e pochi bassi), e quindi la media aritmetica è minore della mediana si dice che la distribuzione presenta un’asimmetria negativa. Quando invece la distribuzione è simmetrica la media e la mediana hanno lo stesso valore. La più importante 51 Density 0.00 0.05 0.10 0.15 0.20 3.6. QUALE MEDIA SCEGLIERE? 0 5 10 15 t Figura 3.1: Tempi di sopravvivenza di 128 pazienti operati per un tumore ai polmoni. La media aritmetica dei tempi è 10 anni. La mediana è 2.3 anni (2 anni e poco più di 3 mesi). distribuzione simmetrica della statistica è la distribuzione Normale. Se i dati sono distribuiti in modo simmetrico attorno ad una valore centrale e la loro distribuzione ha la cosiddetta forma a campana, come nella Figura 3.2 dove abbiamo l’istogramma relativo a 1000 osservazioni di una distribuzione simmetrica, si dice che i dati seguono una distribuzione Normale, che qui è tracciata con una linea continua. Torneremo ancora molte volte a questa distribuzione perché è la distribuzione più importante di tutta la statistica. I dati provenienti da indagini sul peso e sull’altezza di una popolazione seguono spesso una distribuzione Normale. Questo poiché la maggior parte dei pesi o delle altezze, si distribuiscono attorno ad un valore centrale, in modo simmetrico a sinistra o a destra e di solito con pochi valori particolarmente alti o bassi. 3.6 Quale media scegliere? Il compito della media (average) o valore centrale è quello di sintetizzare un’intera distribuzione di dati, quindi l’informazione che ci fornisce deve essere il più possibile vicino alla distribuzione che li sintetizza. Diamo qui qualche suggerimento non esaustivo per la scelta della media per una distribuzione di dati. 52 CAPITOLO 3. VALORI MEDI 0.2 0.0 0.1 Density 0.3 0.4 Distribuzione simmetrica, normale −3 −2 −1 0 1 2 3 x Figura 3.2: Istogramma di 1000 osservazioni normale e distribuzione Normale (linea continua). La distribuzione è simmetrica. 1. La moda va usata solo per i dati qualitativi. Quasi mai per i dati quantitativi a meno che la distribuzione sia bimodale. In questo caso fornire il valore delle due mode è più indicativo che fornire la media o la mediana che farebbero scomparire l’informazione sulle due sottopopolazioni probabilmente presenti. 2. Quando si è in presenza di distribuzioni asimmetriche è meglio utilizzare la Mediana, perché la media aritmetica risente dei pochi valori particolarmente alti o bassi come nel caso dell’Esempio rappresentato in Figura 3.1. 3. Se i dati hanno una distribuzione simmetrica è preferibile utilizzare la media aritmetica. 4. Se i dati sono soggetti ad errori (ad esempio dovuti alla registrazione) è meglio anche in questo caso utilizzare la Mediana, in quanto la media è molto influenzata da osservazioni particolarmente diverse o inusuali. La mediana invece non risente di questi valori. 3.7. QUARTILI, PERENTILI E QUANTILI 3.7 53 Quartili, perentili e quantili I quartili e i percentlli o più in generale i quantili sono indici di posizione. Individuano l’osservazione che lascia alla sua sinistra almeno il 25% delle osservazioni (primo quartile), almeno il 75% delle osservazioni (terzo quartile), almeno una percentuale p di osservazioni (p-esimo percentile). Definizione 3.7.1 (Primo quartile). Quel valore che lascia alla sua sinistra il (o almeno il) 25% delle osservazioni. Definizione 3.7.2 (Terzo quartile). Quel valore che lascia alla sua sinistra il (o almeno il) 75% delle osservazioni. Definizione 3.7.3 (p-esimo percentile). Per p = 1, 2, . . . , 100 è quel valore che lascia alla sua sinistra il (o almeno il) p% delle osservazioni. Dalle definizioni appena date risulta evidente che il 25-esimo, il 50-esimo e il 75-esimo percentile sono rispettivamente il primo quartile, la mediana e il terzo quartile. Inoltre il secondo quartile è la mediana. La procedura per calcolare un’approssimazione dei quartili o dei percentili si può riassumere nei seguenti passi. • Si ordinano i valori osservati dal più piccolo al più grande. • Si calcolano i valori 0.25(n + 1) (primo quartile), 0.75(n + 1), (terzo quartile) p (n + 1) (p-percentile). ovvero il valore 100 • Se è intero l’osservazione che occupa la posizione data dal valore calcolato è il primo quartile o il terzo quartile o p-esimo percentile. • Se non è intero si calcola la media tra i due valori le cui posizioni precedono e seguono il valore calcolato. Si osservi che prendere il valore medio è solo una questione di semplicità. Il valore del quantile corrispondente dovrebbe essere il valore proporzionale alla parte decimale tra le due osservazioni nelle posizioni date dai due interi che precedono e seguono il valore non intero calcolato. Se n è elevato conviene procedere calcolando le frequenze relative cumulate. Il valore dell’osservazione per la quale la frequenza relativa cumulata supera 0.25, 0.75, ovvero p/100 dove p = 1, . . . , 99 è detto primo quartile, terzo quartile o p-esimo percentile. Esempio 3.7.4. Calcoliamo i quartili e i percentili per i dati dei tempi di pausa prima di un’eruzione del geyser Old Faithful. I valori ordinati della durata della pausa dopo un eruzione sono 54 CAPITOLO 3. VALORI MEDI 42 58 75 82 45 60 75 82 49 66 76 83 50 67 76 83 51 67 76 84 51 68 76 84 51 69 76 84 51 70 79 85 53 71 79 86 53 72 80 86 55 73 80 86 55 73 80 88 56 74 80 90 56 75 81 91 57 75 82 93 = 30.5. Posizioni 30 e 31, sono i valori 75 e 75, per cui la • Mediana: 60+1 2 mediana è M e = 75. • Primo Quartile: 0.25(61) = 15.25. Posizioni 15 e 16: sono i valori 57 e 58. Il primo quartile è Q1 = 57.5 • Terzo Quartile: 0.75(61) = 45.75. Posizioni 45 e 46: sono i valori 82 e 82. Il terzo quartile è Q3 = 82 • Quinto percentile: 0.05(61) = 3.05. Posizioni 3 e 4: sono i valori 49 e 50. Il quinto percentile è P5 = 49.5 • 95-esimo percentile: 0.95(61) = 57.95. Posizioni 57 e 58: sono i valori 88 e 90. Il novantacinquesimo percentile è P95 = 89 3.8 Il box-plot Il box blot è un grafico che permette di dare una rappresentazione della distribuzione di una variabile molto immediata tramite il calcolo dei quartili e della mediana. Il nome deriva dal fatto che la distribuzione di una variabile statistica viene rappresentata come una scatola. Per disegnare il box plot la procedura può essere riassunta dai seguenti passi. 1. gli estremi della scatola sono Q1 e Q3 2. la scatola è tagliata dalla mediana 3. Si calcola il valore Q3 + 1.5 · (Q3 − Q1 ). Il basso superiore coincide con la più grande osservazione minore o uguale a questo valore. 4. Si calcola il valore Q1 − 1.5 · (Q3 − Q1 ). Il baffo inferiore coincide con la più piccola osservazione maggiore o uguale a questo valore. 5. Tutti i valori fuori dai baffi si segnano come punti isolati. Esempio 3.8.1. Consideriamo sempre i dati del geyser Old Faithful nei due gruppi rispetto al tipo di eruzione precedente. Le 43 osservazioni con eruzione precedente di tipo Lunga ordinate sono le seguenti. 3.9. SOLUZIONE DEGLI ESERCIZI ASSEGNATI 57 74 79 83 90 60 75 79 83 91 67 75 80 84 93 68 75 80 84 69 75 80 84 70 76 80 85 71 76 81 86 72 76 82 86 55 73 76 82 86 73 76 82 88 Le 17 osservazioni con eruzione precedente di tipo Corta ordinate sono le seguenti. 42 55 45 55 49 56 50 56 51 58 51 66 51 67 51 53 53 Per disegnare il box plot del primo gruppo calcoliamo prima le posizioni della mediana e del primo e terzo quartile. Esse sono rispettivamente le posizioni 44 n+1 = = 22, 2 2 n+1 44 = = 11, 4 4 3 n+1 44 = 3 = 33, 4 4 Quindi la mediana occupa la 22-esima posizione, è il valore 79. Il primo quartile occupa la 11-esima posizione,si tratta del valore 74. Il terzo quartile occupa la posizione 33, si tratta del valore 84. Per calcolare i baffi valutiamo dapprima la distanza interquartile. Q3 − Q1 = 10 Quindi Q3 + 1.5 · (Q3 − Q1 ) = 99, Q1 − 1.5 · (Q3 − Q1 ) = 59. La più grande delle osservazioni minori o uguali a 99 è 93. Quindi il baffo superiore viene posto in corrispondenza 93 non ci sono altre osservazioni maggiori. La più piccola delle osservazioni maggiori o uguali a 59 è 60. Quindi il baffo inferiore viene posto in corrispondenza del valore 60. Essendoci ancora un valore questo viene rappresentato singolarmente. nella Figura ?? è riportato il box plot dei tempi di attesa per un’eruzione quando quella precedente era di tipo lungo. Analogamente per il secondo gruppo otteniamo n+1 18 = = 9, 2 2 n+1 18 = = 4.5, 4 4 3 n+1 18 = 3 = 13.5, 4 4 Quindi la mediana è 53. Il primo quartile è la media tra i valori che occupano la quarta e la quinta posizione, Q1 = 50.5. Il terzo quartile è la media tra valori che occupano la tredicesima e la quattordicesima posizione indi ragion per cui Q3 = 56. 3.9 Soluzione degli esercizi assegnati Esercizio 3.4.1. La classe mediana per la distribuzione dell’età degli uomini è la classe (24, 34]. Poichè 0.50 viene raggiunto esattamente alla fine di questa classe la 56 CAPITOLO 3. VALORI MEDI 0.8 0.6 0.6 0.8 1.0 Frequenze cumulate uomini 1.0 Frequenze cumulate donne F=50 0.2 0.4 F 0.2 0.4 F F=50 età=34 0.0 0.0 età=32.85 0 20 40 60 80 0 20 età 40 60 80 età Figura 3.3: Frequenze cumulate relative per l’età delle pendolari donne e dei pendolari uomini Mediana dell’età è 34 anni. Del resto anche dalla formula 3.1 si deduce M e = 34. La classe mediana per la distribuzione dei redditi è 58 a 70. Ci sono 4 unità dalla decima alla tredicesima. Quella che corrisponde alla mediana è la 10.5 che sta tra la decima e la undicesima. La mediana è 61. La formula per ottenerla è M e = 58 + 70 − 58 (0.50 − 0.45) = 61. 0.65 − 0.45 Per la distribuzione dell’età delle pendolari donne, la classe mediana à 24 a 34. La mediana è 33 anni, infatti M e = 24 + 34 − 24 (0.50 − 0.27) = 32.85. 0.53 + −0.27 La Figura 3.3 riporta il grafico delle frequenze cumulate relative per l’età delle pendolari donne e dei pendolari uomini. Abbiamo tracciato le rette F = 0.50 e dove queste intersecano la curva delle frequenze relative abbiamo tracciato la corrispondente retta verticale. Esercizio 3.4.2 L’età del primo bacio è 14 anni. Lo scarto quadratico medio è 2.41 che possiamo arrotondare a due anni e mezzo. L’età media del primo rapporto risulta 16.88 che possiamo arrotondare a 17 anni, con una standard deviation di 2 anni. Capitolo 4 La variabilità Come abbiamo sottolineato all’inizio di questa dispensa si può affermare senza troppi dubbi che lo scopo principale della statistica è la comprensione delle cause della variabilità. In questo capitolo presentiamo alcuni indici di variabilità che, insieme agli indici dati nel capitolo precedente che sintetizzano con un numero tutti i valori osservati sul campione della variabile, invece ci danno informazioni su quanto e come i valori osservati si distribuiscano attorno al valore centrale. Presenteremo tre di questi indici: il range, lo scarto interquartile e lo scarto quadratico medio o standard deviation. Accanto a quest’ultimo daremo anche la definizione di varianza che tanta importanza avrà nella parte di statistica inferenziale. Prima di introdurre tali indici facciamo qualche considerazione di carattere generale sulla variabilità. Prima di tutto cerchiamo di capire perché non basta dare solo l’informazione sintetizzata da un valore medio. Osserviamo le due distribuzioni nel grafico seguente. 50 100 150 0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.035 Istogramma di y Density 0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.035 Density Istogramma di x 50 x 100 150 y Si tratta di due distribuzioni che hanno la stessa media e la stessa mediana, ma non possiamo certo dire che fornendo solo l’informazione sul valor medio possiamo 57 58 CAPITOLO 4. LA VARIABILITÀ descrivere due situazioni cosı̀ diverse. D’altro canto anche senza conoscere il valor medio di due distribuzioni, l’informazione che ricaviamo dalla variabilità osservando le due distribuzioni nel grafico seguente è fondamentale. Il fenomeno nel grafico di sinistra è poco variabile e molto concentrato attorno al suo valore centrale. Il fenomeno di sinistra è molto meno concentrato e molto più variabile attorno al suo valore medio. 0.3 0.0 0.1 0.2 densità 0.2 0.0 0.1 densità 0.3 0.4 Grande variabilità 0.4 Piccola variabilità x x Il fenomeno rappresentato potrebbe essere l’età al matrimonio di un campione di donne negli anni ’40 e di un altro campione di donne negli anni 2000. Non sapendo quale che sia l’età media in cui queste donne si sposavano, l’informazione sulla variabilità è fondamentale per dire che negli anni 2000 l’età del primo matrimonio è molto più variabile. 4.1 Il range e lo scarto interquartile Il range e lo scarto interquartile sono due misure della variabilità che di solito accompagnano la mediana come misura del valor medio (inteso come valore centrale) di una distribuzione. Vediamo la definizione di entrambi e poi calcoliamo entrambi gli indici per i dati di un esempio. Il range (si utilizza il termine inglese che in italiano potrebbe essere tradotto con campo di variazione) misura l’ampiezza totale del dataset o delle osservazioni. Definizione 4.1.1 (Range). È definito come la differenza tra il valore più grande osservato e il valore più piccolo osservato. In formula: Range = max{x1 , x2 , . . . xn } − min{x1 , x2 , . . . xn } 4.1. IL RANGE E LO SCARTO INTERQUARTILE 59 Lo scarto interquartile a differenza del range non considera tutto il campo di variazione delle osservazioni ma solo la parte centrale. Definizione 4.1.2 (Scarto interquartile). Date n osservazioni x1 , . . . , xn , siano Q1 e Q3 rispettivamente il primo e il terzo quartile. Lo scarto interquartile è dato da IQ = Q3 − Q1 . Di solito lo scarto interquartile viale utilizzato quando le osservazioni hanno una distribuzione asimmetrica e si è utilizzata la mediana come misura del valore centrale. Esempio 4.1.3. Durante la visita dei servizi sociali ad un campo rom alla periferia di Roma è stato chiesto alle 13 madri presenti al campo il peso dei loro 13 primogeniti alla nascita. La seguente tabella riporta i pesi dei 13 neonati. Calcolare la mediana 1 kg 2.5 2 3 4.0 3.5 4 5 3.0 3.1 6 3.0 7 4.0 8 2.5 9 10 11 12 13 3.5 3.0 2.8 3.0 4.7 Tabella 4.1: Peso in kg di 13 neonati in un campo rom. il range e lo scarto interquatile del peso dei tredici neonati. Prima di tutto ordiniamo le osservazioni dalla più piccola alla più grande. La seguente tabella riporta i dati ordinati. 2.5 2.5 2.8 3.0 3.0 3.0 3.0 3.1 3.5 3.5 4.0 4.0 4.7 Il peso mediano è l’osservazione che occupa la settima posizione (ricordare: (n + 1)/2 = 14/2 = 7). Quindi M e = 3.0 kg. Il range è dato dalla differenza tra l’osservazione più grande e l’osservazione più piccola: Range = 4.7 − 2.5 = 2.2 Mentre il primo e il terzo quartile occupano rispettivamente la posizione 0.25(n+1) = 3.5 e 0.75(n + 1) = 10.5. Quindi Q1 = 2.8 + 3.0 = 2.9, 2 Q3 = 3.5 + 4.0 = 3.75, 2 IQ = Q3 −Q1 = 3.75−2.9 = 0.85. Possiamo quindi concludere che il il peso mediano dei neonati è 3 kg con un campo di variazione di 2.2 kg. Oppure concludere che il il peso mediano dei neonati è 3 kg con una variabilità (data dallo scarto interquartile) di 0.85 kg, ovvero di 850 g. 60 CAPITOLO 4. LA VARIABILITÀ 4.2 Scarto quadratico medio e varianza Lo scarto quadratico medio (in inglese standard deviation) misura la variabilità come media degli scarti al quadrato di ogni osservazione dalla media aritmetica. Di solito si utilizza quando la media aritmetica viene usata come misura della tendenza centrale. Definizione 4.2.1 (Scarto quadratico medio). Siano x1 , . . . , xn , n osservazioni e sia x̄ la media aritmetica delle n osservazioni. La quantità v u n u 1 X t (xi − x̄)2 (4.1) s= n − 1 i=1 si chiama scarto quadratico medio ovvero deviazione standard. In pratica per calcolare lo scarto quadratico medio occorre calcolare nell’ordine: P 1. la media aritmetica x̄ = n1 ni=1 xi ; 2. gli n scarti (o residui) delle osservazioni della media: xi − x̄ per ogni i = 1, 2, . . . , n; 3. elevare ogni scarto al quadrato: (xi − x̄)2 per ogni i = 1, 2, . . . , n; P 4. sommare tutti i residui al quadrato: ni=1 (xi − x̄)2 ; Pn 1 2 5. dividere la somma dei residui al quadrato per n − 1: n−1 i=1 (xi − x̄) ; q Pn 1 2 6. calcolare la radice quadrata: i=1 (xi − x̄) . n−1 Il risultato ottenuto si denota con s. Osservazione 4.2.2. La somma di tutti i residui al quadrato è nulla. Infatti n n X X (xi − x̄) = xi − nx̄ i=1 i=1 Dividendo entrambi i membri per n e ricordando la definizione di media aritmetica otteniamo n 1X n xi − x̄ = x̄ − x̄ = 0. n i=1 n Da questa osservazione deriva il fatto che la somma di tutti i residui non può essere usata come indicatore della variabilità perché è sempre nulla. La varianza è semplicemente lo scarto quadratico medio elevato al quadrato, oppure possiamo dire che lo scarto quadratico medio è la radice quadrata della varianza! 4.2. SCARTO QUADRATICO MEDIO E VARIANZA 61 Definizione 4.2.3 (Varianza). Date n osservazioni x1 , . . . , xn , sia x̄ la media aritmetica delle n osservazioni. La quantità n 1 X s = (xi − x̄)2 n − 1 i=1 2 (4.2) si chiama varianza. La varianza è una statistica che rivestirà un ruolo molto importante nell’inferenza statistica. Come indice di variabilità è invece poco usato perché non è espresso nella stessa untià di misura delle osservazioni, bensı̀ al quadrato. Viene spontaneo chiedersi perché dividiamo per n − 1 invece che per n la somma degli n residui al quadrato per ottenere la varianza e lo scarto quadratico medio. Dopotutto abbiamo definito la media di n valori come la loro somma divisa per n. Il motivo è legato al fatto che dividendo per n − 1 si ottiene una stima più precisa della varianza di una distribuzione. Osserviamo che quando si divide una quantità per n − 1 si ottiene un valore più grande che se avessimo diviso per n. Cioè se avessimo diviso per n avremmo ottenuto una stima troppo bassa per la varianza. Questo si può giustificare con il fatto che le n osservazioni si utilizzano già una volta per ottenere la media (quindi per stimare il valore centrale) e poi ancora una volta per calcolare la somma egli scarti. Con questa seconda operazione si dice che si perde un grado di libertà. Ma torneremo più avanti su questo concetto. Esempio 4.2.4. Riprendiamo i dati dell’Esempio 4.1.3. La tabella riporta i dati per il calcolo della standard deviation. La media è x̄ = 3.28 Quindi 1 2 3 4 5 6 7 8 9 10 11 12 13 sum xi (xi − x̄) (xi − x̄)2 2.50 -0.777 0.604 4.00 0.723 0.523 3.50 0.223 0.050 3.00 -0.277 0.077 3.10 -0.177 0.031 3.00 -0.277 0.077 4.00 0.723 0.523 2.50 -0.777 0.604 3.50 0.223 0.050 3.00 -0.277 0.077 2.80 -0.477 0.227 3.00 -0.277 0.077 4.70 1.423 2.025 42.6 0.000 4.943 62 CAPITOLO 4. LA VARIABILITÀ r s= √ 1 4.943 = 0.411 = 0.641. 12 Possiamo concludere che il peso medio dei neonati è di 3.28 kg con uno scarto quadratico medio di 641 grammi. Si scrive x̄±s ovvero in questo esempio 3.28±0.64. Esercizio 4.2.5. Si calcoli la mediana, il range e lo scarto interquartile e quindi la media aritmetica, la standard deviation e la varianza per i dati dell’Esempio 4.1.3 togliendo l’ultima osservazione. Esercizio 4.2.6. I dati nella seguente tabella rappresentano le altezze in cm di 11 giocatori di una squadra di pallavolo. Calcolare la media aritmetica e lo scarto qua1 h (cm) 9 190 2 185 3 182 4 208 5 186 6 187 7 8 9 10 11 189 179 183 191 179 dratico medio. Fare il grafico dei residui. Calcolare la media e lo scarto quadratico medio quando viene tolta la quarta osservazioni 208 cm. Esercizio 4.2.7. La seguente tabella riporta il numero di partner maschili nell’ultimo anno di 21 donne che hanno usufruito dei servizi offerti da un consultorio nel territorio di Milano Calcolare la media aritmetica, lo scarto quadratico medio, la 1 2 0 1 3 2 1 0 2 16 0 1 2 1 1 1 3 12 0 3 4 mediana e lo scarto interquartile. Quale dei due gruppi di indici (uno per il valore centrale e uno per la variabilità descrivono meglio il fenomeno? Perché? Capitolo 5 Operazioni sui dati Molto spesso i dati vengono trasformati. Trasformare i dati non significa manipolarli o falsificarli ma semplicemente renderli più comprensibili o più facili da studiare e analizzare. Le ragioni per cui trasformare i dati sono le più diverse. Le principali sono dovute al bisogno di confrontare distribuzioni registrate in diverse scale, per trovare errori nei dati e per migliorare la qualità dei dati stessi. Ad esempio può essere di interesse studiare come e se è cambiato il PIL nei paesi della zona Euro prima e dopo l’avvento della moneta unica. In questo caso dovremo convertire i dati degli anni precedenti il passaggio all’Euro nella monete comunitaria. Oppure quando vogliamo sapere se un certo punteggio (score) è sopra o sotto la media. Per quanto riguarda la qualità dei dati a volte alcune informazioni sono inconsistenti, come ad esempio se l’età del licenziamento avviene prima dell’età del primo impiego. Questi dati andrebbero rimossi dal data set. Le operazioni che presenteremo sui dati sono le trasformazioni di scala e la standardizzazione. 5.1 Trasformazioni di scala La seguente tabella riporta il peso di 5 donne prima di una dieta, gli scarti dalla media e gli scarti al quadrato. Calcoliamo il peso medio x̄ = 60 e la deviazione i 1 2 3 4 5 xi (xi − x̄) (xi − x̄)2 55 -5 25 67 7 49 56 -4 16 63 3 9 59 -1 1 300 0 100 63 64 CAPITOLO 5. OPERAZIONI SUI DATI q 100 = 5. Dopo 2 settimane di dieta il peso, gli scarti dalla media standard s = 5−1 e gli scarti al quadrato sono riportati nella seguente tabella. Tutte le donne sono i 1 2 3 4 5 xi (xi − x̄) (xi − x̄)2 51 -5 25 63 7 49 52 -4 16 59 3 9 55 -1 1 280 0 100 calate di 4 kg. Il peso medio è x̄ = 56 mentre la deviazione standard è ancora s = 5. Si osservi infatti che nella seconda tabella gli scarti e gli scarti al quadrato non sono cambiati per nessuna delle osservazioni. Questa è una regola generale: aggiungendo o sottraendo una costante a tutte le osservazioni la media cambia per il valore di quella costante mentre lo scarto quadratico medio rimane inalterato. Abbiamo quindi più formalmente la seguente proposizione. Proposizione 5.1.1. Siano x1 , x2 , . . . , xn , n osservazioni. Indichiamo con x̄ la media campionaria e con sx la deviazione standard delle n osservazioni. Sia a una costante qualunque (positiva o negativa). Consideriamo la trasformazione y i = xi + a Abbiamo ȳ = x̄ + a Mentre la deviazione standard non cambia. Dimostrazione. Poiché yi = xi + a per ogni i = 1, 2, , . . . , n abbiamo n ȳ = n 1X 1X 1 (xi + a) = xi + na = x̄ + a. n i=1 n i=1 n ovvero la media dei dati trasformati ȳ è uguale alla media dei dati da cui siamo partiti x̄ più la costante a. Denotiamo ora con sx lo scarto quadratico medio delle osservazioni x1 , . . . , xn , e analogamente con sy lo scarto quadratico medio delle osservazioni trasformate. Poichè abbiamo appena dimostrato che ȳ = x̄ + a abbiamo v v u u n n u 1 X u 1 X 2 t t sy = (yi − ȳ) = (xi + a − (x̄ + a))2 n − 1 i=1 n − 1 i=1 v u n u 1 X t = (xi − x̄)2 = sx n − 1 i=1 5.1. TRASFORMAZIONI DI SCALA 65 Lo scarto quadratico medio non cambia se si somma o se si sottrae una costante. Supponiamo adesso che invece che essere tutte diminuite di 4 kg, tutte le donne abbiano perso il 10% del loro peso. Indichiamo con zi il peso dopo la diminuzione del 10%. Si ha zi = xi − 0.1 · xi ovvero q zi = 0.9 · xi . La media del nuovo peso è = 4.5. I conti per ottenere la media e lo z̄ = 54 e la standard deviation è sz = 81 4 scarto quadratico medio sono riportati nella seguente tabella. i 1 2 3 4 5 zi (zi − z̄) (zi − z̄)2 49.5 -4.5 20.25 60.3 6.3 39.69 50.4 -3.6 12.96 56.7 2.7 7.29 53.1 -0.1 0.81 270 0 81 Osserviamo che 54 è il 10% meno di 60, e 4.5 è il 10% meno di 5. Quindi se si moltiplica o si divide ogni osservazione per una costante sia la media che lo scarto quadratico medio dei dati trasformati risultano moltiplicati o divisi per quella stessa costante. Abbiamo quindi la seguente proposizione Proposizione 5.1.2. Siano x1 , x2 , . . . , xn , n osservazioni. Indichiamo con x̄ la media campionaria e con sx la deviazione standard delle n osservazioni. Sia b una costante qualunque (positiva). Consideriamo la trasformazione yi = bxi Abbiamo ȳ = bx̄ sy = bsx Dimostrazione. Poiché yi = bxi per ogni i = 1, 2, , . . . , n abbiamo n n 1X 1 X ȳ = (bxi ) = b xi = bx̄. n i=1 n i=1 Si noti infatti che nella prima somma scritta per esteso abbiamo n n 1X bx1 + bx2 + · · · bxn b(x1 + x2 + · · · + xn ) 1 X (bxi ) = = = b xi n i=1 n n n i=1 ovvero la media dei dati trasformati ȳ è uguale alla media dei dati da cui siamo partiti x̄ moltiplicati per la stessa costante b. Denotiamo ora con sx lo scarto quadratico 66 CAPITOLO 5. OPERAZIONI SUI DATI medio delle osservazioni x1 , . . . , xn , e analogamente con sy lo scarto quadratico medio delle osservazioni trasformate. Poichè abbiamo appena dimostrato che ȳ = bx̄ abbiamo v v u u n n u 1 X u 1 X 2 t t (yi − ȳ) = (bxi − bx̄)2 sy = n − 1 i=1 n − 1 i=1 v u n X u 1 2 t = b (xi − x̄)2 = bsx n − 1 i=1 ovvero lo scarto quadratico medio dei dati trasformati sy è uguale allo scarto quadratico medio dei dati da cui siamo partiti sx moltiplicati per la stessa costante b. 2*x 0.4 0.0 0.1 0.2 densità 0.3 0.4 0.3 0.0 0.1 0.2 densità 0.2 0.0 0.1 densità 0.3 0.4 La Figura 5.1 rappresenta come la variabilità di una distribuzione aumenti se moltiplichiamo per una costante più grande di uno, mentre diminuisce se moltiplichiamo per una costante più piccola di uno. x 1/2*x Figura 5.1: La variabilità aumenta (a sinistra) o diminuisce (a destra) a seconda se si moltiplica per una costante minore o maggiore di uno una distribuzione qualunque (in centro). Un vantaggio di questo tipo di trasformazioni è che se sappiamo con che tipo di trasformazione di scala si passa da una osservazione all’altra possiamo calcolare la media e lo scarto quadratico medio per i dati trasformati senza rifare i conti per i dati trasformati ma semplicemente trasformando con la stessa trasformazione la media e lo scarto quadratico medio dei dati trasformati. 5.2. STANDARDIZZAZIONE 5.2 67 Standardizzazione L’operazione di standardizzazione di un dato è un’operazione che riveste un ruolo fondamentale in gran parte di tutta la statistica. La standardizzazione ci permette di confrontare e riportare ad una stessa scala dati provenienti da fonti, casi e unità diverse. Per capire l’importanza partiamo da un esempio. Due studentesse Ada e Bea hanno superato una l’esame di glottologia con voto 28, l’altra l’esame di filologia germanica con voto 27. Chi ha ottenuto il miglior risultato? Se si guarda solo al voto si sarebbe tentati di rispondere che ha ottenuto il miglior risultato Ada prendendo il voto più alto rispetto al 27 di Bea. Il confronto fatto in questo modo sarebbe corretto se entrambe avessero sostenuto lo stesso esame. Essendo l’esame diverso non possiamo rispondere senza fare qualche considerazione. Nel corso di laurea seguito dalle due studentesse per l’esame di Glottologia la media di tutti gli studenti che hanno superato l’esame è 26.5 mentre la deviazione standard è 1.5. Per il corso di Filologia germanica invece la media è 24.2 e la deviazione standard è 2. Quindi sembra essere molto più difficile prendere un voto alto a Filologia germanica che a Glottologia. Calcoliamo gli score di entrambi i voti di Ada e Bea. Significa esprimere quante volte lo scarto quadratico medio il loro voto si è discostato dal valor medio. 27 − 24.2 28 − 26.5 = 1 Bea: = 1.4 Ada: 1.5 2 Bea ha ottenuto il risultato migliore, il suo risultato è 1.4 volte la standard deviation sopra la media, mentre il risultato di Ada è solo 1 volta la s.d. sopra la media. In sostanza standardizzare un dato vuol dire esprimere la sua distanza dal valor medio come multipli dello scarto quadratico medio. In pratica si calcola quante volte lo scarto quadratico medio sta nella differenza tra valore osservato e media. Supponiamo che una terza studentessa Clio, abbia preso in filologia germanica voto 23. In questo caso il suo voto è inferiore al valor medio, quindi la differenza tra il voto riportato e la media dei voti in quella materia è negativo. Lo score risulta 23 − 24.2 Clio: = −0.60. 2 Quindi Clio ha ottenuto un voto che è 6/10 lo scarto quadratico medio inferiore alla media. In generale il valore standardizzato di una osservazione proveniente da una popolazione con media µ e standard deviation σ si può sempre scrivere come z= x − Media Standard Deviation Possiamo scrivere z= x−µ σ ⇒ ovvero z = x=µ+z·σ x−µ σ 68 CAPITOLO 5. OPERAZIONI SUI DATI ovvero si può sempre scrivere x = Media + z · Standard Deviation ovvero x = µ + z · σ Definizione 5.2.1. Lo score o valore standardizzato di un’osservazione xi da una popolazione con media µ e standard deviation σ è calcolato come segue: xi − µ σ Se µ e σ non sono note non è possibile ricavare il valore standardizzato di una osservazione, allora lo score si può calcolare come zi = zi = xi − x̄ sx dove x̄ è la media calcolata su tutte le osservazioni e sx è la standard deviation calcolata su tutte le osservazioni. Lo score misura il numero di standard deviation che un’osservazione si allontana dal valore medio. • score positivo: l’osservazione è sopra la media di z volte la standard deviation. • score negativo: l’osservazione è sotto la media di z volte la standard deviation. • score nullo: l’osservazione è uguale alla media. Gli score hanno uno proprietà molto utile. Cerchiamo di derivarla partendo da un esempio. Per i valori del paso delle 5 donne considerate all’inzio della sezione precedente, calcoliamo i valori standardizzati (gli score) dei 5 pesi e quindi calcoliamo la media e lo scarto quadratico medio dei valori standardizzati per i pesi delle 5 donne. I conti sono riportati nella seguente tabella. Ricordiamo che il peso medio delle 5 donne è x̄ = 60 kg con una standard deviation sx = 5 kg. 1 2 Peso: xi 55 67 -5 7 Peso-media: xi − x̄ score: zi = xis−x̄ -1.00 1.40 x 1.00 1.96 score2 : zi2 3 4 56 63 -4 3 -0.80 0.60 0.64 0.36 5 59 -1 -0.20 0.04 somma 300 0 0 4 Possiamo quindi calcolare la media e lo scarto quadratico medio dei pesi standardizzati r 4 media score: z̄ = 0, s.d. score sz = =1 4 Il fatto che la media degli score sia zero e lo scarto quadratico medio degli score sia 1, non è un caso. 5.2. STANDARDIZZAZIONE 69 Proposizione 5.2.2. Siano x1 , x2 , . . . , xn , n osservazioni. Indichiamo con x̄ la media campionaria e con sx la deviazione standard delle n osservazioni. Indichiamo con zi i valori standardizzati xi − x̄ . zi = sx Allora v u n n X u 1 X 1 z̄ = zi = 0 e sz = t (zi − z̄)2 = 1 n i=1 n − 1 i=1 Dimostrazione. Poiché sx è una costante e la somma di tutti gli scarti è nulla (ricordare l’Osservazione 4.2.2), abbiamo n n 1X 1X z̄ = zi = n i=1 n i=1 xi − x̄ sx n 1 1 X = (xi − x̄) = 0 n sx i=1 Passando al calcolo per la standard deviation, poiché z̄ = 0 e per la definizione di sx , abbiamo v v v u u u r n n n X X u 1 u 1 X u 1 sx (xi − x̄)2 2 2 t t t = = 1. (zi − z̄) = zi = sz = n − 1 i=1 n − 1 i=1 n − 1 i=1 sx sx Esempio 5.2.3. Per 6 esami del corso di laurea in lettere le medie e gli scarti quadratici medi sono riportati nella seguente tabella. Tre studentesse hanno sostenuto Inglese Tedesco Francese Giapponese Russo Statistica sociale media 24.3 25.5 23.8 26.1 25.6 24.4 sd 1.3 2.1 1.4 1.8 2.2 2.3 i seguenti esami con le votazioni riportate: • Ada: Inglese 25, Francese 25, Giapponese 27, Russo 28 • Bea: Tedesco 24, Francese 26, Russo 27, Stat. Sociale 28 • Clio: Inglese 23, Tedesco 26, Francese 22, Giapponese 27, Russo 24 70 CAPITOLO 5. OPERAZIONI SUI DATI Chi ha ottenuto il migliore risultato? Esercizio 5.2.4. L’indice di deprivazione si basa su tre variabili rilevate in ogni comune: la percentuale di persone che non possiede un auto, riportata in tabella nella colonna NO Auto, la percentuale di persone che è affetto da una patologia debilitante grave, riportate nella colonna Malattia e la percentuale di coloro che non sono proprietari della casa dove abitano, nella colonna NO Casa. Nella seguente tabella sono riportate le percentuali di queste variabili rilevate in un campione non specificato in 6 comuni della provincia di Bergamo. Determinare in quale comune della provincia l’indice di deprivazione è il più elevato. comuni NO Auto % Bergamo 25.4 Trescore 56.9 Dalmine 31.6 Albino 32.6 Clusone 25.6 Osio 24.4 Quale è il comune più deprivato? Malattia % 11.3 16.1 11.8 12.5 12.2 11.3 NO Casa % 29.9 56.4 35.3 32.9 34.7 43.8 Capitolo 6 Siamo tutti normali? In questo capitolo studiamo una distribuzione fondamentale per tutta la statistica: la distribuzione normale. Supporremo che tutti i fenomeni che abbiamo incontrato siano distribuiti con questa distribuzione: la distribuzione normale. Quindi per rispondere alla domanda che da il titolo al capitolo: sı̀ siamo tutti normali! A cominciare dalla forma della collina che compare nella foto riportata in Figura 6.1 e dalla forma della campana riportata in Figura 6.2. Infatti la distribuzione normale è conosciuta anche come la bell shaped distribution: la distribuzione a forma di campana. Top » Catalog » Easter Island » Categories My Account | Cart Contents | Checkout Rolling Hills Shopping Cart Cityscapes Dark and Light Forest Historic Sites Lakes Landscapes Man-Made Mountains Ocean and Beach Snow and Ice Street Scenes Sunsets Waterfalls Flora and Fauna 0 photos Tell A Friend Tell someone you know about this photo. Information Shipping & Returns Privacy Notice Conditions of Use Contact Us Photo Location Easter Island What's New? Street in Nafplio, Peloponese Available Sizes/Finishes: Figura 6.1: La collina normale. foto di Steve Topper. Finish: Gloss Size: 5 x 7 (+$20.00) 71 FREE SHIPPING ON ALL ORDERS!! About Steve Topper 72 CAPITOLO 6. SIAMO TUTTI NORMALI? Figura 6.2: La campana normale. Foto Ditta Colaci. 6.1 La curva è normale! La distribuzione normale è una distribuzione teorica. Le distribuzioni teoriche si distinguono da quelle empiriche perché non sono determinate partendo dai dati (o almeno non direttamente) ma perché sono date da una formula matematica che ne fornisce la forma e le caratteristiche salienti come media e scarto quadratico medio. Fino ad ora abbiamo avuto a che fare con distribuzioni empiriche: partendo dai dati osservati di una certa distribuzione venivano costruite le forme delle distribuzioni attraverso l’istogramma e i valori di sintesi come media (aritmetica) mediana, quartili, percentili, scarto quadratico medio, varianza, range, scarto interquartile. La distribuzione teorica invece è data da una formula matematica (che non riportiamo qui ma che riportiamo alla fine del capitolo per i più curiosi) le cui caratteristiche sono le seguenti: 1. La distribuzione normale è simmetrica attorno al suo valore centrale che coincide con la media (aritmetica) la mediana e la moda della distribuzione. 2. La maggiorparte dei valori si distribuisce attorno a questo valore centrale secondo modalità che verrano specificate tra poco. 3. Pochi valori si distribuiscono lontano da questo valore centrale. 6.1. LA CURVA È NORMALE! 73 4. La curva man mano che si allontana dal valore centrale si avvicina sempre più all’asse delle ascisse senza però mai toccarlo. La Figura 6.3 riporta il grafico di tre curve normali per le quali il valore centrale è lo stesso. Il valore centrale viene indicato con la lettera greca mu, µ. Quindi per le distribuzioni in figura µ = 15. Le curve delle distribuzioni normali in Figura 6.3 0.2 0.0 0.1 densità 0.3 0.4 Curva Normale 0 5 10 15 20 25 30 x Figura 6.3: Distribuzioni normali con la stessa media ma diverso scarto quadratico medio. hanno tutte la stessa media, ma non si può negare che siano molto diverse tra loro: i fenomeni che rappresentano sono molto diversi tra loro. Questa diversità è data dalla forma, da quanto i valori della distribuzione si distribuiscono attorno alla media in termini di multipli dello scarto quadratico medio. La distribuzione normale è molto comoda perché è caratterizzata oltre che dalla media da solo un’altra grandezza che è lo scarto quadratico medio, che viene indicato con la lettera greca sigma, che si scrive σ. Le distribuzioni in Figura 6.3 hanno rispettivamente σ = 1 la blu, σ = 2 la nera e σ = 5 la rossa. È importante notare che dati i valori di µ e σ caratterizziamo completamente la distribuzione normale, cioè la identifichiamo e siamo in grado di disegnarla. Ad esempio se sappiamo che una certa distribuzione di redditi è normale con media µ = 15000 e standard deviation σ = 3000, il grafico è quello riportato in Figura 6.4. Se sappiamo che l’età a cui viene dato il primo bacio (esempio presentato nella Sezione 2.6.3) è distribuita come una normale con media µ = 14 anni e scarto quadratico medio σ = 2.5 anni (due anni e mezzo) il grafico è riportato in Figura 6.5. 74 CAPITOLO 6. SIAMO TUTTI NORMALI? 0.00008 0.00004 0.00000 dnorm(x, 15000, 3000) 0.00012 Distribuzione dei redditi 0 5000 10000 15000 20000 25000 30000 x Figura 6.4: Distribuzioni dei redditi normale con µ = 15000 euro σ = 3000 euro. Ancora dall’esperienza personale basata su 1200 esami effettuati, posso ritenere che la distribuzione del voto di statistica alla facoltà di ingegneria sia normale con media µ = 24 e scarto quadratico medio σ = 1.5. Il grafico è riportato nella Figura 6.6 Le curve dei tre esempi sono molto diverse tra loro, ma quello che hanno in comune sono alcune caratteristiche. Queste sono date dall’area della curva sotto determinati intervalli di valori. Precisamente valgono le seguenti proprietà per le aree sotto la curva normale. Indichiamo con µ la media e con σ lo s.q.m di una normale (ad esempio per i voti µ = 24, σ = 1.5). Per ogni distribuzione normale 1. L’area sotto la curva è 1 2. L’area tra µ − σ e µ + σ è 0.6826 (il 68.26% delle osservazione sta tra µ − σ e µ + σ) 3. L’area tra µ − 2σ e µ + 2σ è 0.9546 (il 95.46% delle osservazione sta tra µ − 2σ e µ + 2σ) 4. L’area tra µ − 3σ e µ + 3σ è 0.9972 (il 99.72% delle osservazione sta tra µ − 3σ e µ + 3σ) Quindi possiamo rispondere alle seguenti domande. 1. Che proporzione di popolazione di studenti ha preso un voto che sta tra µ e µ + 2σ, cioè un voto tra 24 e 27? 6.1. LA CURVA È NORMALE! 75 0.10 0.00 0.05 dnorm(x, 14, 2.5) 0.15 Distribuzione dell'età al primo bacio 0 5 10 15 20 25 30 x Figura 6.5: Distribuzioni dell’età al primo bacio con µ = 14 anni σ = 2.5 anni. 2. Che proporzione di popolazione di redditieri ha un reddito compreso tra µ − σ e µ, ovvero un reddito comrpeso tra 12000 euro e 15000 euro? 3. Che proporzione di popolazione di redditieri ha un reddito minore di µ − σ, ovvero un reddito minore di 12000 euro? 4. Che proporzione di popolazione di giovani uomini ha dato il primo bacio ad un età minore di µ − 2σ o maggiore di µ + 2σ, ovvero minore di 9 anni o maggiore di 19 anni? Nell’ordine abbiamo 1. L’area sotto la curva normale tra µ e µ + 2σ è 0.9546/2, ovvero 0.4773. La proporzione richiesta è il 47.73%. 2. L’area sotto la curva normale tra µ − σ e µ è 0.6826/2, ovvero 0.3413. La proporzione richiesta è il 34.13%. 3. L’area sotto la curva normale dal limite inferiore a µ − σ è 0.50 − 0.3413 = 0.1587. La proporzione cercata è quindi il 15.87 % 4. L’area sotto la curva normale dal limite inferiore a µ − 2σ e l’area da µ + 2σ è data da 1 − 0.9546 = 0.0454. La proporzione richiesta è il 4.54%. 76 CAPITOLO 6. SIAMO TUTTI NORMALI? 0.15 0.10 0.00 0.05 dnorm(x, 24, 1.5) 0.20 0.25 Distribuzione dei voti normale teorica 18 20 22 24 26 28 30 x Figura 6.6: Distribuzioni dei voti all’esame di statistica µ = 24 trentesimi σ = 1.5 trentesimi. Come abbiamo detto la distribuzione normale è una distribuzione teorica. Noi avremo a che fare con distribuzioni empiriche. Il legame tra la distribuzione empirica e quella teorica è però molto stretto. La distribuzione empirica dei voti di 1200 studenti che hanno sostenuto l’esame di statistica è riportato nella Figura 6.7. La media calcolata è x̄ = 24.002 la Mediana è 24, la moda è 24. La standard deviation s = 1.5. Possiamo pensare adesso ad una distribuzione teorica che abbia media µ = 24 e σ = 1.5. Se tracciamo questa distribuzione sopra il grafico dell’istogramma otteniamo la Figura 6.8 dove abbiamo tracciato l’istogramma dei voti di 1200 studenti che hanno sostenuto l’esame di statistica. Nella Figura la linea continua rappresenta la distribuzione di una normale con media µ = 24 e standard deviation σ = 1.5. Come si vede la curva teorica si sovrappone molto bene all’istogramma ricavato empiricamente. 6.2 La normale standardizzata Esistono quindi un’infinità di distribuzioni normali, una per ogni valore della media µ e ogni valore dello scarto quadratico o medio σ. Tra tutte le normali c’è n’è una un po’ più normale delle altre. Si tratta della normale standardizzata che è una distribuzione normale con media µ = 0 e scarto quadratico medio σ = 1. Questa distribuzione riveste un ruolo particolare perché è la distribuzione degli Zscores di ogni distribuzione normale. Prendiamo uno dei tre esempi della sezione 6.2. LA NORMALE STANDARDIZZATA 77 0.15 0.00 0.05 0.10 Density 0.20 0.25 Distribuzione dei voti, normale empirica 18 20 22 24 26 28 30 x Figura 6.7: Distribuzione empirica dei voti di 1200 studenti. Istogramma dei voti all’esame di statistica: Media=24.002, Mediana= 24, moda=24, sd= 1.5 precedente. La distribuzione dei redditi. Indichiamo con x un reddito generico. La distribuzione di tutti i possibili redditi è una distribuzione normale con media µ = 15000 e standard deviation σ = 3000. Consideriamo adesso per un reddito generico x il suo z-score. Lo score del reddito è definito come z= x − 15000 3000 per ogni reddito x. La distribuzione di tutti i possibili z-scores dei redditi segue una distribuzione normale standardizzata, ovvero con media µ = 0 e scarto quadratico medio σ = 1. Se consideriamo la distribuzione dei voti all’esame di statistica, si tratta di una distribuzione normale con media µ = 24 e scarto quadratico medio σ = 1.5. Se indico con x il voto generico, lo z-score del voto è z= x − 24 1.5 Anche in questo caso la distribuzione di tutti i possibili z-scores dei voti segue una distribuzione normale standardizzata, ovvero con media µ = 0 e scarto quadratico medio σ = 1. Si può generalizzare per ogni tipo di distribuzione normale con media µ e scarto quadratico medio σ. La distribuzione di tutti i possibili score z= x−µ σ segue una distribuzione normale standardizzata. 78 CAPITOLO 6. SIAMO TUTTI NORMALI? 0.15 0.00 0.05 0.10 Density 0.20 0.25 Distribuzione dei voti, normale 18 20 22 24 26 28 30 x Figura 6.8: Distribuzione empirica e distribuzione teorica dei voti di 1200 studenti. Istogramma dei voti all’esame di statistica: Media=24.002, Mediana= 24, moda=24, sd= 1.5, curva normale con media 24 e sd=1.5 Se quindi voglio sapere che proporzione di studenti ha uno z-score compreso tra −1 e 1, trattandosi dell’area sotto una curva normale di media µ = 0 e s.q.m. σ = 1, so che tale proporzione è pari al 68.26%. Se voglio sapere la proporzione di redditieri con uno z-score tra −2 e 2, cioè la proporzione di redditieri che hanno un reddito compreso tra il valor medio e più o meno due standard deviation del reddito, ancora so che tale proporzione è il 95.46%. Ma la distribuzione degli z score permette di rispondere a domande più interessanti come quelle nel seguente esempio. Esempio 6.2.1. La distribuzione dei voti all’esame di statistica è normale con media µ = 24 e s.q.m. σ = 1.5. 1. Prendete 23. Qual è la proporzione di studenti che è stato peggio di voi? 2. Prendete 28. Di che proporzione di studenti siete stato più bravo? 3. Qual è il voto minimo che dovete prendere per essere tra il 60% degli studenti più bravi? Si noti che 23 ha uno z score di (23 − 24)/1.5 = −0.67. Quindi non è esprimibile come multiplo intero di σ. Io devo poter calcolare la proporzione di studenti che hanno lo z score minore di −0.67. In questo modo conoscerò la proporzione di studenti di cui sono stato più bravo, ovvero con uno z score minore del mio. Si 6.2. LA NORMALE STANDARDIZZATA 79 noti che 28 ha uno z score di (28 − 24)/1.5 = 1.67. Quindi non è esprimibile come multiplo intero di σ. Io devo poter calcolare la proporzione di studenti che hanno lo z score minore di 1.67. Per rispondere alla terza domanda, devo trovare quel voto per cui la proporzione di voti maggiori di quel voto sia il 60%. Devo trovare lo z score tale per cui l’area sotto la curva normale standardizzata dal valore z in poi sia pari a 0.60. Prima di rispondere a queste domande dobbiamo introdurre la tavola dei valori della normale standardizzata. Questi valori sono riportati nella Tabella 6.1. I valori nella prima colonna sono i valori degli z score fino alla prima cifra decimale. Sono i valori da 0.0 a −3.0. La seconda cifra decimale la troviamo invece nella prima riga, sono i valori 0.00, fino a −0.09. I valori interni alla tavola corrispondono all’area sotto la curva normale dallo z score corrispondente per tutti i valori a sinistra. Se si guarda la Figura 6.9 il valore all’interno della tabella corrisponde all’area della regione sotto la curva tratteggiate. Quindi per rispondere alla prima domanda devo cercare nella tabella lo z-score −0.67. Lo trovo in corrispondenza della riga con −0.6 e della colonna con −0.07. Il valore all’incrocio tra questa riga e questa colonna riporta il valore: 0.125143. Posso concludere che la percentuale cercata è il 12.51%. Per rispondere alle altre domande occorre fare un grafico, tratteggiare la parte di area che interessa e quindi ragionare con la simmetria degli z score e delle area. In particolare per ogni z score negativo c’è uno z score positivo. L’area sotto la curva prima dello z score negativo è uguale all’area sotto la curva dopo lo z score positivo. Per rispondere alla seconda domanda dobbiamo fare un’ulteriore considerazione: La proporzione di z score più piccoli di 1.67 che è positivo è uguale alla proporzione di z score più grandi di −1.67 che è negativo. Quest’ultima proporzione è uguale a 1 meno l’area prima dello z score negativo. Quindi cerco sulle tavole il valore dell’area sotto la curva normale standardizzata prima di z = −1.67. il valore lo trovo all’incrocio tra la riga di −1.6 e la colonna di −0.07: si tratta del valore 0.04746. Quindi l’area cercata è 1 − 0.04746 = 0.9526 e la proporzione cercata è dunque il 95.26%. Per rispondere all’ultima domanda devo utilizzare le tavole in maniera inversa. In questo caso conosco un valore di un area (trasformo la proporzione 60% in 0.60) e devo trovare il valore dello z score che lascia alla sua destra sotto la curva normale un’area pari a 0.60. Il valore di z sarà quello in corrispondenza di un’area di 0.40. Cerco quindi tale valore nelle tavole e noto che nella tavola ci sono i valori 0.40129 che lo approssima per eccesso e che corrisponde allo z score −2.05 e il valore 0.39743 che lo approssima per difetto e che corrisponde allo z score −2.06. Il valore z che cerco può essere scelto un due modi: o prendo il valore tra i due z score con l’errore più basso, in questo caso −2.05, perché 0.40129 − 0.40 = 0.00129 è minore di 0.40 − 0.39743 = 0.00257. Oppure prendo il punto intermedio −2.055 tra −2.06 80 CAPITOLO 6. SIAMO TUTTI NORMALI? e −2.05. z Φ(z) = P(Z ≤ z) = ⌠ f(x)dx ⌡−∞ z 0 Figura 6.9: Area sotto la curva normale standardizzata della regione di valori minori del generico z score. Esercizio 6.2.2. Il QI nella popolazione è noto che si distribuisce come una normale con µ = 100 e standard deviation σ = 15. • Tra quali valori di QI sta il 68.26% della popolazione centrale? • Quale proporzione di popolazione ha un QI minore di 75? • Quale proporzione di popolazione ha un QI minore di 105? • Quale proporzione di popolazione ha un QI maggiore di 105? • Quale proporzione di popolazione ha un QI maggiore di 130? • Quale proporzione di popolazione ha un QI compreso tra 90 e 115? • Quale proporzione di popolazione ha un QI compreso tra 95 e 105? • A che QI corrisponde il 10% della popolazione con QI più alto? 6.3. UN PO’ DI FORMULE MATEMATICHE E UN PO’ DI STORIA z 0.0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -1.0 -1.1 -1.2 -1.3 -1.4 -1.5 -1.6 -1.7 -1.8 -1.9 -2.0 -2.1 -2.2 -2.3 -2.4 -2.5 -2.6 -2.7 -2.8 -2.9 -3.0 0.00 0.50000 0.46017 0.42074 0.38209 0.34458 0.30854 0.27425 0.24196 0.21186 0.18406 0.15866 0.13567 0.11507 0.09680 0.08076 0.06681 0.05480 0.04457 0.03593 0.02872 0.02275 0.01786 0.01390 0.01072 0.00820 0.00621 0.00466 0.00347 0.00256 0.00187 0.00135 -0.01 0.49601 0.45620 0.41683 0.37828 0.34090 0.30503 0.27093 0.23885 0.20897 0.18141 0.15625 0.13350 0.11314 0.09510 0.07927 0.06552 0.05370 0.04363 0.03515 0.02807 0.02222 0.01743 0.01355 0.01044 0.00798 0.00604 0.00453 0.00336 0.00248 0.00181 0.00131 -0.02 0.49202 0.45224 0.41294 0.37448 0.33724 0.30153 0.26763 0.23576 0.20611 0.17879 0.15386 0.13136 0.11123 0.09342 0.07780 0.06426 0.05262 0.04272 0.03438 0.02743 0.02169 0.01700 0.01321 0.01017 0.00776 0.00587 0.00440 0.00326 0.00240 0.00175 0.00126 -0.03 0.48803 0.44828 0.40905 0.37070 0.33360 0.29806 0.26435 0.23270 0.20327 0.17619 0.15151 0.12924 0.10935 0.09176 0.07636 0.06301 0.05155 0.04182 0.03362 0.02680 0.02118 0.01659 0.01287 0.00990 0.00755 0.00570 0.00427 0.00317 0.00233 0.00169 0.00122 -0.04 0.48405 0.44433 0.40517 0.36693 0.32997 0.29460 0.26109 0.22965 0.20045 0.17361 0.14917 0.12714 0.10749 0.09012 0.07493 0.06178 0.05050 0.04093 0.03288 0.02619 0.02068 0.01618 0.01255 0.00964 0.00734 0.00554 0.00415 0.00307 0.00226 0.00164 0.00118 -0.05 0.48006 0.44038 0.40129 0.36317 0.32636 0.29116 0.25785 0.22663 0.19766 0.17106 0.14686 0.12507 0.10565 0.08851 0.07353 0.06057 0.04947 0.04006 0.03216 0.02559 0.02018 0.01578 0.01222 0.00939 0.00714 0.00539 0.00402 0.00298 0.00219 0.00159 0.00114 -0.06 0.47608 0.43644 0.39743 0.35942 0.32276 0.28774 0.25463 0.22363 0.19489 0.16853 0.14457 0.12302 0.10383 0.08691 0.07215 0.05938 0.04846 0.03920 0.03144 0.02500 0.01970 0.01539 0.01191 0.00914 0.00695 0.00523 0.00391 0.00289 0.00212 0.00154 0.00111 -0.07 0.47210 0.43251 0.39358 0.35569 0.31918 0.28434 0.25143 0.22065 0.19215 0.16602 0.14231 0.12100 0.10204 0.08534 0.07078 0.05821 0.04746 0.03836 0.03074 0.02442 0.01923 0.01500 0.01160 0.00889 0.00676 0.00508 0.00379 0.00280 0.00205 0.00149 0.00107 -0.08 0.46812 0.42858 0.38974 0.35197 0.31561 0.28096 0.24825 0.21770 0.18943 0.16354 0.14007 0.11900 0.10027 0.08379 0.06944 0.05705 0.04648 0.03754 0.03005 0.02385 0.01876 0.01463 0.01130 0.00866 0.00657 0.00494 0.00368 0.00272 0.00199 0.00144 0.00104 81 -0.09 0.46414 0.42465 0.38591 0.34827 0.31207 0.27760 0.24510 0.21476 0.18673 0.16109 0.13786 0.11702 0.09853 0.08226 0.06811 0.05592 0.04551 0.03673 0.02938 0.02330 0.01831 0.01426 0.01101 0.00842 0.00639 0.00480 0.00357 0.00264 0.00193 0.00139 0.00100 Tabella 6.1: Tavola della Normale standard. Valori di Φ(z) = P (Z < z) per z negativi. Per calcolare P (Z < −1.51) = Φ(−1.51) si cerca il valore all’incrocio della riga −1.5 e della colonna −0.01, cioè Φ(−1.51) = 0.06552. 6.3 Un po’ di formule matematiche e un po’ di storia La formula matematica della curva della distribuzione normale con generica media µ e generico scarto quadratico medio σ > 0 è la seguente: (x−µ)2 1 f (x) = √ e− 2σ2 , 2πσ 2 x∈R Nella formula oltre ai parametri µ e σ compaiono anche π il numero noto come pi greco il cui valore approssimato alla seconda cifra decimale è 3.14 e la x. La x è la variabile. Per ogni valore di x ∈ R, dove R è l’insieme dei numeri reali, tutti quanti, f (x) ci da il valore in ordinata della curva normale. Si noti che al crescere di x verso valori sempre più grandi o al diminuire di x verso valori sempre più piccoli, ma grandi in valore assoluto, ad esempio per x = −100 o x = 100, il valore di f (x) per µ = 10 e σ = 4 vale 0.0 . . . 110zeri0117. Questo è praticamente 0 ma non lo è di fatto! Si noti che l’esponente del numero e (altra costante universale della matematica, il numero di Nepero, la base dei logaritmi naturali, che approssimata alla seconda cifra decimale vale 2.27) è negativo, il che significa che al crescere dell’esponente, diventa sempre più vicino allo zero, ma non lo raggiunge mai. Solo 82 CAPITOLO 6. SIAMO TUTTI NORMALI? al limite e−∞ = 0. Il simbolo ∞ è il simbolo matematico che denota il valore infinito, che non è un valore vero e proprio ma solo una quantità molto molto molto grande. La distribuzione della normale standard, la distribuzione di tutti gli z-scores è invece data dalla formula: 1 2 1 f (z) = √ e− 2 z , z ∈ R. 2π Si tratta delle stessa formula dove abbiamo sostituito a µ il valore zero e a σ abbiamo sostituito il valore 1 (nella distribuzione normale standardizzata abbiamo µ = 0 e σ = 1). Abbiamo utilizzato la lettera z invece della lettera x ma questo non ha nessuna importanza. Avremmo potuto utilizzare ancora la lettera x per indicare un valore qualunque dello z score. La distribuzione normale prende anche il nome di distribuzione Gaussiana, dal nome del matematico tedesco Carl F. Gauss (17771855) che per primo dedusse il teorema centrale del limite, o il teorema di normalità asintotica, che studieremo nel prossimo capitolo e che vide apparire per la prima volta la distribuzione gaussiana. Per una biografia di Gauss consiglio la lettura del libro La misura del mondo di Daniel Kehlmann (Feltrinelli) dove la personalità e il carattere molto particolari di Gauss sono descritti in modo sublime insieme alla personalità di un altro grande scienziato tedesco: Alexander von Humboldt. Capitolo 7 Dal campione alla popolazione Nelle scienze sociali, come in ogni altra scienza, l’interesse è in genere rivolto ad un particolare gruppo (di persone o di altro tipo). Ad esempio siamo interessati a sapere qual è la percentuale di giovani che sono disoccupati in Italia. Per trovare questa percentuale potremmo domandare a tutti i giovani d’Italia se siano o meno disoccupati e quindi calcolarla come numero dei disoccupati diviso numero totale dei giovani in Italia. Si capisce bene che tale procedura è di fatto irrealizzabile. Fortunatamente non occorre fare questo per sapere qual è la percentuale dei giovani senza lavoro. Se lo domandiamo solo ad un campione purché questo sia scelto in maniera appropriata il calcolo della percentuale di giovani disoccupati nel campione potrà essere esteso a tutta la popolazione dei giovani. La percentuale dei disoccupati valutata sul campione costituisce una stima della percentuale dei disoccupati nell’intera popolazione. 7.1 Campionamento Ci sono due concetti molto importanti alla base del campionamento, il concetto di popolazione e quello di campione. La popolazione è il gruppo sul quale vogliamo conoscere qualche cosa (nell’esempio di prima: la popolazione sono i giovani italiani, l’oggetto di nostro interesse è la percentuale di disoccupati). Non sempre la popolazione è tangibile o reale, come in questo caso, dove per forza di cose è finita. A volte la popolazione è concettuale e non tangibile. Questo è tipico degli esperimenti fisici o dove interessa misurare una quantità e vengono eseguiti un certo numero di esperimenti per ottenere questa misura. Ogni misura ottenuta in ognuno degli esperimenti è il campione ma la popolazione è costituita da tutte le possibili misurazioni che si sarebbero potute avere. In genere nelle scienze sociali la popolazione 83 84 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE è costituita da un gruppo ben specificato di persone, quindi sarà sempre tangibile e costituita da un numero finito di unità. Definizione 7.1.1 (Popolazione). L’intera collezione di oggetti o persone o eventi sui quali si ricerca l’informazione di interesse. Prima di tutto la popolazione deve essere ben definita. Se ad esempio si vuole condurre un’indagine per sapere se gli adulti sono favorevoli alla liberazione della cannabis, occorre ben definire la categoria adulti. Anche la variabile di interesse deve essere ben definita. Se vogliamo conoscere il reddito medio, dobbiamo specificare cosa intendiamo per reddito medio. La media aritmetica o la mediana? Il secondo concetto è invece quello di campione. Definizione 7.1.2 (Campione). È un sottoinsieme della popolazione che contiene gli oggetti o le persone o gli eventi sui quali si osserva la quantitè di interesse. La caratteristica fondamentale di un campione è che deve essere rappresentativo della popolazione dalle quale è stato scelto. Ad esempio se torniamo al problema di conoscere la percentuale di disoccupati per stimare questa percentuale non possiamo scegliere come campione 100 giovani laureati da tre anni all’università di Milano. Quello che stimeremmo in questo caso sarebbe la percentuale di disoccupati tra i giovani laureati da tre anni all’università di Milano, non la percentuale dei disoccupati tra i giovani in Italia. Vi sono molte ragioni per cui la caratteristica valutata sulle unità del campione non è in genere uguale alla caratteristica della popolazione. Si tenga presente che noi non saremo mai in grado di dire quanto è la percentuale dei disoccupati in Italia! Le quantità sulla popolazione sono di solito chiamate parametri. I parametri possono assumere determinati valori, uno solo è il vero valore del parametro e noi non lo conosceremo mai: il lavoro dello statistico è molto triste! Studia per qualcosa che non sarà mai in grado di conoscere! Quello che però si può fare è fare una stima di questo parametro (la percentuale dei disoccupati ad esempio) sulla base di un campione scelto bene, e dire quanto si può sbagliare. I tipi di errore nel campionamento possono essere di diverso tipo e occorre scegliere il campione in modo appropriato in modo da minimizzare questi errori. Vediamo alcuni di questi errori di campionamento. 1. Variabilità del campione. Questo errore è detto anche errore casuale ed è dovuto al fatto che scegliendo diversi campioni la quantità di interesse calcolata su diversi campioni sarà diversa. Ad esempio se scegliamo in modo appropriato 7.1. CAMPIONAMENTO 85 1000 campioni di cento giovani per stimare la percentuale di disoccupati, non osserveremo sempre la stessa percentuale di disoccupati in ogni campione. 2. Errore di campionamento. Questo tipo di errore detto anche sistematico è più difficile da individuare e produce in genere stime distorte cioè con un bias. Ad esempio se si sceglie un campione da un elenco telefonico, si escludono automaticamente tutti coloro che non possiedono un telefono producendo una stima distorta. Errori di questo tipo sono legati al modo sbagliato con cui viene scelto il campione. 3. Errori non dovuti al campionamento. Questi sono errori che non sono dovuti al modo con cui è selezionato il campione. Ad esempio: le domande possono essere poste in modo scorretto e che possono essere interpretate in modo sbagliato dai rispondenti. Oppure gli intervistati possono di proposito rispondere in maniera diversa da ciò che pensano. Questo ad esempio succede spesso nelle elezioni in cui i voti ai partiti di estrema destra sono spesso sottostimati negli exit pool perchè all’uscita del seggio colui che ha votato un tale partito non lo rileva agli intervistatori. Altri errori di questo tipo sono ad esempio quelli dovuti alla codificazione o digitalizzazione delle risposte. Per ridurre questo tipo di errori vi sono corsi interi nei corsi di laurea di statistica per cui non possiamo pretendere di essere esaustivi qui. Ci basta però dare due regole di base che devono sempre essere applicate. Per tutto il resto si supporrà di avere dei campioni scelti in modo appropriato. La prima regola è che ogni elemento della popolazione deve avere la stessa probabilità di essere selezionato come elemento del campione. Si deve perciò immaginare tutte le unità di una popolazione come delle palline inserite in una grande urna e la scelta del campione consiste nell’estrarre un certo numero di palline da quest’urna. In questo caso ogni pallina ha la stessa probabilità di essere selezionata. Un campione ottenuto in questo modo si chiama campione casuale semplice. L’altra regola è che il campione deve essere stratificato. Questo tipo di campionamento deve essere utilizzato quando si sa che vi sono diversi gruppi in una popolazione diversi tra loro. Ad esempio la stratificazione può avvenire per età o per regione di residenza o per genere. Una questione di cui non abbiamo ancora parlato ma che è fondamentale in tutta la teoria è la grandezza del campionaria: quando deve essere grande un campione? La scelta dell’ampiezza del campione dipende in generale dai seguenti fattori: 1. La variabilità tra i membri della popolazione. Se in una popolazione è presente una grande variabilità allora il campione deve essere grande. Per 86 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE capire questo fatto pensiamo invece ad una popolazione dove la variabile di interesse non varia affatto sugli elementi della popolazione, cioè è costante. In questo caso per stimare questa caratteristica basterebbe solo osservarla su un elemento. Basterebbe un campione di ampiezza campionaria n = 1, e la stima sarebbe perfetta. 2. Il livello di precisione necessario alla stima. Più abbiamo bisogno di stime precise più il campione deve essere numeroso. Vedremo che il miglioramento nella precisione della stima non varia uniformemente con l’aumentare della numerosità del campione su cui si basa la stima. 3. Costi di campionamento. Intervistare tante persone costa in generale molto non solo in termini di costo vero e proprio ma anche di tempo. Occorre valutare bene i benefici che se ne ricavano prima di selezionare campioni troppo grandi con un costo non sostenibile. 7.2 Dalla popolazione al campione: il caso della media Il titolo della sezione costituisce il viaggio di andata del titolo del capitolo. Vedremo come è fatta la distribuzione della media campionaria. Consideriamo la popolazione femminile in età fertile. Siamo interessati al numero medio di figli che una donna ha in questa popolazione. Supponiamo di aver estratto diversi campioni di numerosità 5 da questa popolazione. I campioni sono riportati nella tabella seguente Campione 1 2 3 4 5 numero di figli 0 2 2 1 1 0 3 0 2 1 1 2 0 2 2 0 2 4 1 0 3 1 2 0 2 x̄ 1.2 1.2 1.4 1.4 1.6 s 0.83 1.30 0.89 1.67 1.14 La penultima colonna della tabella riporta la media del numero di figli calcolato in ogni campione. Le medie di questi diversi campioni sono le medie campionarie. Se i campioni sono stati scelti in modo corretto la maggiorparte delle medie campionarie sarà molto vicina alla media della popolazione (il parametro incognito) ma comunque qualcuna di queste medie avrà un valore che si discosta dalla media della popolazione. Se calcoliamo la media delle medie otteniamo x̄¯ = 1.2 + 1.2 + 1.4 + 1.4 + 1.6 = 1.36. 5 7.2. DALLA POPOLAZIONE AL CAMPIONE: IL CASO DELLA MEDIA 87 Si noti che abbiamo indicato con x̄¯ la media delle medie (quante medie!) Questo numero possiamo dire che è la migliore stima che possiamo dare della media della popolazione. consideriamo adesso lo scarto quadratico medio delle medie osservate sui 5 campioni r (1.2 − 1.36)2 + (1.2 − 1.36)2 + (1.4 − 1.36)2 + (1.4 − 1.36)2 + (1.6 − 1.36)2 sx̄ = 4 = 0.167 Si noti che questa variabilità è molto più piccola della variabilità della popolazione che può essere stimata calcolando la media delle standard deviation in ogni campione (riportata nell’ultima colonna della tabella) che è pari a 1.17. Questo non è dovuto al caso ma è una proprietà della media campionaria che si può riassumere nei due seguenti fatti: 1. La media della media campionaria è uguale alla media della popolazione. 2. Lo scarto quadratico medio della media campionaria è uguale allo scarto quadratico medio della popolazione diviso per la radice quadrata della numerosità campionaria. In formula la seconda proprietà si può scrivere, se denotiamo con sigma lo s.q.m. della popolazione e con n la numerosità campionaria, come σ σx̄ = √ . n Accanto a questi due fatti abbiamo un risultato ancora più interessante, al punto da essere noto come teorema fondamentale della statistica. Tale teorema ci assicura che se il campione è scelto in maniera appropriata non solo valgono i due fatti appena detti ma la distribuzione della media campionaria è normale. Teorema 7.2.1 (Fondamentale della statistica). Se abbiamo un campione casuale di ampiezza n estratto da una popolazione con media µ e scarto quadratico medio σ allora la media campionaria ha una distribuzione che per n elevato è approssimativamente una normale con la media µ e lo scarto quadratico medio pari a √σ . n Siamo quindi in grado di svolgere il seguente esercizio Esercizio 7.2.2. Si consideri la popolazione costituita da tutti i lavoratori di imprese di pulizia. Si supponga che per tale popolazione valgano i seguenti fatti: 88 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE • Valore medio paga oraria netta: 4.60 euro • Deviazione standard: 0.40 centesimi di euro Tenendo presente il teorema fondamentale della statistica rispondere alle domande seguenti. 1. Qual è la probabilità che un singolo lavoratore scelto a caso guadagni meno di 4.50 euro all’ora? 2. Qual è la probabilità che la media della paga oraria di un campione casuale di 20 lavoratori scelti a caso sia meno di 4.50 euro all’ora? 3. Qual è la probabilità che la media della paga oraria di un campione casuale di 50 lavoratori scelti a caso sia meno di 4.50 euro all’ora? 4. Perché le risposte ai quesiti precedenti sono diverse? Capitolo 8 Intervalli di confidenza Possiamo riassumere quanto detto nel capitolo precedente. Abbiamo una popolazione ed una informazione da ricercare su questa popolazione. L’informazione da ricercare supponiamo sia la media di una certa variabile di interesse (ad esempio ci interessa il numero medio di figli di una donna italiana). La vera media che ricerchiamo è il parametro di interesse che non è noto. Non potendo conoscere il vero valore del parametro (qual è il vero valore del numero medio di figli che ha una donna italiana? non lo potremo mai conoscere) ne facciamo una stima. Scelto propriamente un campione dalla popolazione, rileviamo per ogni elemento del campione il valore della variabile di interesse e ne calcoliamo la media aritmetica. Questo valore della media aritmetica ottenuta dai valori rilevati su ogni elemento del campione è la nostra stima del parametro incognito. Quello descritto sopra è come usualmente si procede alla stima puntuale della media incognita della variabile di interesse in una popolazione. Per un momento pensiamo però di poter agire in un altro modo e di poter effettuare la scelta di quanti campioni voglio dalla mia popolazione. Abbiamo infatti osservato che se avessimo scelto un altro campione dalla popolazione e avessimo rilevato su ogni elemento di questo campione la variabile di interesse e avessimo calcolato la media, avremmo osservato un altro valore per la media aritmetica e quindi avremmo ottenuto un’altra stima per il parametro incognito. Possiamo immaginare di scegliere tantissimi campioni e calcolare la media aritmetica dei valori osservati in ogni campione e otterremo tantissime stime per il nostro valore osservato. Quello che abbiamo concluso nel precedente capitolo è che questi tantissimi valori hanno una distribuzione normale con media la stessa media della variabile di interesse sulla popolazione (e quindi non nota) ma uno scarto quadratico medio molto minore, pari allo scarto quadratico medio della variabile di interessa nella popolazione diviso per radice quadrata di n, il numero di osservazioni nel campione. 89 90 8.1 CAPITOLO 8. INTERVALLI DI CONFIDENZA La media campionaria Ricordiamo come abbiamo denotato la media e lo scarto quadratico medio di una normale standardizzata nella Sezione 6.2. Abbiamo denotato la media con µ e lo scarto quadratico medio con σ. Possiamo immaginare che la media della nostra variabile di interesse sia µ nella popolazione e lo s.q.m sia σ entrambi incogniti. Ora pensiamo alla variabile media campionaria e a tutti i possibili valori che può assumere nei diversi campioni tutti di numerosità n. Il teorema fondamentale della statistica ci dice che questa variabile media campionaria, se n è grande, ha una distribuzione normale, con media che è ancora µ e scarto quadratico medio che è invece pari a √σn . Per tornare all’esempio del numero di figli medio per una donna italiana tale numero non lo conosciamo e lo indichiamo con µ la media incognita della popolazione. Prendiamo un campione di n = 5 donne (il primo dell’esempio) e stimiamo il valore incognito con la media del numero di figli calcolato per questo campione x̄ = 1.2. Quindi abbiamo una stima per il parametro µ e tale stima è 1.2. Un altro risultato molto importante della statistica ci dice che tale stima è la migliore che possiamo ottenere per la media. Chiunque di voi potrà obbiettare che se avessimo preso un altro campione e avessimo osservato un altro valore per la media (ad esempio il terzo campione) allora anche quest’altro valore è la stima migliore che potevamo dare per la media. Ad esempio per il terzo campione abbiamo x̄ = 1.4. Questo fatto potrebbe sembrare assurdo perchè ho due stime diverse per la media incognita µ e tutte e due sono la migliore stima possibile! Questo fatto non è un paradosso se pensiamo che nella realtà la media campionaria ha una distribuzione normale e quindi se ne osservo più di una esse saranno diverse secondo la distribuzione normale. La media campionaria è il migliore stimatore puntuale per la media, cioè è la migliore stima costituita da un solo numero. Teorema 8.1.1. La media campionaria è la migliore stima puntuale per la media di una popolazione. Quello che invece studiamo nella prossima sezione è come dare un intervallo di valori possibili per la media incognita della popolazione. 8.2 Gli ingredienti e la ricetta Come dicevamo a volte invece che dare un solo numero è meglio dare un intervallo di valori per la media incognita di una popolazione. Se vogliamo stimare la percentuale 8.2. GLI INGREDIENTI E LA RICETTA 91 di votanti per un partito in un sistema bipolare, un conto è dire, stimo la percentuale di votanti per il partito SX con il 48%, oppure dire che la percentuale di votanti per il partito SX è un valore nell’intervallo (45%, 51%). Per il Teorema 8.1.1 l’intervallo di confidenza sarà costruito attorno alla media campionaria. Quindi il primo ingrediente è la media campionaria. L’ingrediente fondamentale per gli intervalli di confidenza è invece dedotto dal livello di confidenza. Questo livello esprime il grado di confidenza col quale confido che il vero valore del parametro stia nell’intervallo che fornisco. Si possono costruire intervalli di confidenza a qualunque livello di confidenza, qui considereremo i livelli 95% e 99% che sono i più utilizzati nei fenomeni sociali, ma credo che tutti saranno in grado di dedurre poi come costruire un intervallo di confidenza a livello 98% o al 99.9%. Per dedurre questo ingrediente fondamentale torniamo un attimo al teorema fondamentale della statistica. Sappiamo che la media campionaria ha distribuzione normale con media µ e scarto quadratico medio √σn . Gli score della media campionaria hanno una distribuzione normale standardizzata. Allora se cerchiamo quei valori sotto una curva normale standardizzata per cui l’area della parte centrale della distribuzione tra quei valori sia il 95% del totale (area tratteggiata nella Figura 8.1). Dalle tavole troviamo che questi valori sono −1.96 quello a sinistra, e 1.96 quello a destra. Allora possiamo spingerci a sinistra della media campionaria per il fattore Area 0.95 −1.96 0 1.96 Figura 8.1: L’area tratteggiata vale 0.95. Entrambe le aree non tratteggiate sono 0.025. −1.96 moltiplicato per la standard deviation divisa per radice quadrata di n e a 92 CAPITOLO 8. INTERVALLI DI CONFIDENZA destra della stessa quantità positiva. In formula avremo che s s . Intervallo di confidenza al 95% = x̄ − 1.96 √ , x̄ + 1.96 √ n n Esempio 8.2.1. Consideriamo l’età del primo bacio dell’esempio considerato nella Sezione 2.6.3. L’età media del primo bacio in un campione di numerosità n = 42 è x̄ = 14. Lo scarto quadratico medio è s = 2.41. La formula per l’intervallo di confidenza al 95% è 2.41 2.41 I.C. al 95% = 14 − 1.96 · √ , 14 + 1.96 · √ 42 42 2.41 = 0.37 questa è la stima dello scarto quadratico medio Facendo i conti abbiamo √ 42 della media campionaria. Poi ricaviamo 1.96 · 0.37 = 0.73. Questa è l’ampiezza (o meglio la semi ampiezza) dell’intervallo di confidenza. Quindi possiamo concludere che I.C. al 95% = (14 − 0.73, 14 + 0.73) = (13.27, 14.73) Si noti che in termini di anni 0.73 sono circa 9 mesi, e quindi l’intervallo di confidenza è ampio 18 mesi. Il primo bacio viene dato tra i 13 anni e 3 mesi e i 14 anni e 9 mesi con una confidenza del 95%. Torniamo ancora un attimo sul significato del livello di confidenza. 95% significa che se fosse possibile ripetere questo esperimento un numero grande di volte saremmo confidenti nel credere che tra gli intervalli calcolati circa il 95% contiene il vero valore del parametro e solo 5 su cento, ovvero uno su venti non lo contiene. Ricapitolando possiamo dire che per calcolare l’intervallo di confidenza al 95% servono questi ingredienti: 1. La numerosità campionaria n. 2. La media campionaria x̄. 3. Lo scarto quadratico medio s. 4. Il valore 1.96. Con questi ingredienti ricaviamo l’intervallo di confidenza per la media incognita della popolazione come s s . I.C. al 95% = x̄ − 1.96 √ , x̄ + 1.96 √ n n 8.2. GLI INGREDIENTI E LA RICETTA 93 Se invece che al 95% volessimo l’intervallo di confidenza al 99%, dobbiamo trovare quei valori sotto una curva normale standardizzata per cui l’area della parte centrale della distribuzione tra quei valori sia il 99% del totale (area tratteggiata nella Figura 8.2). Dalle tavole troviamo che questi valori sono −2.575 quello a sinistra, e 2.575 quello a destra. Area 0.99 −2.575 0 2.575 Figura 8.2: L’area tratteggiata vale 0.95. Entrambe le aree non tratteggiate sono 0.025. Quindi ripetendo i ragionamenti sopra l’intervallo di confidenza al 99% per la media incognita di una popolazione è s s I.C. al 99% = x̄ − 2.575 √ , x̄ + 2.575 √ . n n Gli ingredienti per ottenere questo intervallo sono 1. La numerosità campionaria n. 2. La media campionaria x̄. 3. Lo scarto quadratico medio s. 4. Il valore 2.575. Come si può notare sono gli stessi ingredienti per l’intervallo di confidenza al 95% tranne l’ultimo valore. Da questo deduciamo che l’intervallo di confidenza al 99% 94 CAPITOLO 8. INTERVALLI DI CONFIDENZA se gli altri ingredienti sono uguali (in particolare se il campione è lo stesso) sarà più ampio di quello al 95%. Ad esempio tornando all’esempio precedente l’intervallo di confidenza al 99% per l’età media in cui gli uomini danno il primo bacio è 2.41 2.41 = (14 − 0.96, 14 + 0.96) I.C. al 95% = 14 − 2.575 · √ , 14 + 2.575 · √ 42 42 = (13.04, 14.96). Siamo confidenti al 99% che l’età in cui un ragazzo da il primo bacio è compreso tra 13 anni e 15 anni. In questo caso siamo più confidenti ma l’ampiezza dell’intervallo è più grande: quasi due anni (abbiamo approssimato 0.96 di un anno con 1). Esercizio 8.2.2. Ad un campione di 40 studenti è stato chiesto di dare un voto da 1 a 20 all’operato del primo ministro Letta nei primi 6 mesi del suo mandato su una scala da 1 a 20. La media è stata 12.1 con standard deviation di 3.5. 1. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza del 95%. 2. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza del 99%. Questo intervallo come è rispetto al precedente? Più ampio o più stretto? Perchè? 3. Supponete che la stessa medio e lo stesso s.q.m. sono stati osservati su un campione di 100 studenti. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza del 95%. Questo intervallo come è rispetto al primo intervallo? Più ampio o più stretto? Perchè? Esercizio 8.2.3. Con riferimento ai dati dell’esempio della sezione 2.6.3, calcolare Intervallo di confidenza al 95% per l’età del primo rapporto e confrontarla con quella calcolata per il primo bacio. Quale dei due intervalli è più ampio? I due intervalli si sovrappongono? Capitolo 9 La proporzione Fino ad ora abbiamo considerato variabili continue dove la statistica considerata per lo studio era la media campionaria. In questo capitolo consideriamo invece la proporzione di un certo evento di interesse valutata su un campione rappresentativo di una popolazione. Ad esempio possiamo essere interessati alla proporzione di studenti maschi nella facoltà di lettere e letterature straniere, o alla proporzione di fumatori nella popolazione italiana o ancora alla proporzione di lavoratori della provincia di Bergamo con un reddito inferiore a 20000 euro all’anno. 9.1 Il modello In tutti e tre gli esempi di prima possiamo immaginare la popolazione in cui l’interesse è per una caratteristica (che viene codificata come successo: il fatto di essere maschi nella popolazione degli studenti di lettere e letterature straniere, il fatto di essere fumatori nella popolazione degli italiani, il fatto di essere un lavoratore bergamasco con un reddito di meno di 20000 euro all’anno). Indichiamo con π, la lettera pi greca, la vera proporzione di successo nella popolazione in oggetto. Se vogliamo avere qualche informazione su questo valore incognito π possiamo scegliere in modo rappresentativo un campione di n elementi nella popolazione e vedere (contare) quante volte si realizza il successo. Ad esempio possiamo scegliere un campione di 40 studenti e studentesse dell’Università di Bergamo e contare i maschi. Oppure un campione di 6000 italiani e contare i fumatori, oppure ancora un campione di 500 lavoratori della provincia di Bergamo e contare quelli che hanno un reddito inferiore ai 20000 euro. In tutti questi casi scegliamo un campione di ampiezza n e codifichiamo con 1 il successo e con 0 l’insuccesso. Registriamo quindi 1 ogni volta che sull’unità del campione osserviamo il successo e 0 ogni volta che registriamo insuccesso. Se 95 96 CAPITOLO 9. LA PROPORZIONE indichiamo con k il numero di successi avremo che la proporzione di successi nel campione è data dal rapporto tra il numero dei successi e il numero delle unità nel campione 1| + 1 + . . . + 0} {z. . . + 1} +0 | +{z k k volte n−k volte = . p̂ = n n k La quantità p̂ = n è detta proporzione campionaria e costituisce la grandezza fondamentale per l’inferenza sulla proporzione vera π. In particolare vale il seguente risultato, analogo a quello della media campionaria per la media incognita µ. Teorema 9.1.1. p̂ è la migliore stima puntuale per π basata su un campione di numerosità n. In effetti se si guarda a come è definita p̂, essa è una media campionaria di n grandezze x1 , x2 , . . . , xn , che possono solo assumere il valore 1 o il valore 0. Quindi, ad esempio, stimeremo la proporzione vera di studenti maschi alla facoltà di lettere con la proporzione campionaria valutata sul campione di 40 studenti. Naturalmente sarà preferibile fornire un intervallo come stima fornendo anche l’informazione su quanto siamo confidenti che il vero valore stia nell’intervallo fornito come stima. Per costruire quindi l’intervallo di confidenza con un certo grado di fiducia abbiamo il seguente risultato che deriva dal teorema fondamentale della statistica. Teorema 9.1.2. Se n è grande la distribuzione di p̂ è approssimativamente normale q con media π e scarto quadratico medio π(1−π) . n L’importanza di questo risultato è evidente. Se abbiamo qualche informazione sulla proporzione di una evento di interesse in una popolazione e osserviamo su un campione di numerosità n una certa proporzione campionaria p̂, possiamo, dopo aver calcolato lo score di questa proporzione campionaria, valutare se è un valore attendibile per la popolazione che stiamo considerando. Prima quindi di vedere come costruire l’intervallo di confidenza per la proporzione incognita π, vediamo questo esempio. Esempio 9.1.3. Nell’esame di statistica la proporzione di promossi ad un generico appello è stata comunicata dalla docente ed è del 70%. Durante l’appello per gli studenti fuori corso si presentano 17 studenti e 10 passano l’esame di statistica. Possiamo dire che gli studenti che si sono presentati all’appello per i fuori corso sono particolarmente non bravi? Al primo appello utile dopo la fine del corso si presentano 92 studenti e 80 passano l’esame. Cosa possiamo concludere per questi studenti? 9.2. INTERVALLO DI CONFIDENZA PER LA PROPORZIONE π 97 La percentuale di studenti che passa l’esame all’appello riservato agli studenti 10 = 0.59. Lo score di questa proporzione lo ottengo calcolanfuori corso è p̂ = 17 do prima lo standard error per la proporzioneqdi studenti che passano l’esame di statistica in questo appello. Questo è dato da z= 0.70∗0.30 17 = 0.11. Quindi lo score è 0.59 − 0.70 = −1 0.11 Calcolando l’area sotto la distribuzione normale standardizzata prima di -1 ho un’indicazione relativa alla probabilità con cui avrei potuto osservare un numero di studenti che ha passato l’esame inferiore a quello che ho realmente osservato. Dalle tavole ricavo che il valore della propabilità cercata è circa 0.16. Quindi con una probabilità di circa il 16 % avrei potuto osservare un numero inferiore di successi. Quindi concludo che gli studenti fuori corso non sono particolarmente non bravi. Veniamo al primo appello utile dopo aver seguito il corso.qLa proporzione di = 0.05 La studenti che ha passato l’esame è p̂ = 0.87. Lo standard error è 0.70∗0.30 92 probabilità di osservare più di 80 studenti che passano l’esame su 92 è 0.0003 cioè solo in 3 appelli su 10000 avrei osservato una simile percentuale di successi, quindi sono particolarmente preparati gli studenti che sostengono il primo appello utile. Esercizio 9.1.4. Due sondaggi rappresentativi a livello nazionale sono stati condotti nel 2011 e 2012 su un campione totale di 6167 adulti. La percentuale dei fumatori in Italia diminuisce, passando dal 22.7% nel 2011 al 20.8% nel 2012. Gli uomini fumano più delle donne: 25.3% contro il 18.4%. 6 Su un campione di 50 studenti presenti oggi in aula osserviamo p̂ = 50 = 0.12. 1. Calcolare la probabilità che un campione abbia la proporzione più bassa di quella osservata. 9.2 Intervallo di confidenza per la proporzione π Quando non si possiede nessuna informazione sulla popolazione e vogliamo stimare la proporzione incognita di un certo evento che rappresenta il successo, possiamo invece che fornire solo la stima puntuale, valutata come la proporzione campionaria p̂ del numero di successi in n osservazioni, fornire un intervallo di confidenza per la proporzione incognita π. L’intervallo di confidenza al 95% di fiducia è dato dalla seguente formula: ! r r p̂(1 − p̂) p̂(1 − p̂) I.C al 95% = p̂ − 1.96 ; p̂ + 1.96 . n n 98 CAPITOLO 9. LA PROPORZIONE Si osservi che nello standar error (o scarto quadratico medio di p̂) non compare il valore incognito π (e come potrebbe: non ne conosciamo il valore, ne stiamo cercando una stima con un intervallo di confidenza!), ma compare invece la miglior stima di π dove nella formula dello standard error compariva π. Si tenga poi presente che tale intervallo è un intervallo che è tanto migliore tanto più è grande n. In modo analogo l’intervallo di confidenza al 99% di fiducia è dato dalla seguente formula: ! r r p̂(1 − p̂) p̂(1 − p̂) ; p̂ + 2.575 . I.C al 99% = p̂ − 2.575 n n Esercizio 9.2.1. Supponendo che il campione osservato nell’ Esercizio 9.1.4, sia rappresentativo della popolazione italiana, sulla base del risultato campionario rilevato, calcolare l’intervallo di confidenza per la proporzione di fumatori in Italia. Tale intervallo contiene la proporzione fornita dallo studio per il 2012? Esercizio 9.2.2. La seguente tabella riporta i risultati pubblicati sui quotidiani The Indipendent e The Daily Telegraph nel 1992 sulle intenzioni di voto dei britannici. Fonte The Indipendent The Daily Telegraph n 1746 2478 Intenzione di voto (in %) Consevatori Laburisti 39.0 42.0 38.5 38.0 1. Calcolare l’intervallo di confidenza per le quattro proporzioni. 2. Gli intervalli per la proporzione di votanti per i conservatori e per i laburisti dei due quotidiani si sovrappongono? 3. Potete concludere da questi dati chi sarà il vincitore delle elezioni e con che distacco? 4. Fare una ricerca per trovare il vincitore e il distacco. Capitolo 10 Test statistici I test statistici (detti anche verifica di ipotesi) occupano un posto di rilievo in tutta l’inferenza statistica. Insieme alla stima costituiscono il fulcro di tutta l’inferenza statistica. Se nel problema della stima si stratta di trovare un valore plausibile per i parametri incogniti di una popolazione (o meglio del modello sulla popolazione), nella verifica d’ipotesi si tratta di formulare una affermazione sul parametro incognito. La statistica ci fornisce gli strumenti per arrivare ad una scelta riguardo a questa ipotesi sul parametro (se accettarla o rifiutarla) quantificando il rischio connesso a questa scelta. 10.1 Verifica d’ipotesi: la teoria Supponiamo di avere un modello su una popolazione d’interesse e che questo modello dipenda da un parametro generico θ che è il nostro interesse. (Ad esempio un modello normale con il parametro di interesse la media µ). Il nostro interesse per il parametro è costituito da un’affermazione sul possibile valore di questo parametro che noi riteniamo plausibile. Questo valore dichiarato per il parametro è sottoposto ad una verifica basata sulle osservazioni sperimentali di un campione scelto dalla popolazione sulla quale è stata fatta l’affermazione riguardante il valore del parametro. Definizione 10.1.1. Una ipotesi statistica è una affermazione su θ. L’ipotesi sottoposta a verifica sperimentale viene di solito chiamata ipotesi nulla ed indicata con H0 . Di solito H0 specifica il valore di un parametro della popolazione indicato genericamente con θ. Quindi H0 : θ = θ0 99 100 CAPITOLO 10. TEST STATISTICI dove θ0 è un valore fissato. Ad esempio se il parametro della popolazione da sottoporre a verifica è la media µ scriveremo H0 : µ = µ0 dove µ0 è un valore della media specificato e noto. Definizione 10.1.2. Un test statistico è una regola per decidere sulla compatibilità dei dati con l’affermazione definita dall’ipotesi nulla. Un test statistico è come un sistema d’allarme che suona in presenza di dati non compatibili con l’ipotesi nulla. Come tutti i sistemi di allarme il test statistico può produrre falsi allarmi o dar luogo a mancati allarmi. Un test conduce sempre a due sole alternative: • rifiutiamo l’ipotesi nulla H0 • non rifiutiamo l’ipotesi nulla H0 Tale decisione viene presa sulla base delle osservazioni x1 , . . . , xn , di un campione casuale di ampiezza n proveniente dalla popolazione. Sulla base di queste osservazioni prenderemo la nostra decisione tramite il valore assunto da quella che è chiamata statistica test e che sarà diversa per ogni verifica d’ipotesi. La statistica test ci definisce una regola per cui se la statistica test assume certi valori, che appartengono ad una regione detta regione di rifiuto si rifiuterà l’ipotesi nulla, se invece assume valori che non appartengono a tale regione, non si potrà rifiutare l’ipotesi nulla. Si tenga però presente che accettare l’ipotesi nulla non significa che questa sia vera. Significa che la riteniamo plausibile sulla base delle nostre osservazioni. Noi non potremo mai sapere qual è il vero valore del parametro. Trattandosi di un problema di decisione ogni decisione porta con sè la possibilità di commettere un errore facendo la scelta sbagliata. Se i dati portano a rifiutare un’ipotesi nulla che è vera si commette un errore chiamato di primo tipo. La probabilità di commettere questo errore viene indicata con α: α = P (rifiutare H0 |H0 è vera). L’errore di primo tipo α è chiamato anche livello di significatività del test. Nella pratica si deve scegliere la regione di rifiuto in modo da garantire un preassegnato livello di significatività α e in modo da minimizzare la probabilità dell’altro tipo di errore che si può commettere: l’errore di secondo tipo indicato con β. 10.1. VERIFICA D’IPOTESI: LA TEORIA 101 Se i dati portano ad accettare una ipotesi nulla che è falsa si commette un errore di secondo tipo. La probabilità di questo errore viene indicata con β: β = P (non rifiutare H0 |H0 è falsa). I due tipi di errore che si possono commettere in relazione alla realtà sono riassunti nella seguente tabella Decisione→ Realtà↓ H0 vera H0 falsa Rifiuto H0 Non Rifuto H0 errore Io tipo nessun errore (OK) α 1−α nessun errore (OK) errore di IIo tipo 1−β β I test che presenteremo nella prossima sezione sono tali da fissare ad un livello che si ritiene soddisfacente l’errore di primo tipo (nei fenomeni di tipo sociale di solito α = 0.05 o α = 0.01) e hanno il più piccolo errore di secondo tipo. Il nome errore di primo tipo ha origine storica perchè rappresenta l’errore più grave che si possa commettere dal punto di vista di chi sottoporne il parametro alla verifica. Ad esempio nell’ottica dell’allarme l’errore più grave è quello del mancato allarme, perchè stanno rubando la macchina (qui H0 vera significa che il ladro sta agendo) ma l’allarme non suona (rifiuto H0 , i dati mi portano a non credere all’ipotesi H0 ). La decisione se accettare o rifiutare l’ipotesi nulla viene fatta sulla base della determinazione di una regione di rifiuto nella quale può rientrare la statistica test basata sui dati. La regione di rifiuto viene determinata in base all’errore di primo tipo α e in base a quella che viene chiamata ipotesi alternativa e indicata con HA . A volte l’ipotesi alternativa viene indicata anche con H1 . Se H0 è data da θ = θ0 l’ipotesi alternativa potrà essere di tre tipi. • HA : θ 6= θ0 , detta ipotesi alternativa bilaterale; • HA : θ > θ0 , detta ipotesi alternativa unilaterale destra; • HA : θ < θ0 , è detta ipotesi alternativa unilaterale sinistra. A parità di ipotesi nulla diverse ipotesi alternative producono diversi modi di utilizzare i dati sperimentali per verificare l’ipotesi nulla. Nella prossima sezione vedremo come si costruisce la regione di rifiuto per il primo tipo di ipotesi alternativa, che è in un certo senso la più sicura. Per gli altri 102 CAPITOLO 10. TEST STATISTICI due tipi di ipotesi occorre prestare più attenzione perchè per applicarli occorre essere ben certi della direzione in cui si è convinti si sia modificato il parametro. Riassumendo per i test statistici occorre: 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA . 2. Trovare la statistica test per il sistema d’ipotesi. 3. Trovare la regione di rifiuto per il sistema d’ipotesi. 4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o rifiutare H0 . Nelle prossime sezioni vedremo come si applicheranno questi passi a vari problemi di verifica d’ipotesi. 10.2 Verifica d’ipotesi: la pratica Nella pratica la verifica di ipotesi si basa sulla ricerca di statistiche test, che saranno diverse a seconda dei diversi modelli sulla popolazione e dei diversi parametri da sottoporre a verifica. Noi prenderemo in considerazione popolazione con distribuzione normale e saremo interessati a verifiche di ipotesi sulla media nel caso in cui la standard deviation σ sia nota e nel caso in cui non lo sia. L’altro caso che tratteremo sarà la verifica d’ipotesi per la proporzione del successo di un certo evento. 10.2.1 Test per la media di popolazione normale: σ nota Supponiamo di avere un modello normale su una popolazione d’interesse. Ad esempio un’azienda per la ricerca del personale dichiara che i suoi candidati sono dotati di un quoziente intellettivo di 120 con una standard deviation di 10. Quello che in sostanza sta dichiarando l’azienda è che la media µ della sua popolazione normale è 120 e la standard deviation è σ = 10. Si tratta di dichiarazioni sui parametri di una popolazione. Supponiamo ancora che voi vogliate verificare l’affermazione dell’azienda sul fatto che fornisca candidati con un quoziente intellettivo di 120. Quello che dovete fare è impostare un test d’ipotesi per la media della popolazione. In questo caso la popolazione è costituita dai candidati dell’azienda e la media dichiarata è µ0 = 120. In questo caso siamo interessati ad una verifica d’ipotesi sul parametro µ, mentre il parametro σ è considerato un parametro di disturbo che in questo caso è noto. Il primo passo consiste nel scrivere il sistema d’ipotesi: H0 : µ = 120 HA : µ 6= 120 10.2. VERIFICA D’IPOTESI: LA PRATICA 103 Il secondo passo consiste nel trovare la statistica test. Se dobbiamo verificare la veridicità di una affermazione sul valore di una media sembra abbastanza sensato testarla sul valore della media campionaria calcolata su un campione scelto della popolazione. Quindi dobbiamo avere i dati relativi al quoziente intellettivo di un certo numero n di aspiranti candidati selezionati dall’azienda in questione. I dati sono i seguenti: il quoziente intellettivo medio di n = 36 candidati è stato calcolato e risulta x̄ = 114. L’idea è quella di rifiutare l’ipotesi nulla se lo z score del valore calcolato della media sul campione risulta troppo lontano dal valore zero. Perchè se lo z score assume valori troppo grandi positivi o troppo piccoli negativi vuol dire che riteniamo poco plausibile l’ipotesi nulla. Quindi la statistica test richiesta dal secondo punto è lo z score x̄ − µ0 . z= σ √ n Nel caso in considerazione esso vale z= 114 − 120 √10 36 = −3.6. A questo punto per determinare la regione di rifiuto (terzo passo) occorre scegliere una soglia tale per cui se lo z score è oltre tale soglia rifiutiamo l’ipotesi nulla, se non supera tale soglia accettiamo l’ipotesi nulla. Tale soglia che determinerà la regione di rifiuto viene calcolata sulla base dell’errore di primo tipo, o livello del test α. Supponiamo che α = 0.05. Sappiamo che se la popolazione normale ha media 120 solo il 2.5% della popolazione ha uno z score maggiore di 1.96 e solo il 2.5% della popolazione ha uno z score minore di -1.96. Allora se la regione di rifiuto è definita come: R = {z < −1.96 o z > 1.96} , in questo caso la probabilità di rifiutare H0 quando H0 è vera è del 5%. Essa corrisponde all’area tratteggiata nella Figura 10.1. Poiché −3.6 è minore di −1.96, il valore z calcolato appartiene alla regione di rifiuto R e siamo portati a credere che l’ipotesi nulla non sia vera e quindi la conclusione è: rifiutiamo l’ipotesi nulla. E anche il quarto e ultimo punto è stato eseguito. Quindi riassumendo in questo specifico problema i quattro passi sono i seguenti: 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA : H0 : µ = 120 HA : µ 6= 120 104 CAPITOLO 10. TEST STATISTICI 2. Trovare la statistica test per il sistema d’ipotesi: z= x̄ − µ0 √σ n = 114 − 120 √10 36 = −3.6. 3. Trovare la regione di rifiuto per il sistema d’ipotesi: R = {z < −1.96 o z > 1.96} 4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o rifiutare H0 : Poiché −3.6 è minore di −1.96, rifiutiamo l’ipotesi nulla H0 : µ = 120. Regione di rifiuto α 2 = 0.025 −3.6 −1.96 α 2 = 0.025 0 1.96 Figura 10.1: Entrambe le aree tratteggiate sono 0.025. z = −3.6 cade nella regione di rifiuto di sinistra. Un modo equivalente per verificare il sistema d’ipotesi H0 : µ = 120 HA : µ 6= 120 consiste nel metodo dell’intervallo di confidenza. Esso si può riassumere in questi passi: 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA : H0 : µ = 120 HA : µ 6= 120 10.2. VERIFICA D’IPOTESI: LA PRATICA 105 2. Calcolare l’intervallo di confidenza al 95% (si noti che il livello di confidenza è l’(1 − α)%) per la media µ della popolazione: s s Intervallo di confidenza al 95% = x̄ − 1.96 √ , x̄ + 1.96 √ = (111, 117) n n 3. Decidere se accettare o rifiutare H0 sulla base dell’appartenenza all’intervallo calcolato del valore della media definito dall’ipotesi nulla. Poiché 120 non appartiene all’intervallo calcolato, rifiutiamo l’ipotesi nulla H0 : µ = 120. I due metodi sono equivalenti per costruzione. Infatti il valore specificato dall’ipotesi nulla µ = µ0 appartiene all’intervallo di confidenza all’(1 − α)% se e solo se la statistica test z score cade nella regione di rifiuto del test con livello α. 10.2.2 Test per la media di popolazione normale: σ non nota Se la standard deviation di una popolazione non è nota, possiamo ancora utilizzare il metodo della statistica test z score, purché la numerosità campionaria sia grande (in genere maggiore di n = 30). In questo caso occorre sostituire al parametro σ la stima s ottenuta dai dati rilevati sul campione. In questo caso l’unico punto che cambia è il secondo dove lo z score è calcolato come z= x̄ − µ0 √s n . Per il resto se il livello del test è α = 0.05 la regione di rifiuto è la stessa R = {z < −1.96 o z > 1.96} , e la decisione è quella di rifiutare H0 se z appartiene alla regione di rifiuto. Se invece la numerosità n del campione è più piccola di di 30 occorre ricorrere ad un altra statistica, chiamata t di Student. La distribuzione di questa statistica non è normale standardizzata ma dipende dal numero di osservazioni. In particolare se abbiamo n osservazioni allora la statistica t di Student si dice che ha n − 1 gradi di libertà. Per il resto il grafico della distribuzione della t di Student è simmetrico, assomiglia alla distribuzione normale standardizzata, ma ha le code più alte e la campana più bassa, cioè ha una maggior variabilità rispetto alla normale standard, nel senso che ci si aspetta di osservare una percentuale di valori oltre 3 valori della deviazione standard maggiori di quelli di una normale standardizzata. La Figura 10.2 riporta il grafico della distribuzione t di Student al variare dei gradi di libertà. Come si può notare al crescere dei gradi di libertà la distribuzione 106 CAPITOLO 10. TEST STATISTICI 0.4 N(0,1) e t−Student 0.2 0.0 0.1 f(x) 0.3 N(0,1) t(1) t(2) t(10) t(30) −5 −4 −3 −2 −1 0 1 2 3 4 5 x Figura 10.2: Distribuzione t di Student al variare dei gradi di libertà e distribuzione normale standard. della t di Student assomiglia sempre più alla distribuzione normale standard. La distribuzione t di Student deve il suo nome allo statistico William Sealy Gosset che dedusse la distribuzione t di Student mentre lavorava come statistico alla famosa birreria irlandese Guinness. La ditta non gli permise di utilizzare il suo vero nome e lui pubblicò i risultati ottenuti lavorando presso la Guinness con lo pseudonimo di Student. Vediamo la procedura per un test t con livello α = 0.05 (viene chiamato in questo modo il test per verificare il valore di una media di una popolazione normale con σ non noto e numerosità campionaria n piccola, cioè minore di 30). 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA . Anche in questo scriveremo: H0 : µ = µ0 HA : µ 6= µ0 2. Calcolare la statistica test t. Osservati i valori del campione x1 , x2 , . . . , xn , questa è data da x̄ − µ0 t= s √ n 3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la soglia occorre cercare nella tavola della t di Student con n − 1 gradi di libertà, quei valori che lasciano a destra un’area pari a 0.025, indichiamo tale 10.2. VERIFICA D’IPOTESI: LA PRATICA 107 valore con tn−1 0.025 , e il valore che lascia alla sua sinistra un’area di 0.025 sarà per simmetria il valore −tn−1 0.025 . La regione di rifiuto è riportata nella Figura 10.3 e si scrive: n−1 n−1 o t > t0.025 R = t < −t0.025 Il valore tn−1 0.025 si deve cercare nella tavola 10.1 come spiegato nell’esempio. 4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o rifiutare H0 . Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, altrimenti l’accettiamo. Regione di rifiuto α 2 = 0.025 (n−1) − t0.025 α 2 = 0.025 −1 0 1 (n−1) t0.025 Figura 10.3: Regione di rifiuto per il test t. L’area tratteggiata sotto la distribuzione t di Student con n − 1 gradi di libertà è 0.05. Esempio 10.2.1. La distribuzione del consumo di alcool tra le donne di età compresa tra 15 e 25 anni in Italia si può considerare normale con media pari 9.5 unità per settimana. Per capire se il consumo di alcool tra le studentesse dell’università si possa considerare con la stessa distribuzione si osserva il consumo di alcool di un campione di 14 studentesse. La media dei valori osservati è risultata x̄ = 10.64. Sulla base di questi dati si può accettare l’ipotesi che il consumo di alcool delle studentesse sia lo stesso di quello delle donne italiane? Il sistema di ipotesi è il seguente H0 : µ = 9.5 HA : µ 6= 9.5 108 CAPITOLO 10. TEST STATISTICI La statistica test è: t= x̄ − µ0 √s n = 10.64 − 9.5 7.26 √ 14 = 0.59 Il valore soglia per costruire la regione di rifiuto lo cerchiamo nella Tabella 10.1 della t di Student. In questa tabella p indica la probabilità sotto la curva della distribuzione di una t di Student con g gradi di libertà. Tale probabilità è data dall’area tratteggiata in Figura 10.4. Quindi il valore che noi cerchiamo è in corrispondenza della colonna con p = 0.975 in quanto questo valore lascerà alla sua destra un’area sotto la curva pari a 0.025. Essendo le osservazioni n = 14 i gradi di libertà sono 13, per cui dobbiamo incrociare la colonna con p = 0.975 con la riga avente g = 13. Il valore corrispondente è 2.16. Quindi la regione di rifiuto può essere scritta come R = {t < −2.16 o t > 2.16} . Poiché la statistica test t = 0.59 non appartiene a questa regione accettiamo l’ipotesi nulla. Il consumo delle studentesse si può ritenere in linea con il consumo delle donne italiane. Area sotto la distribuzione t di Student g −5 −3 −1 0 1 tp 3 5 Figura 10.4: Area sotto la curva di una distribuzione t di Student al variare dei gradi di libertà e di p come riportati in Tabella 10.1. 10.2.3 Test per la proporzione La procedura per la verifica d’ipotesi può essere applicata anche al caso in cui si voglia sottoporre a verifica il valore della proporzione di un certo evento d’interesse su una popolazione. Vediamo in questo caso i 4 passi. 10.2. VERIFICA D’IPOTESI: LA PRATICA p g 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞ 109 0.75 0.90 0.95 0.975 0.99 0.995 0.9995 1.00000 0.81650 0.76489 0.74070 0.72669 0.71756 0.71114 0.70639 0.70272 0.69981 0.69745 0.69548 0.69383 0.69242 0.69120 0.69013 0.68920 0.68836 0.68762 0.68695 0.68635 0.68581 0.68531 0.68485 0.68443 0.68404 0.68368 0.68335 0.68304 0.68276 0.68067 0.67860 0.67654 0.67449 3.07768 1.88562 1.63775 1.53321 1.47588 1.43976 1.41492 1.39682 1.38303 1.37218 1.36343 1.35622 1.35017 1.34503 1.34061 1.33676 1.33338 1.33039 1.32773 1.32534 1.32319 1.32124 1.31946 1.31784 1.31635 1.31497 1.31370 1.31253 1.31143 1.31042 1.30308 1.29582 1.28865 1.28155 6.31375 2.91999 2.35338 2.13185 2.01505 1.94318 1.89458 1.85955 1.83311 1.81246 1.79588 1.78229 1.77093 1.76131 1.75305 1.74588 1.73961 1.73406 1.72913 1.72472 1.72074 1.71714 1.71387 1.71088 1.70814 1.70562 1.70329 1.70113 1.69913 1.69726 1.68385 1.67065 1.65765 1.64485 12.70620 4.30265 3.18245 2.77645 2.57058 2.44691 2.36462 2.30600 2.26216 2.22814 2.20099 2.17881 2.16037 2.14479 2.13145 2.11991 2.10982 2.10092 2.09302 2.08596 2.07961 2.07387 2.06866 2.06390 2.05954 2.05553 2.05183 2.04841 2.04523 2.04227 2.02108 2.00030 1.97993 1.95996 31.82052 6.96456 4.54070 3.74695 3.36493 3.14267 2.99795 2.89646 2.82144 2.76377 2.71808 2.68100 2.65031 2.62449 2.60248 2.58349 2.56693 2.55238 2.53948 2.52798 2.51765 2.50832 2.49987 2.49216 2.48511 2.47863 2.47266 2.46714 2.46202 2.45726 2.42326 2.39012 2.35782 2.32635 63.65674 9.92484 5.84091 4.60410 4.03216 3.70743 3.49948 3.35539 3.24984 3.16927 3.10581 3.05454 3.01228 2.97684 2.94671 2.92078 2.89823 2.87844 2.86093 2.84534 2.83136 2.81876 2.80734 2.79694 2.78744 2.77871 2.77068 2.76326 2.75639 2.75000 2.70446 2.66028 2.61742 2.57583 636.61925 31.59905 12.92398 8.61030 6.86883 5.95882 5.40790 5.04131 4.78091 4.58689 4.43698 4.31779 4.22083 4.14045 4.07277 4.01500 3.96513 3.92165 3.88341 3.84952 3.81928 3.79213 3.76763 3.74540 3.72514 3.70661 3.68959 3.67391 3.65941 3.64596 3.55097 3.46020 3.37345 3.29053 Tabella 10.1: Tavola della t di Student. La tavola restituisce i valori di tgp dove g sono i gradi di libertà. Si tenga sempre conto della relazione tgp = −tg1−p . 110 CAPITOLO 10. TEST STATISTICI 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA . Abbiamo un’affermazione sul parametro π: H0 : π = π0 HA : π 6= π0 2. Per il teorema 9.1.2 calcoliamo lo z score della proporzione campionaria calcolata sull’osservazione di un campione di ampiezza n. Indicata con p̂ tale proporzione abbiamo: p̂ − π0 z=q π0 (1−π0 ) n 3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la soglia sempre il Teorema 9.1.2 garantisce che se n è abbastanza grande la distribuzione degli score è normale standardizzata. Quindi la regione di rifiuto a livello α = 0.05 è ancora R = {z < −1.96 o z > 1.96} 4. Decidere sulla base del valore z. Se z appartiene a R rifiutiamo l’ipotesi nulla, altrimenti accettiamo l’ipotesi nulla. Esempio 10.2.2. Un magazzino dichiara di non commettere discriminazione sulla base dell’etnia dei suoi dipendenti. Metà di essi appartengono infatti a una minoranza etnica. Osservando i dati dei licenziati nell’ultimo anno i dati dicono che di 28 persone licenziate 23 appartengono alla minoranza etnica. Il magazzino commette il reato di discriminazione della minoranza? Se l’affemazione del magazzino fosse vera, cioè se non ci fosse discriminazione 23 = 0.82 dovrebbe essere tale da non far rifiutare l’ipotesi nulla. il valore di p̂ = 28 Applichiamo i passi per la verifica di ipotesi per la proporzione a questo problema. Il sistema di ipotesi è H0 : π = 0.50 HA : π 6= 0.50 Calcoliamo quindi lo z score della proporzione osservata p̂ = 0.82: p̂ − π0 z=q π0 (1−π0 ) n 0.82 − 0.50 =q = 3.39. 0.50(1−0.50) 28 Poiché il valore 3.39 appartiene alla regione di rifiuto R = {z < −1.96 o z > 1.96}, rifiutiamo l’ipotesi nulla. Quindi non possiamo credere all’affermazione del magazzino riguardo alla mancanza di discriminazione. 10.3. IL LIVELLO DI SIGNIFICATIVIÀ DEL TEST: α 111 Esercizio 10.2.3. Determinare il numero massimo di licenziati appartenenti alla minoranza etnica affiché l’ipotesi nulla non sia rifiutata. Esempio 10.2.4. Un gruppo di n = 9 studenti laureati in sociologia si sottopone ad un test psicometrico prima di essere assunti da una compagnia. La performance in questo test di tutti partecipanti ha una distribuzione normale con media µ0 = 62. La media aritmetica ottenuta dai 9 studenti nel test è x̄ = 66.33, mentre la standard deviation misurata sui 9 studenti è stata s = 4.04. Si può ritenere, a livello α = 0.05, che gli studenti laureati in sociologia che hanno partecipato al test hanno una performance diversa da quella di tutti gli altri studenti? Svolgiamo l’esercizio passo per passo. 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA . H0 : µ = 62 HA : µ 6= 62 2. Calcolare la statistica test t. I valori del campione x1 , x2 , . . . , x9 non li conosciamo ma conosciamo la media x̄ e s. La statistica test è t= x̄ − µ0 √s n = 66.33 − 62 4.04 √ 9 = 3.22 3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la soglia occorre cercare nella tavola della t di Student con n − 1 = 8 gradi di libertà, quei valori che lasciano a destra un’area pari a 0.025, indichiamo tale valore con t80.025 , e il valore che lascia alla sua sinistra un’area di 0.025 sarà per simmetria il valore −t80.025 . Il valore cercato lo troviamo nella tavola all’incrocio con i gradi di libertà g = 8 e probabilità p = 0.975 ed è t80.025 = 2.306. La regione di rifiuto è R = {t < −2.306 o t > 2.306} 4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o rifiutare H0 . Poiché t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, infatti 3.22 è maggiore di 2.306. 10.3 Il livello di significativià del test: α Abbiamo visto nelle sezioni precedenti le regioni di rifiuto per verifiche d’ipotesi con errore di primo tipo α uguale a 0.05. Se il livello di significativià del test varia, anche 112 CAPITOLO 10. TEST STATISTICI la regione di rifiuto cambia. Ad esempio se il livello diventa α = 0.01 la regione di rifiuto per il primo caso pratico trattato è R = {z < −2.575 o z > 2.575} Il valore −2.575 è quel valore che lascia alla sua sinistra sotto la curva della distribuzione normale standardizzata un’area pari a 0.005. Mentre per simmetria il valore 2.575 lascia alla sua destra sotto la curva della distribuzione normale standardizzata un’area pari a 0.005. Adottiamo un po’ di notazioni. Se indichiamo con α2 la metà del livello di significatività, siamo in grado di calcolare la regione di rifiuto per qualunque valore di significativià α. Infatti se indichiamo con z α2 il valore sotto la curva normale che lascia alla sua destra un’area pari a α2 la generica regione di rifiuto può essere scritta come R = z < −z α2 o z > z α2 Si noti che se α = 0.05, α2 = 0.025 e z α2 = 1.96 mentre se α = 0.01, α2 = 0.005 e z α2 = 2.575. Risulta perciò evidente che se vogliamo calcolare la regione di rifiuto a livello α = 0.02 poiché α2 = 0.01 il valore nelle tavole della Normale standardizzata che lascia alla sua destra un’area di 0.01 è 2.325. Quindi la regione di rifiuto è R = {z < −2.325 o z > 2.3255} Nel caso della verifica d’ipotesi per la proporzione le regioni di rifiuto sono le stesse. Nel caso invece in cui la verifica d’ipotesi sia per la media della popolazione normale nel caso in cui σ non sia noto e l’ampiezza campionaria n sia bassa, occorre ricorrere alla tavola della t di Student per diversi valori di α. Nella tavola fornita occorrerà cercare il valore per p = 1 − α2 in corrispondenza ai gradi di libertà g = n − 1. 10.4 Test con alternativa unilaterale A volte si è praticamente sicuri della direzione in cui si è spostato il valore della media, per cui invece di verificare l’ipotesi se la media è un certo valore contro l’alternativa che sia diversa (test bilaterale) si verifica se la media è un certo valore contro l’alternativa che sia maggiore (oppure minore) del valore specificato con l’ipotesi nulla. Si tratta del test ad una coda ovvero del test con alternativa unilaterale. Per questo tipo di test l’ipotesi nulla è la stessa H0 : µ = µ0 mentre l’alternativa può essere di tipo unilaterale destra HA : µ > µ0 10.4. TEST CON ALTERNATIVA UNILATERALE 113 quando siamo convinti che il valore della media sia cresciuto rispetto al valore dichiarato. Oppure l’alternativa può essere di tipo unilaterale sinistra HA : µ < µ0 quando siamo convinti che il valore della media sia diminuito rispetto al valore dichiarato. A questo punto fissato il livello del test α = 0.05 occorre determinare la regione di rifiuto ed è a questo punto che sta la grossa differenza tra test unilaterali e quelli bilaterali. In questi ultimi abbiamo visto che l’errore α veniva spezzato in due parti (una a sinistra e una a destra) della distribuzione della statistica test. Nei test unilaterali questo errore è invece tutto da una parte. Tale parte ovviamente dipende dal tipo di alternativa unilaterale che stiamo verificando. Se ad esempio abbiamo l’ipotesi unilaterale destra µ > µ0 la regione di rifiuto a livello α = 0.05 è R = {z > 1.645} dove 1.645 è il valore sotto la curva normale standardizzata che lascia alla sua destra un’area pari a 0.05. La regione di rifiuto è riportata in Figura 10.5. Se invece il tet Regione di rifiuto α = 0.05 0 1.645 Figura 10.5: Regione di rifiuto per il test unilaterale con alternava destra a livello α = 0.05. consiste nel verificare l’ipotesi nulla µ = µ0 contro l’alternativa unilaterale sinistra µ < µ0 , la regione di rifiuto a livello α = 0.05 è R = {z < −1.645} 114 CAPITOLO 10. TEST STATISTICI dove −1.645 è il valore sotto la curva normale standardizzata che lascia alla sua sinistra un’area pari a 0.05. La regione di rifiuto è riportata in Figura 10.6. Regione di rifiuto α = 0.05 −1.645 0 Figura 10.6: Regione di rifiuto per il test unilaterale con alternava sinistra a livello α = 0.05. Se cambia il livello del test cambia solo il valore soglia da ricavare dalla tavola in corrispondenza del valore α specificato. Per il test per la media di una popolazione normale quando lo scarto quadratico medio non è noto e la numerosità del campione minore di 30 si procede con la statistica t e si utilizza la tavola della t di Student per determinare la regione di rifiuto quando l’alternativa è una delle due unilaterale destra o sinistra. Vediamo i passi per questo test nei due casi. Fissato α = 0.05 consideriamo l’ipotesi alternativa unilaterale destra. 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA . H0 : µ = µ0 HA : µ > µ0 2. Calcolare la statistica test t. Osservati i valori del campione x1 , x2 , . . . , xn , questa è data da x̄ − µ0 t= s √ n 3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la soglia occorre cercare nella tavola della t di Student con n−1 gradi di libertà, 10.4. TEST CON ALTERNATIVA UNILATERALE 115 quel valore che lascia a destra un’area pari a 0.05, indichiamo tale valore con tn−1 0.05 . La regione è: R = t > tn−1 0.05 4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o rifiutare H0 . Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, altrimenti l’accettiamo. Consideriamo ora l’ipotesi alternativa unilaterale sinistra 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA . H0 : µ = µ0 HA : µ < µ0 2. Calcolare la statistica test t. Osservati i valori del campione x1 , x2 , . . . , xn , questa è data da x̄ − µ0 t= s √ n 3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la soglia occorre cercare nella tavola della t di Student con n − 1 gradi di libertà, quel valore che lascia a sinistra un’area pari a 0.05, indichiamo tale valore con −tn−1 0.05 . La regione è: R = t < −tn−1 0.05 4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o rifiutare H0 . Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, altrimenti l’accettiamo. Si noti che rispetto ai test bilaterali quello che cambia è unicamente il valore soglia a parità di statistica test e livello del test in quanto tutto l’errore di prima specie viene scaricato nella direzione dell’ipotesi alternativa. Se l’ipotesi nulla è vera si sbaglia sono in una direzione. A parità di livello α la soglia della regione di rifiuto per un test unilaterale è sempre minore del corrispondente test bilaterale e quindi si rifiuterà l’ipotesi nulla con più facilità. Vediamo un esempio Esempio 10.4.1. Riprendiamo l’Esercizio 10.2.4 Gli studenti laureati in sociologia sono convinti di essere nettamente sopra la media della performance in questo test. Impostare una verifica d’ipotesi per stabilire se tale affermazione è credibile. 116 CAPITOLO 10. TEST STATISTICI Svolgiamo l’esercizio passo per passo, anche se con le considerazioni fatte se abbiamo rifiutato l’ipotesi nulla nel caso di test bilaterale, questa allo stesso livello sarà rifiutata anche per il test unilaterale destra. Vediamo cosa accade. 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA . H0 : µ = 62 HA : µ > 62 2. Calcolare la statistica test t. I valori del campione x1 , x2 , . . . , x9 non li conosciamo ma conosciamo la media x̄ e s. La statistica test è t= x̄ − µ0 √s n = 66.33 − 62 4.04 √ 9 = 3.22 Come si vede il valore della statistica test non cambia. 3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la soglia occorre cercare nella tavola della t di Student con n − 1 = 8 gradi di libertà, quel valori che lascia a destra un’area pari a 0.05, indichiamo tale valore con t80.05 .Il valore cercato lo troviamo nella tavola all’incrocio con i gradi di libertà g = 8 e probabilità p = 0.95 ed è t80.05 = 1.86. La regione di rifiuto è R = {t > 1.86} Come si vede la regione di rifiuto a destra è più grande della parte destra nel caso di alternativa bilaterale. 4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o rifiutare H0 . Poiché t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, infatti 3.22 è maggiore di 1.86 come lo era di 2.306. Capitolo 11 Tabelle di contingenza In questo capitolo studiamo le relazioni che possono esistere tra più variabili categoriali, cioè che assumono come valori delle categorie. Lo scopo sarà capire se dal valore di una di queste variabili dipende il valore dell’altra variabile. Limiteremo il nostro studio a due variabili e vorremo capire quando e in che misura una delle due variabili influenza l’altra. Trattandosi di variabili qualitative, non possiamo fare operazioni sui valori (le categorie) assunte da tali variabili ma solo sul numero di volte in cui una tale categoria si presenta, cioè sulle frequenze. 11.1 Il test χ2 per l’associazione tra due variabili Il test χ2 (la lettera greca χ si legge chi e il test si legge test chi quadrato o test chi quadro) per l’indipendenza di due variabili vuole andare a verificare l’ipotesi: H0 : le variabili sono indipendenti contro l’alternativa HA : le variabili non sono indipendenti Se la variabili non sono indipendenti c’è una certa dipendenza o associazione tra loro e quindi se una di loro assume un valore, l’altra sarà più propensa ad assumerne uno che dipende dal valore assunto dalla prima piuttosto che un altro. Se denotiamo con Y la variabile di interesse e con A la variabile che pensiamo influenzi la variabile Y entrambe qualitative, possiamo, partendo dalla tabella di contingenza riportare le frequenze su un campione di ampiezza N con cui vengono rilevate entrambe le variabili. La tabella di contingenza non è altro che una tabella in cui vengono riportate le frequenze con le quali vengono rilevate le modalità congiunte delle due variabili. Nella Tabella 11.1 N rappresenta il numero totale di osservazioni (detto 117 118 CAPITOLO 11. TABELLE DI CONTINGENZA A a1 .. . y1 n11 .. . Y ... ... ... ar Marginale Y nr1 m1 ... ... Marginale A yc n1c .. . n1 .. . nrc mc nr N Tabella 11.1: Una tabella di contingenza. Vi sono le due distribuzioni marginali e il numero totale di osservazioni N anche grande totale). Sono rilevate le due variabili Y che è quella di interesse che si presenta con c modalità e A che si presenta con r modalità. Le modalità di Y sono indicate con y1 , . . . , yc . Le modalità di A con a1 , . . . , ar . I numeri all’interno della tabella rappresentano la distribuzione congiunta delle variabili Y e A. Ad esempio n11 rappresenta il numero di volte che la modalità 1 della Y e la modalità 1 della A si presenta. Vale a dire sono il numero di unità delle N nel campione nel quale la variabile Y assume la modalità y1 e la variabile A la modalità a1 . I valori n1 , . . . , nr e m1 , . . . , mc che appainoo nell’ultima colonna e nell’ultima riga sono dette distribuzioni marginali ed hanno un ruolo molto importante nell’analisi che faremo. Esse sono la distribuzione della variabile A e della variabile Y , indipendentemente dal valore assunto dall’altra variabile. Ad esempio n1 rappresenta il numero di unità tra le N del campione nelle quali la variabile A assume la modalità a1 , mentre ad esempio mc rappresenta il il numero di unità tra le N del campione nelle quali la variabile Y assume la modalità yc . Se le variabili Y e A fossero indipendenti la distribuzione congiunta (la parte centrale della tabella) dovrebbe contenere dei valori particolari, detti frequenze attese in caso di indipendenza, che sono ottenuti in questo modo. La frequenza attesa in corrispondenza della riga generica e della colonna generica di ottiene facendo il prodotto delle due corrispondenti marginali e si divide per N , il grande totale. Quindi la frequenza attesa della prima frequenza congiunta n11 si ottiene moltiplicando n1 per m1 e dividendo per N . In modo analogo si procede per calcolare tutte le altre. Tali frequenze vengono indicate con eij , dove i sta per il numero di riga e j per il numero della colonna. Se nij rappresenta in modo analogo la frequenza osservata della modalità ai per la variabile A e la modalità yj per la variabile Y la formula che ci dà la generica frequenza attesa è eij = ni mj , N i = 1, . . . , r, j = 1, . . . , c Calcolando per ogni valore di riga e per ogni valore di colonna tutte le frequenze 11.1. IL TEST χ2 PER L’ASSOCIAZIONE TRA DUE VARIABILI 119 attese otteniamo la tabella in caso di indipendenza tra le variabili Y e A. Quindi più si è in presenza di una associazione tra Y e A ovvero di una qualche dipendenza di Y da A tanto più i valori osservati nij saranno diversi da quelli attesi eij . A questo punto si calcolano tutte le differenze nij − eij , si elevano al quadrato e si dividono per le frequenze attese e quindi si sommano tutti. Tale quantità è la statistica test di interesse e viene denotata con il simbolo X 2 . In formula X (nij − eij )2 X2 = eij dove la somma è estesa a tutti i termini all’interno della tabella di contingenza, ovvero a tutti i termini delle frequenze congiunte. Abbiamo quindi un importante risultato della statistica. Teorema 11.1.1. Data una tabella di contingenza come la 11.1, sotto l’ipotesi nulla che Y e A siano indipendenti, la quantità X (nij − eij )2 X2 = eij ha una distribuzione χ2 . La distribuzione χ2 (si legge chi quadrato o chi quadro) è una distribuzione asimmetrica che si ottiene come somme di normali standardizzate elevate al quadrato, la cui distribuzione dipende, come la t di Student da un parametro, detto gradi di libertà. La Tabella 11.2 riporta per i diversi gradi di libertà g e per diversi valori dell’area, i valori per i quali l’area sotto la distribuzione di una χ2 per valori da zero fino a quello indicato è pari a p. Nella Figura 11.1 l’area in questione è tratteggiata e vale p. Se vogliamo che l’area oltre il valore x sotto la distribuzione di una χ2 con 8 gradi di libertà sia ad esempio α = 0.05, dobbiamo cercare nella tabella la riga corrispondente a 8 gradi di libertà, ciè g = 8, e nella colonna corrispondente a p = 1 − α = 0.95. In questo caso avremo quindi x = 15.50731. Quindi una volta calcolata la quantità X 2 , fissato un livello del test α, cioè fissato l’errore di primo tipo, dobbiamo stabilire i gradi di libertà della distribuzione χ2 . I gradi di libertà sono dati dal prodotto tra il numero delle modalità delle due variabili diminuito di uno. Vale a dire, se r sono il numero delle modalità di una variabile e c il numero delle modalità della seconda variabile, avremo che i gradi di libertà associati alla statistica χ2 sono g = (r − 1) · (c − 1). A questo punto la regole di decisione a livello α è: rifiuto l’ipotesi nulla se il valore X 2 calcolato sulla tabella di contingenza supera il valore x che troviamo nella tavola in corrispondenza dei gradi di libertà calcolati e p = 1 − α. 120 CAPITOLO 11. TABELLE DI CONTINGENZA p g 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0.750 0.900 0.950 0.975 0.990 0.995 0.9995 1.32330 2.77259 4.10834 5.38527 6.62568 7.84080 9.03715 10.21885 11.38875 12.54886 13.70069 14.84540 15.98391 17.11693 18.24509 19.36886 20.48868 21.60489 22.71781 23.82769 24.93478 26.03927 27.14134 28.24115 29.33885 30.43457 31.52841 32.62049 33.71091 34.79974 2.70554 4.60517 6.25139 7.77944 9.23636 10.64464 12.01704 13.36157 14.68366 15.98718 17.27501 18.54935 19.81193 21.06414 22.30713 23.54183 24.76904 25.98942 27.20357 28.41198 29.61509 30.81328 32.00690 33.19624 34.38159 35.56317 36.74122 37.91592 39.08747 40.25602 3.84146 5.99146 7.81473 9.48773 11.07050 12.59159 14.06714 15.50731 16.91898 18.30704 19.67514 21.02607 22.36203 23.68479 24.99579 26.29623 27.58711 28.86930 30.14353 31.41043 32.67057 33.92444 35.17246 36.41503 37.65248 38.88514 40.11327 41.33714 42.55697 43.77297 5.02389 7.37776 9.34840 11.14329 12.83250 14.44938 16.01276 17.53455 19.02277 20.48318 21.92005 23.33666 24.73560 26.11895 27.48839 28.84535 30.19101 31.52638 32.85233 34.16961 35.47888 36.78071 38.07563 39.36408 40.64647 41.92317 43.19451 44.46079 45.72229 46.97924 6.63490 9.21034 11.34487 13.27670 15.08627 16.81189 18.47531 20.09024 21.66599 23.20925 24.72497 26.21697 27.68825 29.14124 30.57791 31.99993 33.40866 34.80531 36.19087 37.56623 38.93217 40.28936 41.63840 42.97982 44.31410 45.64168 46.96294 48.27824 49.58788 50.89218 7.87944 10.59663 12.83816 14.86026 16.74960 18.54758 20.27774 21.95495 23.58935 25.18818 26.75685 28.29952 29.81947 31.31935 32.80132 34.26719 35.71847 37.15645 38.58226 39.99685 41.40106 42.79565 44.18128 45.55851 46.92789 48.28988 49.64492 50.99338 52.33562 53.67196 12.11567 15.20180 17.73000 19.99735 22.10533 24.10280 26.01777 27.86805 29.66581 31.41981 33.13662 34.82127 36.47779 38.10940 39.71876 41.30807 42.87921 44.43377 45.97312 47.49845 49.01081 50.51112 52.00019 53.47875 54.94746 56.40689 57.85759 59.30003 60.73465 62.16185 Tabella 11.2: Tavola del χ2 . La tavola restituisce i valori di χgp dove g sono i gradi di libertà. . 11.2. PRIMA LE DONNE E I BAMBINI 121 Regione di rifiuto p = 0.95 0 x Figura 11.1: L’area tratteggiata sotto la curva di una distribuzione χ2 con g gradi di libertà da 0 a x vale p. I diversi valori di x per p fissato e g fissati sono riportati nella Tabella 11.2. 11.2 Prima le donne e i bambini La seguente tabella riporta i dati relativi al disastro del Titanic. Si tratta di una tabella a 4 vie nel senso che sono presenti 4 variabili. La variabile di interesse che possiamo denominare Y =Deceduti, si presenta con due modalità: SI (i morti) e NO (i vivi o sopravvissuti). Poi abbiamo la variabile Età (con le due modalità Bambini e Adulti), la variabile Sesso (anche questa con le due modalità Uomini e Donne) e infine la variabile Classe di viaggio (con 4 modalità: prima classe, seconda classe, terza classe ed equipaggio). Dalla Tabella 11.3 che riporta tutte le variabili possiamo andare a costruire le tabelle a doppia entrata per cercare di capire quale delle variabili, tra Sesso, Età e Classe di viaggio è la più associata con la variabile Deceduti. Le tre tabelle in questione sono riportate di seguito. Esercizio 11.2.1. Calcolare l’indice X 2 per le tre tabelle di contingenza ricavate dai dati del disastro del titanic e stabilire se a livello α = 0.05 si rigetta l’ipotesi che la variabile Deceduti sia indipendente dalle variabili considerate nelle tre tabelle (Classe di viaggio, Sesso ed Età). 122 CAPITOLO 11. TABELLE DI CONTINGENZA Classe 1a Sesso Uomini Età Bambini Adulti Donne Bambini Adulti a 2 Uomini Bambini Adulti Donne Bambini Adulti a 3 Uomini Bambini Adulti Donne Bambini Adulti Equipaggio Uomini Bambini Adulti Donne Bambini Adulti Deceduti SI NO (Morti) (Vivi) 0 5 118 57 0 1 4 140 0 11 154 14 0 13 13 80 35 13 387 75 17 14 89 76 0 0 670 192 0 0 3 20 1490 711 Tabella 11.3: Dati relativi al disastro del Titanic. Erano presenti un totale di 2201 passeggeri Vediamo passo per passo come calcolare l’indice X 2 per la Tabella 11.6. Prima di tutto scriviamo l’ipotesi nulla: H0 : L’essere deceduto è indipendente dall’età. L’alternativa possiamo definirla come HA : L’essere deceduto dipende dall’età. Andiamo a mettere in una tabella tutte le quantità necessarie per il calcolo di X 2 . Nella Tabella 11.2 nij indica le frequenze osservate. La i indica la riga, la j la colonna. Nella Tabella 11.6 la frequenza osservata n11 è il numero dei bambini morti, n12 il numero dei bambini vivi, n21 è il numero degli adulti morti, n22 è il numero degli adulti sopravvissuti. Le frequenze attese eij sono calcolate utilizzando le frequenze delle distribuzioni marginali: e11 = 1490∗109 è la frequenza attesa in caso 2201 di indipendenza del numero di bambini morti. In modo analogo si calcolano le altre frequenze attese. 11.2. PRIMA LE DONNE E I BAMBINI 1st 2nd 3rd Crew 123 SI (Morti) NO (Vivi) 122 203 325 167 118 285 528 178 706 673 212 885 1490 711 2201 Tabella 11.4: Il disastro del Titanic, Deceduti e Classe di viaggio Uomini Donne SI (Morti) NO (Vivi) 1364 367 1731 126 344 470 1490 711 2201 Tabella 11.5: Il disastro del Titanic, Deceduti e Sesso I valori nell’ultima colonna sommati danno il valore di X 2 . In questo caso X 2 = 20.95. Dobbiamo calcolare i gradi di libertà associati alla tabella: essendo una tabella 2 × 2 i gradi di libertà sono (2 − 1) · (2 − 1) = 1. Se andiamo nella tabella della distribuzione χ2 con un grado di libertà (valori nella prima riga, per g = 1 notiamo che l’ultimo valore per p = 09995 è poco più di 12. Questo significa che il valore 20 lascia alla sua sinistra un’area che è quasi 1, e quindi rifiutiamo con molta convinzione l’ipotesi nulla. La conclusione di questo test è: rifiutiamo l’ipotesi nulla che il sopravvivere sia indipendente dall’età. Riassumendo i passi per un test χ2 per l’indipendenza sono i seguenti: 1. Scrivere l’ipotesi nulla esprimendo l’indipendenza delle variabili considerate. 2. Calcolare le frequenze attese per ogni frequenza osservata. 3. Sistemare in una tabella le frequenze osservate, le frequenze attese, la differenza tra queste. Eleviamo quindi al quadrato ogni differenza e dividiamo per la frequenza attesa. 4. Sommiamo queste ultime quantità per ottenere il valore X 2 . 5. Calcolare i gradi di libertà g. 6. Cercare nella tabella della distribuzione χ2 in corrispondenza della riga g il valore della statistica X 2 . 124 CAPITOLO 11. TABELLE DI CONTINGENZA SI (Morti) NO (Vivi) Bambini 52 57 109 Adulti 1438 654 2092 1490 711 2201 Tabella 11.6: Il disastro del Titanic, Deceduti ed Età nij eij nij − eij (nij − eij )2 bambini morti 52 73.79 -21.79 474.77 bambini vivi 57 35.21 21.79 474.77 adulti morti 1438 1416.21 21.79 474.77 adulti vivi 654 675.79 -21.79 474.77 somme (nij −eij )2 eij 6.43 13.48 0.34 0.70 20.95 Tabella 11.7: I passaggi per il calcolo della statistica X 2 per le variabili Essere deceduti ed Età 7. In base al valore trovato in tabella si trae la conclusione del test come segue: (a) Se X 2 è più grande di ogni valore rappresentato si rifiute l’ipotesi nulla che le due variabili siano indipendenti, per qualunque livello α del test. (b) Se il valore X 2 è più piccolo del valore in corrispondenza della colonna 0.95 si accetta l’ipotesi nulla di indipendenza a livello α = 0.05. Se è più grande del valore trovato si rifiuta a livello α = 0.05. (c) Se il valore X 2 è più piccolo del valore in corrispondenza della colonna 0.99 si accetta l’ipotesi nulla di indipendenza a livello α = 0.01. Se è più grande del valore trovato si rifiuta a livello α = 0.01 11.3 Dire qualcosa di più sulla dipendenza Negli esempi visti nella sezione precedente la variabile Essere sopravvissuto risulta dipendere dalle altre variabili. Il calcolo delle quantità necessarie per ottenere X 2 possono essere utilizzate per raccontare qualcosa di più di questa dipendenza. Il calcolo dei residui ci può dare qualche informazione al riguardo. I residui sono calcolati come nij − eij rij = √ . eij I residui per la Tabella 11.6 sono riportati nella Tabella 11.8. 11.4. ODDS RATIO 125 SI (Morti) NO (Vivi) Bambini -2.54 3.67 Adulti 0.58 -0.84 Tabella 11.8: Il disastro del Titanic. Residui per la tabella relativa alle variabili Deceduti ed Età Un residuo negativo significa che ci sono meno unità in quella cella rispetto a quelle che mi aspetterei in caso di indipendenza. Cioè il valore osservato è più grande di quello atteso. Viceversa un residuo positivo significa che ci sono più unità in quella cella rispetto a quelle che mi aspetterei in caso di indipendenza. Cioè il valore osservato è più piccolo di quello atteso. In secondo luogo andiamo a vedere quanto sono grandi i residui. Si può dimostrare che i residui in ogni cella hanno una distribuzione normale, quindi possiamo dire se siano grandi o meno. Dal punto di vista statistico effettuiamo un test per verificare l’ipotesi nulla che i residui siano nulli. Essendo distribuiti come una normale standard, rifiutiamo l’ipotesi nulla a livello 5% se i residui sono maggiori di 1.96. Rifiutare l’ipotesi nulla in questo caso significa che le differenze osservate in quella cella sono significative. Quindi in questo caso l’essere bambini ha molta influenza sulla variabile Essere sopravvissuto. 11.4 Odds Ratio Nelle tabelle a doppia entrata 2 × 2 l’odds ratio può dare informazioni importanti sull’associazione tra i valori delle variabili per le quali si è riscontrato associazione (il test χ2 ha rifiutato l’ipotesi nulla di indipendenza tra le variabili). L’odds ratio, indicato con OR, viene calcolato come rapporto tra il prodotto delle frequenze osservate incrociate. Più facile scriverlo che dirlo! OR = n11 n22 . n12 n21 L’odds ratio può assumere un qualunque valore positivo (non si calcola l’odds ratio per tabelle in cui una delle frequenze osservate è nulla. Un valore dell’odds ratio maggiore di 1 significa che i soggetti nella prima riga tendono a propendere più per la prima risposta che per la seconda. Odds ratio minori di 1 significa che i soggetti nella prima riga tendono a propendere pi`u per la seconda risposta che per la prima. Calcoliamo l’odds ratio per la Tabella 11.6. Abbiamo OD = 52 ∗ 653 = 0.41 1438 ∗ 57 126 CAPITOLO 11. TABELLE DI CONTINGENZA Questo significa che i bambini tendono ad assumere più la modalità SI della variabile Essere sopravvissuto.