Appunti di Statistica sociale (Draft) Ilia Negri [email protected] 10 dicembre 2015 2 Indice 1 Indroduzione: perché la statistica sociale 5 1.1 Perché la statistica serve a tutti . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2 La statistica nella vita di tutti i giorni . . . . . . . . . . . . . . . . . . . . . 7 2 Rappresentare i dati e le loro distribuzioni 11 2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2 Prime definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3 Diversi dati diverse variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.4 Dati e tavole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.4.1 2.5 Distribuzioni di più variabili congiuntamente . . . . . . . . . . . . . . . . . 21 2.5.1 2.6 2.8 Frequenze cumulate . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Dati e grafici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.6.1 2.7 Frequenze assolute, relative e percentuali . . . . . . . . . . . . . . . 18 Distribuzioni per le variabili numeriche . . . . . . . . . . . . . . . . 32 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.7.1 Il geyser Old Faithful . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.7.2 Un caso di attribuzione letteraria . . . . . . . . . . . . . . . . . . . . 40 2.7.3 Il primo bacio non si scorda mai . . . . . . . . . . . . . . . . . . . . 43 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3 Valori medi 51 3.1 La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.2 La media artitmetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.2.1 3.3 Media aritmetica per i dati in classi . . . . . . . . . . . . . . . . . . 56 La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.3.1 Mediana per i dati in classi . . . . . . . . . . . . . . . . . . . . . . . 62 3.4 Simmetria e asimmetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.5 Quale media scegliere? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.6 Quartili, percentili e quantili . . . . . . . . . . . . . . . . . . . . . . . . . . 66 1 2 INDICE 3.7 Il box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.8 Soluzione degli esercizi assegnati . . . . . . . . . . . . . . . . . . . . . . . . 69 4 La variabilità 73 4.1 Il range e lo scarto interquartile . . . . . . . . . . . . . . . . . . . . . . . . . 74 4.2 Scarto quadratico medio e varianza . . . . . . . . . . . . . . . . . . . . . . . 76 5 Operazioni sui dati 79 5.1 Trasformazioni di scala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 5.2 Standardizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 6 Siamo tutti normali? 87 6.1 La curva è normale! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 6.2 La normale standardizzata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 6.3 Un po’ di formule matematiche e un po’ di storia . . . . . . . . . . . . . . . 98 7 Dal campione alla popolazione 101 7.1 Campionamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 7.2 Dalla popolazione al campione: il caso della media . . . . . . . . . . . . . . 104 8 Intervalli di confidenza 109 8.1 La media campionaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 8.2 Gli ingredienti e la ricetta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 9 La proporzione 115 9.1 Il modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 9.2 Intervallo di confidenza per la proporzione π . . . . . . . . . . . . . . . . . . 117 10 Test statistici 121 10.1 Verifica d’ipotesi: la teoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 10.2 Verifica d’ipotesi: la pratica . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 10.2.1 Test per la media di popolazione normale: σ nota . . . . . . . . . . 124 10.2.2 Test per la media di popolazione normale: σ non nota . . . . . . . . 127 10.2.3 Test per la proporzione . . . . . . . . . . . . . . . . . . . . . . . . . 130 10.3 Il livello di significativià del test: α . . . . . . . . . . . . . . . . . . . . . . . 132 10.4 Il p-value e il suo rapporto con α. . . . . . . . . . . . . . . . . . . . . . . . . 133 10.5 Intervalli di confidenza e test bilaterali . . . . . . . . . . . . . . . . . . . . . 133 10.6 Test con alternativa unilaterale . . . . . . . . . . . . . . . . . . . . . . . . . 135 10.7 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 INDICE 11 Confronto di medie 11.1 Differenza delle medie per popolazioni normali 11.2 Differenza per due proporzioni . . . . . . . . . 11.3 Il p-value . . . . . . . . . . . . . . . . . . . . . 11.4 Esercizi . . . . . . . . . . . . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 . 141 . 145 . 146 . 147 A Tavole Statistiche 151 B Soluzioni di alcuni esercizi 159 4 INDICE Capitolo 1 Indroduzione: perché la statistica sociale 1.1 Perché la statistica serve a tutti Che ci pensiate o meno e che ci crediate o meno la vostra vita è piena degli embrioni dei concetti che trovano la loro esatta formulazione nella statistica. Qualche esempio? Pensate a quando la mattina prima di uscire di casa decidete se prendere o meno l’ombrello. Se avrete successo o meno ad un incontro che vi interessa particolarmente. O al voto che prevedete di prendere in questo esame. Quello che state facendo è elaborare un concetto statistico sulla base dei dati che avete immagazzinato con la vostra esperienza. La statistica non è altro che quella disciplina che si occupa di capire e che utilizza i dati. I dati possono essere di qualunque tipo o natura. Qualche esempio? La serie storica delle precipitazioni in una qualunque città, la rilevazione del quoziente di intelligenza, il numero di volte che uno scrittore usa un certo tipo di parole non contestuali ogni mille parole (tipo: da, allora, quindi, . . . ), il numero di giorni che una persona passa in vacanza in un anno. Nel nostro corso ci occuperemo di due tipi di statistica. Il primo tipo è la statistica descrittiva che consiste nei metodi per descrivere e sintetizzare le caratteristiche salienti di un certo insieme di dati. Le caratteristiche salienti di un insieme di dati sono in genere la loro distribuzione, il loro valore medio e la loro variabilità. I metodi utilizzati per descrivere i dati che abbiamo a disposizione e per prepararli per essere analizzati sono principalmente i grafici e le distribuzioni di frequenza, che vedremo nel Capitolo 2, e poi metodi numerici (occorrerà fare qualche calcolo) per dare informazioni sulla media, che vedremo nel Capitolo 3, e sulla variabilità, introdotta nel Capitolo 4. Osservazione importante: la variabilità è la caratteristica fondamentale della statistica. Se non ci fosse variabilità non ci sarebbe la statistica e vivremmo in un mondo banale tutto uguale ad una media! 5 6 CAPITOLO 1. INDRODUZIONE: PERCHÉ LA STATISTICA SOCIALE Il secondo tipo di statistica è quella inferenziale, che si occupa di utilizzare quel poco di cui siamo a conoscenza (e che abbiamo descritto con i metodi della statistica descrittiva) per estenderlo, facendo una stima o delle previsioni, a tutto quello che non possiamo conoscere. Per questo tipo di statistica un ruolo importante riveste la teoria della probabilità. La teoria della probabilità è infatti in grado di fornire un modello matematico per l’incertezza dei possibili risultati di un fenomeno. In questo senso la probabilità può essere vista come una misura dell’incertezza. Possiamo dire che la statistica è capace di quantificare l’incertezza, tramite la probabilità. Essa mette gli statistici in grado di fare affermazioni categoriche, cioè in completa sicurezza, circa il loro grado di incertezza! Ad esempio, l’istat conduce ogni anno le indagini sul benessere delle famiglie italiane. Si registrano in ogni provincia il numero di famiglie monogenitoriali su un certo numero di capifamiglia intervistati. La percentuale di famiglie monogenitoriali in una certa provincia rilevata tra gli intervistati, può essere usata come stima per la percentuale di famiglie monogenitoriali in quella provincia, e sulla base di questa stima il governo locale può prevedere una serie di servizi legati al welfare. Con la teoria della probabilità potremo avere un modello di questa percentuale e saremo in grado di dire ad esempio: la percentuale di famiglie monogenitoriali in Italia non è uguale in tutte le province. La teoria della probabilità ci permette di dire con certezza che questa affermazione potrebbe essere sbagliata nel 5% dei casi. Cioè si fa un’affermazione certa sul grado di incertezza! Naturalmente non saremo mai in grado di dire quante sono le famiglie monogenitoriali in una certa provincia in un certo istante, ma saremo in grado di prevedere in maniera verosimile la proporzione di tali famiglie. La statistica è importante nella vita di tutti i giorni perché senza la vita reale non ci sarebbe bisogno della statistica! Come si diceva sopra, se tutti la pensassero e agissero allo stesso modo e se tutto fosse sempre uguale a se stesso, non avremmo bisogno di prevedere nulla! E sarebbe un mondo senza statistica ma molto noioso! Nella vita reale ogni cosa è diversa e ogni individuo pensa e agisce in modo diverso. Nelle scienze sociali la statistica è utilizzata per spiegare le differenze tra gruppi di persone o luoghi. Ad esempio possiamo essere interessati a come varia il numero di famiglie monogenitoriali rispetto alle condizioni economiche e sociali di un gruppo di famiglie, oppure rispetto alla posizione geografica. Come potete rendervi conto se aprite un giornale o un sito web, la statistica viene utilizzata pressoché ovunque, con grafici, opinioni basate su dati e previsioni su andamenti di vari fenomeni. Spesso queste informazioni possono influenzare anche la vita delle persone in modo rilevante. Questo corso cercherà di mostrarvi come utilizzare varie tecniche della statistica, e anche se non le utilizzerete mai più nella vita, come il detto, impara l’arte e mettila da parte, sarete almeno in grado di capire come vengono fatte certe analisi e come 1.2. LA STATISTICA NELLA VITA DI TUTTI I GIORNI 7 Figura 1.1: Il grafico trasmesso da Fox News vengono proposte certe previsioni e non vi farete ingannare da chi a volte usa i dati in modo non appropriato per ingannare o attirare favori! 1.2 La statistica nella vita di tutti i giorni Questo è un esercizio utile. Prendiamo un giornale qualunque e andiamo a vedere quanti grafici vengono riportati e in che contesto. Cerchiamo di capire se ci sono descrizioni dei dati o previsioni. Ci renderemo conto durante il corso come cambierà la nostra sensibilità di fronte alle notizie che riportano questo tipo di informazioni. Come compito durante il corso dovrete sempre prendere un giornale e analizzare questo tipo di informazioni. Se lo farete sarete in grado una volta che lavorerete in una redazione di fermare la messa in onda di un grafico di questo tipo. Nella Figura 1.1 appare il grafico a torta presentato durante la trasmissione televisiva Fox News molto seguita negli Stati Uniti d’America. A un certo numero di persone era stato chiesto quali candidati vedevano favorevolmente per contrastare Obama. Casa c’è di sbagliato? Cosa può avere indotto questo errore? Proveremo a rispondere nella Sezione 2.6. 8 CAPITOLO 1. INDRODUZIONE: PERCHÉ LA STATISTICA SOCIALE Come dicevamo nella sezione precedente l’Istat conduce ogni anno l’indagine campionaria ”Aspetti della vita quotidiana”, che fa parte di un sistema integrato di indagini sociali (le Indagini Multiscopo sulle famiglie) che ha come scopo quello di rilevare le informazioni fondamentali relative alla vita quotidiana degli individui e delle famiglie. A partire dal 1993, l’indagine viene svolta ogni anno e le informazioni raccolte consentono di conoscere le abitudini dei cittadini e i problemi che essi affrontano ogni giorno. Aree tematiche variegate si susseguono nei questionari, permettendo di capire come vivono gli individui e se sono soddisfatti del funzionamento di quei servizi di pubblica utilità che devono contribuire al miglioramento della qualità della vita. Scuola, lavoro, vita familiare e di relazione, abitazione e zona in cui si vive, tempo libero, partecipazione politica e sociale, salute, stili di vita e rapporto con i servizi sono indagati in un’ottica in cui oggettività dei comportamenti e soggettività delle aspettative, delle motivazioni, dei giudizi contribuiscono a definire l’informazione sociale. L’indagine rientra tra quelle comprese nel Programma statistico nazionale, che raccoglie l’insieme delle rilevazioni statistiche necessarie al Paese. (http://www.istat.it/it/archivio/91926). Si tratta di un indagine campionaria, cioè viene intervistato un campione (la definizione viene data più avanti, Definizione 2.2.2 della popolazione (Definizione 2.2.1) costituita da tutte le famiglie italiane. L’indagine è eseguita su un campione di circa 24mila famiglie (per un totale di circa 54mila individui) distribuite in circa 850 Comuni italiani di diversa ampiezza demografica. Ogni famiglia che rientra nel campione viene estratta con un criterio di scelta casuale dalle liste anagrafiche comunali, secondo una strategia di campionamento volta a costituire un campione statisticamente rappresentativo della popolazione residente in Italia. L’indagine si svolge nel primo trimestre di ogni anno. Un rilevatore comunale si reca presso le abitazioni delle famiglie munito di cartellino identificativo per rivolgere alcune domande ai componenti del nucleo familiare. Le informazioni vengono raccolte tramite due questionari: uno che rappresenta il questionario base della rilevazione, contiene i quesiti familiari e una scheda individuale per ogni componente della famiglia e un questionario che deve essere compilato da ogni componente in modo autonomo (autocompilazione). I principali risultati dell’indagine vengono resi disponibili sul sito dell’Istat attraverso sia il Datawarehouse I.stat sia le statistiche report pubblicate nei settori con argomento: Opinioni dei cittadini, Salute e sanità, Cultura, comunicazione, tempo libero, Partecipazione sociale. Ogni anno, inoltre, i dati raccolti vengono analizzati e pubblicati anche su volumi a carattere generale (Rapporto annuale, Annuario statistico italiano, Noi Italia, Italia in cifre) e, occasionalmente, nelle collane di approfondimento o analisi del medesimo Istituto (Collana argomenti, Metodi e norme). Inoltre, i dati elementari rilevati nel corso dell’indagine sono resi disponibili, gratuitamente, per gli utenti e i ricercatori che ne facciano richiesta motivata per fini di ricerca scientifica attraverso i file standard. I dati comunicati, in ogni caso, sono privi degli elementi identificativi del soggetto al quale si riferiscono, nonché di ogni altro elemento 1.2. LA STATISTICA NELLA VITA DI TUTTI I GIORNI 9 che consenta, anche indirettamente, il collegamento con le famiglie o gli individui intervistati. In questo corso utilizzeremo questi dati (eventualmente opportunamente modificati a scopo didattico) per gli esempi e gli esercizi. 10 CAPITOLO 1. INDRODUZIONE: PERCHÉ LA STATISTICA SOCIALE Capitolo 2 Rappresentare i dati e le loro distribuzioni In questo capitolo dopo aver dato alcune definizioni importanti e fondamentali per cominciare a studiare e a capire la statistica, presenteremo i diversi tipi di dati con cui possiamo avere a che fare in indagini statistiche, e quindi mostreremo come questi dati possano essere rappresentati sia in forma di tabelle che in forma di grafici e disegni. 2.1 Introduzione Cercheremo di capire il significato della parola distribuzione che è un concetto fondamentale di tutta la statistica. Prima di cominciare ad analizzare i dati occorre introdurre qualche termine specifico della statistica per capirci e capire di cosa stiamo parlando. Ogni qualvolta si vuole studiare un fenomeno in cui è presente una certa variabilità della risposta in presenza delle stesse condizioni entra in gioco la statistica. Proviamo a cercare qualche esempio nella vita di tutti i giorni. Le famiglie della provincia di Bergamo aventi un certo reddito e composte da un certo numero di componenti scelgono luoghi diversi e tempi diversi per le loro vacanze. Se vogliamo studiare il fenomeno riguardante le vacanze delle famiglie della provincia di Bergamo (fenomeno di interesse per gli enti pubblici, e o privati e che interessa diversi tipi di studiosi, di sociologia o di economia ad esempio) entra in gioco la statistica. I tecnici incaricati di uno studio sulla fattibilità di un impianto in grado di trasformare in energia elettrica l’energia scaturita durante le eruzioni di vapore acqueo di un geyser registrano per ogni eruzione il tempo di pausa tra un’eruzione e la successiva e il tipo di eruzione. Anche in questo caso per decidere sulla fattibilià (dal punto di vista economico, di impatto ambientale e di gestione delle risorse) entra in gioco la statistica. I metodi statistici si occupano principalmente 1. di raccogliere i dati; 11 12 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI 2. della presentazione dei dati; 3. dell’analisi dei dati. Sulla base delle informazioni fornite dai dati ed elaborate dagli statistici starà ai tecnici e agli studiosi delle diverse discipline prendere decisioni sul fenomeno oggetto di studio, sia esso un’indagine sulle famiglie monogenitoriali, sulle vacanze degli italiani o sulla fattibilià di un impianto industriale, piuttosto che risolvere problemi concernenti il disegno e la progettazione di prodotti e processi industriali. Sulla base delle stesse informazioni si può considerare anche l’impiego dei dati a fini previsivi e conoscitivi di un fenomeno. In ultima analisi si può dire che il primo scopo della statistica è la la comprensione delle cause della variabilità. Per parafrasare e ricordare questo scopo citiamo la Legge di Murphy (si veda [1]): “Anche sotto le condizioni più rigorosamente controllate un sistema si comporta come gli pare e piace”; e la sua trasposizione sul territorio coniata dal Prof. Roberto Colombi come Legge bergamasca: “Non tutte le ciambelle riescono col buco!” 2.2 Prime definizioni Supponiamo di aver fatto un indagine per capire come lo stato civile, il grado di scolarità e il reddito influenzino il numero di figli presenti in un certo nucleo famigliare rappresentato dal capofamiglia (non necessariamente di sesso maschile). Il fenomeno studiato in questo caso è di tipo sociale. Si intervistano 20 capofamiglia e le loro risposte sono elencate nella Tavola 2.1. Le 20 persone intervistate costituiscono un campione della popolazione di tutte le famiglie. La popolazione in statistica non necessariamente sarà riferita a persone. Si tratta in generale di un concetto astratto che non può essere osservato nella sua interezza e completezza e per questo motivo se ne sceglie un campione. Ad esempio nell’esempio sulla fattibilià dell’impianto per la generazione dell’energia dalle eruzioni del geyser, la popolazione è costituita da tutte le possibili eruzioni passate, presenti e future del geyser. Tornaniamo ora all’ultimo esempio, per introdurre l’oggetto principale della statistica. I quattro argomenti di cui viene richiesto il valore (stato civile, grado di scolarità, numero dei figli, reddito) sono chiamate variabili. Ogni rispondente è detto unità statistica o caso. Le risposte che ogni unità statistica dà, ovvero i valori delle variabili osservati sulle unità statistiche, sono dette osservazioni. In ogni insieme di dati (chiamato dataset) i casi o le unità statistiche sono gli individui o le unità del campione. Le variabili sono invece le caratteristiche che assumono valori diversi su ogni unità del campione o individuo. Poiché repetita iuvant vediamo di fissare questi primi concetti. Definizione 2.2.1. La popolazione è l’intera collezione di individui, oggetti, eventi, astratta o concreta, sulla quale si ricercano informazioni. 2.2. PRIME DEFINIZIONI u unità stat. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 13 X stato civile N S V V C N C C V N N N S C N C V S C C Y grado di scolarità L O A O L S S O L O S A S S S L O O S S Z numero di figli 0 1 3 4 1 1 0 2 3 0 1 0 1 4 3 0 2 2 4 4 W reddito in ¤ 72.50 54.28 50.02 88.88 62.30 45.21 57.50 78.40 75.13 58.00 53.70 91.29 74.70 41.22 65.20 63.58 48.27 52.52 69.50 85.98 Tabella 2.1: Stato civile X, grado di scolarità Y , numero di figli Z, reddito W di 20 capofamiglia intervistati per un indagine sociale. 14 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI Non è possibile osservare interamente la popolazione, per cui si ricorre ad un sottoinsieme di essa. Definizione 2.2.2. Un sottoinsieme della popolazione è detto campione. Sono gli elementi della popolazione che si osservano realmente. Vale la pena osservare che un campione non garantisce di riflettere sempre le caratteristiche della popolazione. A volte può essere sostanzialmente diverso dalla popolazione da cui viene estratto. Due campioni della stessa popolazione sono diversi uno dall’altro a volte anche enormemente diversi. Definizione 2.2.3. Unità statistica o caso è ogni elemento del campione. Definizione 2.2.4. Variabile è ogni caratteristica di interesse che viene rilevata sugli elementi del campione. Definizione 2.2.5. Dataset è l’insieme di tutti i valori di ogni variabile che è rilevata sugli elementi del campione. 2.3 Diversi dati diverse variabili Le variabili possono essere di diverso tipo a seconda delle modalità con cui si manifestano i diversi valori che assumono. I valori che assumono sulle unità del campione sono i nostri dati. Le due grandi categorie sono le variabili quantitative (o numeriche) e le qualitative (o categoriche). Tra le quantitative distinguiamo le variabili numeriche discrete (risultato di un conteggio) e le continue (risultato in genere di una misura di qualunque tipo). Tra le qualitative distinguiamo tra quelli ordinali (dove è possibile stabilire un ordine tra le categorie) e nominali (dove questo ordine non è possibile). Il modo migliore per riconoscere il tipo di variabile è pensare alle operazioni che si possono fare su di loro. La prima domanda è sicuramente: sono numeri oppure no? Se sono numeri si tratta di variabili quantitative altrimenti qualitative. Prestare attenzione che a volte nei risultati di un indagine le qualità possono essere codificate con un codice numerico! Questo non significa che ad esempio, se il sesso viene codificato con 1 (femmina) e 2 (maschio), il sesso sia una variabile numerica! Se sono numeri la seconda domanda è: sono il risultato di un conteggio o di una misurazione (con cronometro, bilancia, o qualsiasi altro strumento) espressa in una certa unità di misura? Nel primo caso si tratta di variabili numeriche discrete nel secondo caso di variabili continue. Tutte le variabili inerenti il denaro (reddito, prezzo di un’azione ad esempio) sono in genere considerate come variabili continue (si misurano nella unità di valuta corrente, ad esempio ¤). Se non si tratta di numeri la domanda è: posso ordinare le categorie? Se la risposta è affermativa si tratta di variabili qualitative ordinabili, altrimenti si tratta di una variabile nominale. Si noti che tutte le variabili 2.3. DIVERSI DATI DIVERSE VARIABILI 15 qualitative presentano al più un numero finito di modalità, quindi anche loro a volte sono chiamate discrete. Il seguente schema riassume quanto appena descritto per i diversi tipi di dati o variabili con anche alcuni esempi. • Numerici o quantitativi – Risultato di una misura: continui (distanza, reddito, durata, peso) – Risultato di un conteggio: discreti (numero di figli, numero di esami, numero di giorni) • Categorici o qualitativi (nominali o ordinali) – Ordinali (titolo di studio, scala Mercalli per l’intensità di un terremoto) – Nominali (genere, religione, trattamento) Vediamo alcuni esempi. Esempio 2.3.1. Su un campione di n = 20 capofamiglia sono state rilevate le seguenti variabili: stato civile (X), livello di scolarità (Y ), numero di figli (Z), reddito in migliaia di euro (W ). Lo stato civile presenta le seguenti modalità N = Nubile o celibe C = Coniugato X= V = Vedovo S = Separato, divorziato Si tratta di una variabile qualitativa nominale. Il livello di scolarità (Y ), presenta le seguenti modalià A = Analfabeta, alfabeta O = Scuola dell’obbligo Y = S = Diploma di scuola superiore L = Laurea e superiore Si tratta di una variabile qualitativa ordinale (è possibile dire sempre quale modalità viene prima di un’altra) La variabile numero di figli (Z) è una variabile numerica discreta. La variabile reddito (W ) è una variabile numerica continua (misurata in ¤). I risultati dell’indagine sono riportati nella Tabella 2.1, che rappresenta il nostro dataset. Esempio 2.3.2. La Tabella 2.2 rappresenta i valori della scala Mercalli per misurare l’intensità di un terremoto in base agli effetti prodotti. In questo caso non si tratta di un dataset. Provate però a descrivere un possibile campione e a capire chi è la popolazione. 16 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI Grado Denominazione 1 Strumentale 2 Leggerissima 3 Leggera 4 Mediocre 5 Forte 6 Molto forte 7 Fortissima 8 Rovinosa 9 Disastrosa 10 Distruttrice 11 Catastrofe 12 Grande catastrofe Effetti È percepita solo dai sismografi. È avvertita solo dalle persone ipersensibili in momenti di quiete e ai piani più elevati. Viene avvertita da un numero maggiore di persone, le quali non si allarmano perché generalmente non si rendono conto che si tratta effettivamente di scosse telluriche. Le persone che sono in casa l’avvertono e qualcuna anche tra quelle che si trovano all’aperto. I lampadari oscillano, i pavimenti possono dare degli scricchiolii. Sentita tanto dalle persone che si trovano in casa quanto da quelle fuori casa. Gli oggetti sospesi oscillano ampiamente, gli orologi a pendolo si fermano, si hanno tremiti dei vetri e delle stoviglie. Si ha risveglio brusco dal sonno e può generare panico senza danni alle persone. Gli oggetti cadono e cosı̀ i calcinacci dei muri in cui si possono formare lievi lesioni. La popolazione, presa dal panico, abbandona le case. Possono cadere comignoli e tegole, mentre i muri presentano lesioni non molto gravi. Suono di campane. Lesioni gravi ai fabbricati, crollo di qualche muro interno. Qualche ferito, raramente vittime. Alcuni crolli di case, altri edifici gravemente lesionati. Molti i feriti, non numerose le vittime. Crolli di molti fabbricati. Parecchie le vittime, moltissimi i feriti. Numerose vittime. Quasi tutti gli edifici crollati. Formazione di crepacci e frane. Distruzione di qualsiasi opera umana. Tabella 2.2: Descrizione delle diverse modalità della scala Mercalli che misura l’intensità di un terremoto in base agli effetti sulla popolazione. 2.3. DIVERSI DATI DIVERSE VARIABILI Attesa 76 80 84 50 93 55 76 58 74 75 80 56 80 69 57 Tipo Lunga Lunga Lunga Corta Lunga Corta Lunga Corta Lunga Lunga Lunga Corta Lunga Lunga Lunga Attesa 90 42 91 51 79 53 82 51 76 82 84 53 86 51 85 Tipo Lunga Corta Lunga Corta Lunga Corta Lunga Corta Lunga Lunga Lunga Corta Lunga Corta Lunga 17 Attesa 45 88 51 80 49 82 75 73 67 68 86 72 75 75 66 Tipo Corta Lunga Corta Lunga Corta Lunga Lunga Lunga Lunga Lunga Lunga Lunga Lunga Lunga Corta Attesa 84 70 79 60 86 71 67 81 76 83 76 55 73 56 83 Tipo Lunga Lunga Lunga Lunga Lunga Lunga Corta Lunga Lunga Lunga Lunga Corta Lunga Corta Lunga Tabella 2.3: Durata del periodo dormiente (Attesa) e tipo di eruzione precedente (Tipo) di un campione di 60 eruzioni del geyser Old Faithful (Wyoming, USA). Esempio 2.3.3. La Tabella 2.3 registra la durata (in minuti) del periodo dormiente delle eruzioni e tipo dell’eruzione precedente del geyser Old Faithful (Wyoming, USA). In questo caso la popolazione sono tutte le possibili eruzioni del geyser. Il campione è costituito dalle n = 60 eruzioni analizzate. Per ciascuna eruzione viene registrato sia il tempo di attesa (in minuti) prima di osservare l’eruzione, sia il tipo di pausa dell’eruzione precedente (classificata semplicemente in Corta o Lunga). Si noti che le eruzioni non sono prese sequenzialmente, ma scelte a caso tra tutte quelle a disposizione e per ognuna di esse interessano le due variabili descritte. Le variabili considerate quindi sono due. La prima nella tabella è indicata con Attesa. Si tratta di una variabile continua (durata dell’attesa, viene misurata in minuti con un cronometro). La seconda è il Tipo di eruzione precedente a quella considerata. Si tratta di una variabile qualitativa ordinale. Le eruzioni precedenti sono classificate secondo questa variabile in due categorie (le modalità della variabile): Corta o Lunga. È una variabile ordinale poiché si può sempre dire che Corta viene prima di Lunga. Obiettivo dello studio era capire se periodi di attesa lunghi per l’eruzione tendessero a raggrupparsi. Esercizio 2.3.4. Raccogliere da giornali e riviste esempi di indagini statistiche ed identificare il fenomeno, la popolazione, il campione, le unità statistiche, le variabili analizzate. 18 2.4 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI Dati e tavole Quando si hanno i dati relativi ad una o più variabili rilevate su un campione di n unità statistiche la prima volontà dello statistico è quella di rappresentare i dati. Rappresentare i dati significa in realtà dare un immagine di come si distribuiscono questi dati, cioè dare un’immagine della distribuzione dei dati. Le tavole di dati sono il primo esempio della rappresentazione della distribuzione dei dati. Da qui inseguito per indicare la generica variabile useremo la lettera maiuscola, as esempio X o Y , mentre per indicare le modalità assunte dalle variabili useremo le lettere minuscole, as esempio x o y. I valori delle modalità a seconda del tipo di variabili, potranno essere: categorie (nel caso di variabili categoriche o qualitative), numeri interi (nel caso di variabili numeriche discrete) oppure numeri reali (nel caso di variabili numeriche continue). A questo punto è necessaria una precisazione. Esiste una distribuzione della variabile che stiamo studiando sulla popolazione che non potremo mai sapere come è fatta. Proveremo a immaginarla e a fare qualche ipotesi su di essa. (Ricordiamoci che solo Dio, per chi crede, conosce questa distribuzione). Noi mortali statistici possiamo solo ricavare la distribuzione della variabile su un campione e descrivere questa distribuzione (statistica descrittiva). Dopo questa descrizione, potremo mettere un modello sulla variabile e sulla base dei dati ricavati sul campione potremo dire se il modello proposto è corretto oppure no (statistica inferenziale). Quindi veniamo alle tavole. Torniamo all’Esempio 2.3.1. Concorderete sul fatto che mostrare la Tavola 2.1 dell’intero dataset non da molte informazioni al lettore. Questo fatto è ancora più evidente se guardiamo la Tavola 2.3 dei dati dell’Esempio 2.3.3. Lo scopo delle tavole è quello di rappresentare un insieme di dati. Il tipo di tavole e le informazioni contenute in essa naturalmente dipendono dal tipo di dati e di quante variabili andiamo a descrivere la distribuzione. Anche se si può pensare che fare una tavola sia un operazione assai semplice, come ci si può rendere conto leggendo un giornale, non sempre sono di facile comprensione. Dobbiamo tenere presente quando andiamo a fare una tavola che lo scopo principale di una tavola è trasformare un insieme di dati in un formato che sia facile da capire e che faccia capire le caratteristiche salienti della distribuzione che andiamo a rappresentare. 2.4.1 Frequenze assolute, relative e percentuali Le frequenze assolute, relative e percentuali sono le prime quantità statistiche che incontriamo in questo corso e che sintetizzano le informazioni contenute in un data set. Ricordiamo che in un data set possono essere riportate per ogni singola unità statistica i valori di più variabili. Per ciascuna di queste variabili prese singolarmente possiamo calcolare la distribuzione di frequenza di interesse (assoluta, relativa o percentuale). Per 2.4. DATI E TAVOLE X N C V S Totale 19 ni 6 7 4 3 n = 20 fi = ni /n 0.30 0.35 0.20 0.15 1.00 pi = fi · 100% 30 35 20 15 100 Tabella 2.4: Tavola delle frequenze assolute (ni ), relative (fi ) e percentuali (pi ) per la variabile X stato civile nel campione dell’esempio 2.3.1. X assume i seguenti valori: N=nubile o celibe, C=coniugato/a, V=vedovo/a, S=separato/a o didorziato/a due o più variabili prese contemporaneamente potremo invece calcolare le distribuzioni di frequenza congiunte (assolute o relative) o le frequenze condizionate. Torniamo per adesso al caso di una variabile. Le frequenze assolute, le frequenze relative e le frequenze percentuali rispondono a domande del tipo: quante unità statistiche presentano la modalità x per la variabile X? Esse si possono calcolare per ogni tipo di variabile. In particolare per le variabili di tipo qualitativo nominali sono le prime e a volte uniche quantità statistiche che possiamo calcolare. Come dicevamo sopra il tipo di tavola e le informazioni che può contenere dipendono dal tipo di variabile i cui dati osservati andiamo a rappresentare. Cominciamo con i dati dell’Esempio 2.3.1. Consideriamo la variabile X=Stato Civile. Come abbiamo visto si tratta di una variabile qualitativa non ordinale. Supponiamo di essere interessati a quanti vedovi ci sono nel campione e alla loro percentuale. Possiamo rispondere a queste domande calcolando le frequenze assolute, relative e percentuali della distribuzione della variabile Stato Civile. La Tabella 2.4 le riporta tutte e tre. Si tratta delle frequenze assolute, delle frequenze relative e delle frequenze percentuali. Come si calcolano? Le frequenze assolute si calcolano semplicemente contando quante volte si presenta una certa modalità. Nel campione considerato ad esempio sono presenti 6 nubili o celibi, 7 coniugati e cosı̀ via. Le frequenze assolute si indicano in genere con ni dove la i in basso è un indice che sta ad indicare la generica modalità ovvero la i-esima modalità. Nel nostro esempio n1 (quindi per i = 1) sta ad indicare la frequenza assoluta dei nubili o celibi, n2 sta ad indicare il numero dei coniugati, n3 il numero dei vedovi ed n4 il numero dei separati. Abbiamo cosı̀ le quattro frequenze assolute n1 , n2 , n3 ed n4 che si possono anche scrivere ni con i da 1 a 4 ovvero ni , i = 1, . . . , 4. Naturalmente la somma delle frequenze assolute deve essere uguale al numero delle osservazioni, nell’esempio abbiamo: 6+7+4+3 = 20 in formula n1 +n2 +n3 +n4 = n, dove n = 20. In generale se ci sono k modalità avremo k frequenze assolute (nell’esempio 20 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI k = 4) e abbiamo la prima formula di questo testo: k X ni = n, ovvero n1 + n2 + · · · + nk = n i=1 che si legge: la somma delle frequenze assolute è uguale al numero delle osservazioni. Le frequenze relative sono invece calcolate dividendo ogni frequenza assoluta per il numero totale di osservazioni. In sostanza fatto un intero la totalità delle osservazioni (nell’esempio le venti osservazioni diventano l’intero) si va a vedere che parte di questo intero si prende ciascuna modalità. Ad esempio la frequenza relativa dei nubili è 0.30 e 6 = 0.30. In formula, indicate con fi le frequenze relative esse si ottengono si ottiene da 20 come ni fi = , i = 1, . . . , k n La somma di tutte le frequenze relative è 1, ovvero abbiamo la seconda formula di questo libro k X nk n n1 n2 + + ... + = = 1. fi = f1 + f2 + . . . + fk = n n n n i=1 Le frequenze percentuali sono praticamente la stessa cosa delle frequenze relative, ma l’intero si considera uguale a 100. Nell’esempio, il 30% del campione osservato è costituito da nubili o celibi. Indicate con pi le frequenze percentuali, il loro calcolo avviene in questo modo ni pi = · 100% = fi · 100%, i = 1, . . . , k n La somma delle frequenze percentuali è 100%. k X pi = 100%. i=1 Le frequenze relative e quelle percentuali a differenza delle frequenze assolute permettono un confronto immediato tra distribuzioni con numerosità diverse. Quindi quanti vedovi ci sono e che percentuale ricoprono? Dalla Tabella 2.4, ricaviamo che ci sono 4 vedovi che sono il 20% del nostro campione. Quando si calcolano le tabelle con le distribuzioni di frequenza occorre prestare particolare attenzione agli arrotondamenti e alle cifre decimali. In una tabella occorre che tutte le frequenze relative abbiano sempre lo stesso numero di decimali. Il problema è quante cifre decimali? In genere non esiste una regola fissa, a volte può dipendere anche da esigenze grafiche. Una regola empirica è quella di utilizzare due cifre decimali in più rispetto a quelle dei numeri sui quali si compie l’operazione. Quindi se abbiamo numeri interi, cioè numeri con zero cifre decimali, il rapporto può essere espresso con due cifre. L’importante è che tutti i numeri abbiano lo stesso numero di cifre decimali. Con le cifre 2.5. DISTRIBUZIONI DI PIÙ VARIABILI CONGIUNTAMENTE 21 decimali abbiamo anche il problema dell’arrotondamento. Il numero π = 3.141593 arrotondato alla seconda cifra significativa decimale è 3.14, arrotondato a tre cifre decimali è 3.142. Infatti arrotondiamo al numero con tre cifre decimali più vicino al numero π. Abbiamo che 4.141 < 3.141593 < 3.142 e π è più vicino a 3.142. Quindi ogni volta che la cifra che segue il decimale al quale si vuole arrotondare è maggiore o uguale a 5 si arrotonda al decimale successivo. Ogni volta che è minore di 5 si arrotonda al decimale stesso. Quando si fanno gli arrotondamenti occorre prestare attenzione anche ad un altro fatto. La somma totale delle frequenze relative deve essere uno. Può capitare che in seguito agli arrotondamenti la somma sia più grande o più piccola di uno. In questo caso occorre fare degli aggiustamenti diversi per far si che la somma dia uno. La regola può essere quella, se ad esempio la somma delle frequenze relative è maggiore di 1, di arrotondare per difetto il numero decimale tra quelli arrotondati per eccesso che si discosta meno dal 5. Ad esempio se abbiamo arrotondato a due cifre decimali le frequenze relative 0.1791, 0.1753, 0.1771, 0.4685 otteniamo 0.18, 0.18, 0.18, 0.47. La somma di dei numeri arrotondati è 1.01. osservando i 4 numeri tutti arrotondati per eccesso notiamo che quello che era più lontano dal suo arrotondamento è 0.1753 e quindi questo sarà arrotondato a 0.17. Quindi le frequenze relative sono 0.18, 0.17, 0.18, 0.47 e in questo caso la somma è uno. Lo stesso ragionamento deve essere fatto se la somma è minore di 1, ma questa volta arrotondando per eccesso il numero che arrotondato per difetto presenta il più piccolo scarto. 2.5 Distribuzioni di più variabili congiuntamente In molti fenomeni interessa studiare la relazione, se sussiste, tra le variabili. Un caso tipico è quello di capire se vi sia discriminazione di genere. Ad esempio ci possiamo chiedere se vi sia una differenza tra uomini e donne nell’accesso al lavoro, nella retribuzione o anche solo nella presa di posizione in determinate questioni politiche, sociali o economiche. In questo caso le variabili di interesse sono almeno due, il Sesso e a seconda dell’interesse, il Reddito o la Condizione lavorativa o altro ancora. Per studiare se esiste una qualche relazione tra le variabili prima di tutto occorre costruire la tavola delle frequenze congiunte. Per introdurre il concetto consideriamo di nuovo i dati della Tabella 2.1. In particolare consideriamo le due variabili X=Stato Civile e Y =Grado di scolarità. Per costruire la tabella delle frequenze delle due variabili congiuntamente dobbiamo considerare ogni coppia di possibili valori delle due variabili. Dobbiamo contare ad esempio quanti sono i capofamiglia coniugati e laureati. E questo va fatto per ogni modalità delle due variabili. Dalla Tabella 2.1 è facile contare quanti sono i capofamiglia coniugati e laureati: 2. Se lo facciamo per ogni coppia di modalità otteniamo la Tabella 2.5. Si noti che se si sommano le frequenze assolute per riga (nella tabella sono riportate nell’ultima colonna dopo la barra, si ottiene la distribuzione della variabile X cioè lo stato civile. In effetti la somma 22 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI X N C V S Totali A 1 0 1 0 2 Y O 1 1 2 2 6 S 3 4 0 1 8 L 1 2 1 0 4 6 7 4 3 20 Tabella 2.5: Tabella della distribuzione congiunta delle variabili X=Stato civile e Y =Grado di scolarità. Frequenze assolute. Campione di n = 20 unità. Y X N C V S Totali A 0.05 0 0.05 0 0.10 O 0.05 0.05 0.10 0.10 0.30 S 0.15 0.20 0 0.05 0.40 L 0.05 0.10 0.05 0 0.20 0.30 0.35 0.20 0.15 1 Tabella 2.6: Tabella della distribuzione congiunta delle variabili X=Stato civile e Y =Grado di scolarità. Frequenze relative. Campione di n = 20 unità. delle frequenze della prima riga corrisponde al numero di capofamiglia che sono nubili o celibi, indipendentemente dal grado di scolarità. Analogamente se si sommano le frequenze per colonna (nella tabella sono riportate nell’ultima riga dopo la barra) si ottiene la distribuzione della variabile Y . Tali distribuzioni all’interno della tabella a doppia entrato sono dette distribuzioni marginali, per distinguerle dalla distribuzione congiunta delle due variabili considerate congiuntamente. Da questa tabella si possono ricavare tutte le frequenze relative e percentuali di una variabile dato il valore di un’altra. Ad esempio, la frequenza relativa di capofamiglia coniugati e laureati la otteniamo dividendo la frequenza congiunta 2 per la frequenza totale 2 n = 20 quindi abbiamo fCL = 20 = 0.10. Possiamo calcolare anche la frequenza relativa 4 = 0.20, la frequenza relativa di dei coniugati e diploma di scuola superiore, fCS = 20 1 coniugati e scuola dell’obbligo, fCO = 20 = 0.05, mentre la frequenza relativa di coniugati e alfabeti e analfabeti, fCA = 0. Da queste si ricavano poi le frequenze percentuale nell’usuale modo. Si può quindi costruire la distribuzione congiunta con le frequenze relative. Essa è riportata nella Tabella 2.6. Si noti che in questa tabella occorre dare l’informazione della numerosità campionaria, altrimenti non si è in grado di ricavarla dalla tabella delle frequenze relativa congiunte. Dalla Tabella 2.5 possiamo ricavare anche le frequenze condizionate. Esse rispondono a domande del tipo: tra i capofamiglia coniugati, che 2.5. DISTRIBUZIONI DI PIÙ VARIABILI CONGIUNTAMENTE Maschi Femmine Iscritti alla Società 53.40 46.60 100 23 Avviati al lavoro 59.00 41.00 100 Tabella 2.7: Percentuali degli iscritti ad una società di lavoro interinale in base al sesso e alla condizione rispetto all’avviamento al lavoro. Campione di 10000 unità. Dati dell’autore. Tra parentesi le numerosità assolute. parte o che percentuale sono laureati? Per calcolare questa frequenza occorre considerare solo il gruppo dei capofamiglia coniugati (che sono 7) e contare quanti tra questi sono laureati (che sono 2). La frequenza relativa condizionata dei capofamiglia laureati tra quelli che sono coniugati è 72 = 0.29. Ovvero il 29% dei capifamiglia coniugati è laureato. Si noti che questa percentuale è fatta rispetto al gruppo dei capofamiglia coniugati e non rispetto a tutti. E si noti come è diversa dalla percentuale di capofamiglia che sono coniugati e laureati. Quest’ultima è infatti pari al 10%. Vediamo adesso un esempio in cui occorre ricostruire le frequenze assolute di due variabili da una tabella di frequenze percentuali. Esempio 2.5.1. Un campione di 10000 iscritti ad una società di lavoro interinale sono analizzati in base al sesso e all’avviamento al lavoro. Lo studio ha come obiettivo quello di capire se ci sia discriminazione di genere. I dati percentuali sono riportati in nella Tabella 2.7. La tabella ci dice che delle 10000 unità intervistate il 53.4% sono maschi e il 46.6% sono femmine. Per quanto riguarda la condizione lavorativa la tabella ci dice solo che tra coloro che sono inviati al lavoro dall’agenzia di lavoro, il 59% sono uomini, il 41% sono donne. Non ci dice però qual è, tra le donne che si è rivolta all’agenzia, la percentuale che è stata avviata al lavoro. Per farlo dobbiamo risalire alla tabella delle frequenze assolute delle due variabili. Le frequenze assolute si possono ricavare dalla Tabella 2.7 solo se forniamo l’ulteriore informazione che gli avviati al lavoro sono 1700, cioè se sono date le numerosità totali. In questo caso allora possiamo dedurre che ad esempio Il 59% di 1700 è 1003, quindi sono 1003 gli uomini avviati al lavoro dei 5340 mentre il 41% di 1700 è 697 che sono le donne avviate al lavoro delle 46601 . Le percentuali in questo caso ci forniscono un indicazione del fenomeno nel suo complesso permettendo un confronto. Ricaviamo quindi la tabella a doppia entrata delle due variabili rilevate. In questo esempio il campione è composto da n = 10000 unità sulle quali sono state rilevate due variabili. La prima è il Sesso. Variabile qualitativa nominale, con modalità M e F (maschio e femmina). La seconda variabile è la Condizione lavorativa. Anche questa è una variabile qualitativa nominale, con 1 Per calcolare la quota q di un certo numero n relativa ad una percentuale p occorre risolvere la t·p proporzione q : t = p : 100 da cui q = 100 . Nel primo esempio 1003 = 59·1700 . 100 24 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI Sesso M F Avviato SI NO 1003 4337 697 3963 1700 8300 5340 4660 10000 Tabella 2.8: Tabella delle frequenze assolute degli iscritti ad una società di lavoro interinale in base al sesso e alla condizione rispetto all’avviamento al lavoro. Campione di 10000 unità. Dati dell’autore. modalità SI e NO. La Tabella 2.8 riporta distribuzione congiunta delle due variabili. Con la tabella della distribuzione congiunta possiamo calcolare diverse percentuali di interesse. Occorre fare attenzione alla numerosià rispetto alla quale si basa la percentuale. Se non fossero fornite le frequenze marginali delle due variabili Sesso e Condizione lavorativa non potremmo risalire alle frequenze assolute e quindi, ad esempio, calcolare la frequenza relativa di donne avviate al lavoro: 697/4660 = 0.15 cioè il 15% e la frequenza relativa di uomini avviati al lavoro 1003/5340 = 0.19 ciè il 19%. Si osservi che quando abbiamo calcolato la frequenza relativa di donne avviate al lavoro: 697/4660 = 0.1495708 il risultato è stato arrotondato a 0.15. Quindi in una tabella di frequenze relative o percentuali occorre dare le informazioni che permettano di risalire ai dati originali, cioè occorre dare la numerosità totale da cui si ricavano le percentuali. 2.5.1 Frequenze cumulate Per le variabili qualitative ordinali si possono calcolare le frequenze cumulate, sia assolute che relative che percentuali. Esse rispondono a domande del tipo: quante osservazioni vi sono che si presentano con meno di un certo valore? Oppure: quante osservazioni vi sono che si presentano con almeno un certo valore? Per ottenere la frequenza cumulata di una modalità si sommano la frequenza di quella modalità e di tutte le precedenti. Per calcolare le frequenze cumulate assolute si procede in questo modo. Siano k le modalità con Pk frequenze assolute n1 , n2 , . . . , nk tali che i=1 ni = n. La prima frequenza assoluta cumulata è uguale al valore della frequenza assoluta della prima modalità, N1 = n1 , la seconda frequenza assoluta cumulata è data dalla somma delle prime due frequenze assolute, N2 = n1 + n2 . In generale la i-esima frequenza cumulata è ottenuta sommando Pi le prime i frequenze assolute Ni = n1 + n2 + · · · + ni = j=1 nj . L’ultima frequenza cumulata, la k-esima si ottiene sommando tutte le frequenze assolute e quindi è uguale a P n, Nk = nj=1 nj = n Le frequenze cumulate relative si ottengono sommando le frequenze relative. Se Pk ci sono k modalità con frequenze relative f1 , f2 , . . . , fk tali che i=1 fi = 1, la prima frequenza relativa cumulata è uguale al valore della frequenza relativa della prima 2.5. DISTRIBUZIONI DI PIÙ VARIABILI CONGIUNTAMENTE Y A O S L Totale ni 2 6 8 4 n = 20 fi = ni /n 0.10 0.30 0.40 0.20 1.00 pi = fi · 100% 10 30 40 20 100 Ni 2 8 16 20 - Fi 0.10 0.40 0.80 1 - 25 Pi % 10% 40% 80% 100% - Tabella 2.9: Tavola delle frequenze assolute (ni ), relative (fi ) e percentuali (pi ) e frequenze cumulate assolute (Ni ), telativa (Fi ) e percentuali (Pi ) per la variabile Y grado di scolarità nel campione dell’esempio 2.3.1. Y assume i seguenti valori: A=analfabeta o alfabeta, O=scuala dell’obbligo, S=Diploma di scuola superiore, L=laurea o superiore modalità, F1 = f1 , la seconda frequenza relativa cumulata F2 = f1 + f2 . In generale la i-esima frequenza cumulato è ottenuta sommando le prime i frequenze relative P Fi = f1 + f2 + · · · + fi = ij=1 fj , i = 1, . . . , k. Torniamo ai dati dell’Esempio 2.3.1 e consideriamo la variabile Y Grado di scolarità. Si tratta di una variabile qualitativa ordinale perché le sue modalità hanno un ordine naturale. Se chiedo quanti sono i capofamiglia con meno della laurea come grado di scolarità è una domanda a cui sono in grado di rispondere. Per calcolare le frequenze cumulate (assolute, relative o percentuali) occorre prima calcolare le frequenze assolute, relative e percentuali. I risultati per questa variabile sono riportati nella Tabella 2.9. Si noti che nella riga finale, dove per le frequenze assolute, relative e percentuali, si riportano i totali (n, la numerosità campionaria, 1, e 100% rispettivamente), per le frequenze cumulate non si riportano in quanto già presenti come ultimo valore in corrispondenza della modalità maggiore. Quindi il numero di capofamiglia con un grado di scolarità inferiore alla laurea è data dalla frequenza assoluta cumulata corrispondente alla modalità S. Si noti che meno non include quelli con grado di scolarità pari o superiore alla laurea. Chiudiamo questa sezione con un altro esempio. Esempio 2.5.2. È sto rilevato il rendimento su 350 studenti di una scuola superiore americana. La variabile Rendimento è stata classificata secondo le seguenti modalità (I insufficiente, S = sufficiente, B = buono e O = ottimo). I dati sono i seguenti. S, S, O, S, O, O, B, B, B, O, O, B, O, B, B, O, I, B, O, O, B, O, B, B, B, B, O, I, S, I, I, O, B, O, O, B, O, O, B, S, O, B, O, B, O, I, B, O, I, I, O, O, O, I, B, S, B, B, B, O, B, I, O, I, B, O, O, O, O, B, O, B, O, B, B, B, O, O, B, S, I, O, O, O, S, S, B, S, O, I, O, B, B, I, B, O, I, O, O, S, I, O, O, O, B, I, O, O, I, O, B, O, S, I, B, I, O, I, B, B, B, O, O, B, I, S, O, I, O, O, O, B, B, I, B, B, B, I, S, O, O, B, B, O, S, I, B, B, I, O, B, S, O, B, B, B, B, O, S, O, O, O, O, O, O, B, B, O, O, O, I, B, B, O, O, O, B, O, B, B, O, B, B, O, B, I, O, O, O, B, O, O, O, I, O, O, B, O, B, O, O, O, B, S, O, O, B, O, I, O, O, S, I, O, B, O, I, B, O, B, B, O, O, O, I, B, O, O, S, O, B, O, O, O, B, B, B, O, B, I B, B, B, O, B, B, 26 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI xi I S B O Totale ni 45 23 124 158 350 fi 0.13 0.07 0.35 0.45 1.00 pi 13% 7% 35% 45% 100% Ni 45 68 192 350 350 Fi 0.13 0.20 0.55 1 1.00 Pi 13% 20% 55% 100% 100% Tabella 2.10: Tavola delle frequenze assolute, relative, percentuali, cumulate assolute, cumulate relative e cumulate percentuali per la variabile Rendimento, rilevata su 350 studenti, I=insufficiente, S=sufficiente, B=buono, O=ottimo. O, O, O, I, O, O, O, B, I, O, O, B, O, B, O, O, O, B, I, B, B, B, O, I, O, I, B, B, O, O, O, B, O, S, O, I, O, O, O, B, B, B, B, B, B, B, I, O, O, B, O, B, O, O, B, O, O, O, B, B, O, B, O, O, B, O, S, B, B, I, O, B, B, B, O, I, B, B, I, B, O, O, B, O, S, O, O, I, O, O, B, O, O, O, O, B, O, B, B, O, O, B, O, B Come si può facilmente immaginare se non vengono riassunti in una tabella questi dati non ci forniscono nessuna informazione utile. La Tabella 2.10 riporta le frequenze assolute ni , le frequenze relative fi , le frequenze percentuali pi , le frequenze cumulate assolute Ni , le frequenze relative cumulate Fi e le frequenze cumulate percentuali Pi . Possiamo rispondere alle seguenti domande direttamente dalle frequenze cumulate. Che proporzione di studenti hanno un rendimento superiore o uguale a sufficiente? Poicé il 13% ha un rendimento inferiore a sufficiente, il 100-13=87% ha un rendimento superiore a sufficiente. Quanti studenti hanno un rendimento superiore o uguale a sufficiente? L’87% degli studenti ha un rendimento superiore o uguale a sufficiente, prendendo la frequenza relativa 0.87 e moltiplicandola per il numero di studenti 0.87*350=304.5! come è possibile? Il motivo è legato agli arrotondamenti sulle frequenze relative. Se consideriamo le frequenze assolute il numero di studenti con un rendimento superiore o uguale a sufficiente è 23+124+158=305! Che proporzione di studenti hanno un rendimento inferiore a buono? Equivale a chiedere la proporzione di studenti che hanno un rendimento inferiore o uguale a sufficiente e quindi 0.20. Che proporzione di studenti hanno un rendimento inferiore o uguale a buono? Questo valore è dato direttamente dal valore 0.55. Riassumendo per i dati qualitativi nominali si possono calcolare e rappresentare in una tabella le seguenti frequenze P • frequenze assolute: n1 , n2 , . . . , ni , . . . , nk ; ki=1 ni = n P • frequenze relative: fi = nni ; ki=1 fi = 1 P • frequenze percentuali: pi = fi 100%; ki=1 pi = 100% Se la variabile è ordinale si possono aggiungere le 2.5. DISTRIBUZIONI DI PIÙ VARIABILI CONGIUNTAMENTE ni fi Ni Fi Corta 17 0.28 17 0.28 Lunga 43 0.72 60 1 27 Totale 60 1 – – Tabella 2.11: Frequenze assolute, relative e cumulate della variabile tipo di eruzione precedente per dati dell’Esempio 2.3.3. • frequenze cumulate assolute: Ni = • frequenze cumulate relative: Fi = Pi j=1 nj , Pi j=1 fj , i = 1, . . . , k. i = 1, . . . , k. Chiudiamo questo paragrafo con un ultimo esempio Esempio 2.5.3. Calcoalre le frequenze cumulate assolute e relative per la variabile tipo di eruzione precedente nell’esempio dei dati del geyser Old Faithful. La Tabella 2.11 calcola le tre frequenze per la variabile tipo di eruzione precedente. Si noti che essendoci solo due modalità calcoliamo solo due frequenze assolute e relative e una sola cumulata, in quanto la seconda e ultima è sempre 1. Infine riassumiamo nel seguente elenco alcuni suggerimenti da tenere presente quando si fornisce una tabella di frequenze: 1. Indicare sempre chiaramente cosa contiene la tabella. A chi o a cosa, dove e quando sono stati rilevati i dati. Se necessario numerare la tavola. 2. Indicare sempre il nome ad ogni colonna e ad ogni riga. Se si usano acronimi indicare sempre il significato. 3. Indicare sempre l’unità di misura. 4. Indicare i valori totali. 5. Incolonnare propriamente i numeri (i decimali devono stare allineati). 6. Utilizzare lo stesso numero di decimali. 7. Indicare la fonte dei dati. Per i dati di tipo numerico discreto e continuo le tabelle di frequenza verranno presentate nel prossimo paragrafo dove saranno di ausilio per la rappresentazione grafica ti tali distribuzioni. CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI 0 1 2 3 freq 4 5 6 7 28 C N S V stato civile Figura 2.1: Grafico delle frequenze assolute della variabile Stato civile nell’Esempio 2.3.1. 2.6 Dati e grafici Produrre bei grafici permette di capire molto dei dataset con solo uno sguardo. Inoltre in genere per le persone è molto meglio capire un grafico che una tavola piena di numeri. Vi sono diversi grafici che è possibile utilizzare per rappresentare i dati. Il tipo di grafico dipende dal tipo di dati. Se i dati sono qualitativi nominali possono essere rappresentati graficamente in diversi modi: • tramite rettangoli • grafici a torta • rappresentazione tramite figure Nella rappresentazione tramite rettangoli, o barre, le modalità x1 , x2 , . . . , xk del carattere si sistemano su un segmento orizzontale in qualsiasi ordine e in modo equispaziato. In corrispondenza di ciascuna modalità si disegnano rettangoli di stessa base e altezza proporzionale alle frequenze ni , fi o pi . 2.6. DATI E GRAFICI 29 stato civile C N V S Figura 2.2: Grafico a torta delle frequenze assolute della variabile Stato civile nell’Esempio 2.3.1. Se nello stesso grafico si rappresentano più fenomeni occorre che l’altezza sia proporzionale alle frequenze fi o pi in modo da poterli confrontare. Nella rappresentazione tramite diagrammi a torta (detti anche grafici a torta) si disegna un cerchio e si identificano dei settori circolari la cui ampiezza (o la cui area) è proporzionale alle frequenze relative fi o percentuali pi . L’intero cerchio rappresenta quindi la totalità del fenomeno, cioè vale 1 o 100% a seconda delle frequenze rappresentate. Anche in questo caso i settori vengono disegnati in un ordine qualsiasi e vengono colorati con colori diversi a seconda della modalità del carattere. Tornando al grafico riportato in Figura 1.1 risulta lampante come l’area dell’intero cerchio non possa essere pari al 100% in quanto sommando le frequenze percentuali il valore 100 è superato abbondantemente. L’errore nella rappresentazione è dovuta al fatto che ogni intervistato poteva esprimere scelte multiple sui candidati possibili e quindi la somma delle frequenze relative non poteva essere 1. Nella rappresentazione tramite figure si sceglie una figura per rappresentare l’unità di 30 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI N C S V | | | | | | ^ ^ ^ ^ ^ ^ | | | | | | | ^ ^ ^ ^ ^ ^ ^ | | | ^ ^ ^ | | | | ^ ^ ^ ^ 6 7 3 4 Tabella 2.12: Rappresentazione delle frequenze assolute della variabile Stato civile nell’Esempio 2.3.1. xi A O S L Totali ni 2 6 8 4 20 fi 0.1 0.3 0.4 0.2 1.0 pi 10 30 40 20 100 Ni 2 8 16 20 20 Fi 0.1 0.4 0.8 1.0 1 Tabella 2.13: Frequenze assolute, relative, percentuali, cumulate assolute e cumulate relative del livello di scolarità nell’Esempio 2.3.1. misura: | ^ = 1 Si rappresentano le modalità del carattere riportando un numero di figure proporzionale alla frequenza ni . Anche in questo caso le modalità vengono sistemate in un ordine qualsiasi. Se la variabile è di tipo qualitativo ordinale come ad esempio la variabile livello di scolarità (Y ) nell’Esempio 2.3.1, il grafico da utilizzare è preferibilmente il grafico a barre o a rettangoli dove occorre solo prestare attenzione all’ordine con cui si rappresentano le modalità che deve andare dal più basso a sinistra al più alto a destra. Si possono anche utilizzare i grafici a torta ma sono sconsigliati perché si perte l’informazione dell’ordine. I grafici con i disegni si possono utilizzare con l’accortezza di ordinare anche qui le modalità. Nel caso della variabile livello di scolarità nell’Esempio 2.3.1 le modalità con cui si presenta il fenomeno sono k = 4 x1 = A x2 = O x3 = S x4 = L La Tabella 2.6 riporta le frequenze, mentre nella Figura 2.3 vengono rappresentati tramite rettangoli le frequenze assolute. 31 4 0 2 freq 6 8 2.6. DATI E GRAFICI A O S L grado scolarita' Figura 2.3: Grafico delle frequenze assolute del livello di scolarità nell’Esempio 2.3.1. 32 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI xi 0 1 2 3 4 ni 5 5 3 3 4 20 fi 0.25 0.25 0.15 0.15 0.20 1.00 pi 25 25 15 15 20 100 Ni 5 10 13 16 20 Fi 0.25 0.50 0.65 0.80 1.00 Tabella 2.14: Frequenze assolute, relative, percentuali, cumulate assolute e cumulate relative del numero di figli nell’Esempio 2.3.1. 2.6.1 Distribuzioni per le variabili numeriche Se la variabile è di tipo quantitativo numerico discreto (conteggio) la distribuzione di frequenza si costruisce andando a contare quante volte si presentano le diverse modalità numeriche. La rappresentazione grafica deve essere di tipo a bastoncino o segmento e l’asse su cui rappresentano i valori è di tipo numerico, per cui si deve prestare attenzione a come si rappresentano i valori rispettando l’unità di misura dell’asse. Nell’Esempio 2.3.1 la variabile numero di figli a carico (Z) è di tipo quantitativo discreto. Le intensità con cui si presenta il fenomeno sono k = 5 x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4. Nella Tabella 2.6.1 sono riportate le frequenze, mentre nella Figura 2.4 sono rappresentate le frequenze assolute. Si possono anche rappresentare i grafici delle distribuzioni cumulate. Per i dati numerici discreti si riporta ogni valore della distribuzione cumulata in corrispondenza di ogni modalità numerica. Quindi si tracciano delle linea verticali dal valore della frequenza cumulata all”asse delle ascisse e delle linee orizzontali dal valore della frequenza cumulata di una modalità fino ad intersecare la linea verticale della modalità successiva. In questo modo il grafico delle frequenze cumulate assume la forma di una scala che parte da zero e fa un salto pari alla frequenza in corrispondenza di ogni modalità. La Figura 2.5 riporta il grafico delle frequenze cumulate relative per la variabile Numero di figli dell’E sempio 2.3.1. Se la variabile è di tipo quantitativo continuo, la frequenza con cui si ripete una qualunque modalità è in genere uno. Quindi i tipi di grafici visti fino ad ora sarebbero privi di informazione per dati di questo tipo. Occorre dividere i valori possibili per la variabile in classi o intervalli e contare quanti valori cascano in ogni classe e quindi rappresentare i dati tramite un istogramma. 33 3 2 0 1 freq. assolute 4 5 2.6. DATI E GRAFICI 0 1 2 3 4 numero di figli Figura 2.4: Frequenze assolute del numero di figli nell’Esempio 2.3.1. CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI 1.0 Frequanze cumulate relative 0.8 ● ● 0.6 ● Fi 0.4 ● 0.2 ● 0.0 34 −1 0 1 2 3 4 5 figli Figura 2.5: Frequenze cumulate relative del numero di figli nell’Esempio 2.3.1. 2.6. DATI E GRAFICI 35 xi 40 a 50 50 a 58 58 a 70 70 a 95 ni 3 6 4 7 20 fi 0.15 0.30 0.20 0.35 1.00 Ni 3 9 13 20 20 ai 10 8 12 25 li 0.30 0.75 0.33̄ 0.28 Tabella 2.15: Frequenze assolute, relative, percentuali, cumulate assolute ampiezza degli intervalli e densità assoluta del reddito in euro nell’Esempio 2.3.1. Gli estremi destri degli intervalli sono inclusi. Ad esempio la variabile reddito in euro (W ) dell’esempio 2.3.1 è una variabile quantitativa continua Le modalità o intensità con cui si presenta il fenomeno sono tutte distinte. Ricorriamo allora al raggruppamento dei dati in classi. Introduciamo 4 classi e andiamo a contare i valori che cascano in ogni classe e quindi calcoliamo le frequenze assolute relative e cumulate per ogni classe. Accanto a queste frequenze è importante anche riportare l’ampiezza di ogni classe che denotiamo con ai e la densità di frequenza definita come il rapporto tra la frequenza della classe e l’ampiezza della classe. Ha il significato di come le unità che cascano in quella classe si distribuiscono nella classe. Più è alta la densità più le unità sono dense nell’intervallo. La densità è denotata con li ed è definita come li = ni /ai . Si possono anche definire le densità relative, come rapporto tra le frequenze relative di una classe fi e l’ampiezza della classe, di = fi /ai . Il numero di classi e l’ampiezza delle classi dipende dal numero di dati e dai valori. In genere meno sono i dati meno sono le classi e l’ampiezza deve essere fissata in modo che in ciascun intervallo caschi almeno un certo numero di unità. Anche la scelta degli estremi inferiore e superiore del primo e dell’ultimo intervallo rispettivamente è arbitraria. Il calcolo delle frequenze e la determinazione delle classi per la variabile reddito in euro dell’esempio 2.3.1 sono riportati nella Tabella 2.15, mentre l’istogramma è rappresentato nella Figura 2.6. Per costruire un istogramma i passi da seguire sono i seguenti: 1. Si suddividono i valori osservati in r classi: si denota con ai l’ampiezza della i-esima classe, i = 1, . . . , r 2. Si dispongono i valori degli estremi degli intervalli delle classi sull’asse delle ascisse rispettando l’unità di misura dell’asse. 3. Si calcolano le frequenza assolute o relative per ogni classe: ni o fi , i = 1, . . . , r. 4. Si calcolano le densità di frequenza assoluta relativa per ogni classe: li = ni ai o di = fi ai 36 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI 0.4 0.0 0.2 Density 0.6 Istrogramma corretto 40 50 60 70 80 90 w Figura 2.6: Istogramma della variabile reddito in euro nell’Esempio 2.3.1. Gli estremi destri degli intervalli sono inclusi. 2.7. ESEMPI 37 4 3 0 1 2 Frequency 5 6 7 Istogramma sbagliato! 40 50 60 70 80 90 w Figura 2.7: Istogramma NON CORRETTO della variabile reddito in euro nell’Esempio 2.3.1 dove l’altezza dei rettangoli è la frequenza assoluta della classe. 5. Si tracciano dei rettangoli che hanno come base gli estremi dell’intervallo e come altezza la densità di frequenza li o di . In questo modo l’area di ogni rettangolo dell’istogramma è uguale alla frequenza assoluta (se l’altezza è li ) o relativa (se l’altezza è di ) della classe che costituisce la base. Infatti l’area del rettangolo è data da li · ai = ni nel primo caso e di · ai = fi nel secondo caso. È molto importante che l’altezza dei rettangoli sia la densità (relativa o assoluta) e non la frequenza assoluta o relativa della classe. In quest’ultimo caso si otterrebbero dei grafici fuorvianti sul comportamento della variabile. Ad esempio si osservi come nell’istogramma riportato nella Figura 2.7 si abbia la percezione che vi sia una grandissima parte di redditi molto alti rispetto all’istogramma nella Figura 2.6. 2.7 2.7.1 Esempi Il geyser Old Faithful Per i dati considerati nell’Esempio 2.3.3 vogliamo: 38 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI xi 40 ` 45 45 ` 50 50 ` 55 55 ` 60 60 ` 65 65 ` 70 70 ` 75 75 ` 80 80 ` 85 85 ` 90 90 ` 95 ni 1 2 7 6 1 5 6 11 13 5 3 60 fi 0.017 0.033 0.117 0.100 0.017 0.083 0.100 0.183 0.217 0.083 0.050 1 ai 5 5 5 5 5 5 5 5 5 5 5 di 0.0033 0.0067 0.0230 0.0200 0.0033 0.0170 0.0200 0.0370 0.0430 0.0170 0.0100 Tabella 2.16: Tavola dei vari tipi di frequenze della variabile Tempo di attesa tra due eruzioni successive dai dati dell’esempio 2.3.3. 1. rappresentare la distribuzione dei tempi di attesa per tutte le eruzioni; 2. rappresentare la distribuzione dei tempi di attesa per le eruzioni che hanno l’eruzione di tipo prcedente Corta; 3. rappresentare la distribuzione dei tempi di attesa per le eruzioni che hanno l’eruzione di tipo prcedente Lunga; 4. calcolare la percentuale di eruzioni ha un tempo di attesa minore di 60 minuti; 5. calcolare la percentuale di eruzioni, tra quelle che hanno l’eruzione precedente di tipo Corta, ha un tempo di attesa minore di 60 minuti; 6. calcolare la percentuale di eruzioni, tra quelle che hanno l’eruzione precedente di tipo Lunga, ha un tempo di attesa minore di 60 minuti. Per fare l’istogramma della distribuzione dei tempi di attesa per tutte le eruzioni dobbiamo raccogliere i dati in classi. Costruiamo l’istogramma per la durata dei periodi di attesa dopo ogni eruzione del geyser Old Faithful. Nella Tabella 2.16 riportiamo le frequenze assolute ni le frequenze relative fi = nni l’ampiezza di ogni classe ai che in questo caso è 5 per ogni classe, e la densità di frequenza relativa di = afii . Sono le quantità necessarie per costruire l’istogramma richiesto. L’istogramma per tutti i dati è riportato in Figura 2.8. Consideriamo ora il sottocampione costituito dalle eruzioni con Eruzione precedente Corta e costruiamo l’istogramma per questa distribuzione. La tabella delle frequenze è la 2.17. Le quantità che ci servono per costruire l’istogramma sono riportate nella Tavola 2.7. ESEMPI 39 0.03 0.02 0.00 0.01 Density 0.04 0.05 Istogramma delle durate per tutti i dati 40 50 60 70 80 90 100 Durata (minuti) Figura 2.8: Istogramma della variabile Tempo di pausa. Il tempo è misurato in minuti. 40 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI xi ni 42 1 45 1 49 1 50 1 51 4 53 2 55 2 56 2 58 1 66 1 67 1 Tabella 2.17: Frequenze assolute della variabile Tempo di pausa tra due eruzioni successive dai dati dell’esempio 2.3.3 solo per il sottocampione con eruzione precedente di tipo corto. xi 40 ` 45 45 ` 50 50 ` 55 55 ` 60 60 ` 65 65 ` 70 ni 1 2 7 5 0 2 17 fi 0.06 0.12 0.41 0.29 0 0.12 1 ai 5 5 5 5 5 5 di 0.01 0.02 0.08 0.06 0 0.02 Tabella 2.18: Vari tipi di frequenze della variabile Tempo di pausa tra due eruzioni successive dai dati dell’esempio 2.3.3 solo per il sottocampione con eruzione precedente di tipo corto. 2.18. L’istogramma è riportato nella Figura 2.9 mentre lasciamo come esercizio di costruire una tavola analoga alla 2.18 per la variabile Durata del tempo di pausa per il sottocampione relativo alle eruzioni con eruzione precedente lunga. L’istogramma è riportato nella Figura 2.10. 2.7.2 Un caso di attribuzione letteraria Questo esempio riguarda gli 85 articoli sul federalismo che furono pubblicati negli Stati Uniti per convincere i cittadini dello stato di New York a ratificare la costituzione. Gli storici si diedero l’arduo compito di individuare chi erano gli autori di questi articoli. Per 73 di questi articoli non ci sono stati problemi di attribuzione, mentre per i restanti 12 gli storici non erano d’accordo se attribuire questi 12 scritti a Hamilton o a Madison, entrambi due scrittori di testi politici molto famosi e attivi a quell’epoca. Il contenuto politico non riesce a determinare quale dei due sia l’autore dei 12 scritti perché entrambi avevano le stesse idee politiche. Gli istogrammi possono aiutare a dirimere la questione. Gli autori tendono ad avere differenti stili di scrittura in particolare tendono ad usare parole non contestuali con un tasso (numero di parole ogni mille) con una distribuzione che li caratterizza. La Tabella 2.19 riporta il tasso della parola by rilevata ogni 1000 parole in 48 scritti di Hamilton (non solo quelli attribuiti a lui degli 85 sul federalismo) e in 50 scritti di Madison (anche in questo caso non sono stati considerati solo gli scritti sul federalismo). In un articolo del 1963, Mosteller e Wallace utilizzarono una metodologia 2.7. ESEMPI 41 0.06 0.04 0.00 0.02 Density 0.08 0.10 Durata del tempo di pausa per eruzione precedente corta 40 50 60 70 80 90 100 Durata (minuti) Figura 2.9: Istogramma della variabile Durata del tempo di pausa per il sottocampione con eruzione precedente di tipo Corta. 42 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI 0.06 0.04 0.00 0.02 Density 0.08 0.10 Durata del tempo di pausa per eruzione precedente lunga 40 50 60 70 80 90 100 Durata (minuti) Figura 2.10: Istogramma della variabile Durata del tempo di pausa per il sottocampione con eruzione precedente di tipo Lunga. 2.7. ESEMPI 43 Tasso 0a2 2a4 4a6 6a8 8 a 10 10 a 12 12 a 14 14 a 16 16 a 18 Totali by H 2 7 12 18 4 5 – – – 48 M – – 5 7 8 16 6 5 3 50 Tabella 2.19: Tasso della parola by in 48 scritti di Hamilton (H) e in 50 scritti di Madison (M) (numero di ricorrenze ogni 1000 parole). Rate ni 0a2 – 2a4 – 4a6 2 6a8 1 8 a 10 2 10 a 12 4 12 a 14 2 14 a 16 1 16 a 18 – Tabella 2.20: Tasso della parola by nei 12 scritti contesi sul federalismo (numero di ricorrenze ogni 1000 parole). statistica per l’attribuzione dei 12 scritti ad uno dei due autori. Qui prendiamo i loro dati e tracciamo gli istogrammi (anche per i dati numerici discreti possiamo farlo). La Tabella 2.20 riporta invece il tasso della parola by nei 12 scritti contesi sul federalismo. Dopo aver tracciato gli istogrammi per la variabile tasso sia per gli scritti di Hamilton che per quelli di Madison che per gli scritti contesi, il grafico riportato in Figura 2.11 sembra propendere per attribuire gli scritti contesi ad uno dei due autori senza molti dubbi. Si noti che per fare il confronto occorre prestare attenzione affinché in tutti i grafici la scala sia la stessa e si utilizzano frequenze relative perché il numero di scritti è diverso nelle tre distribuzioni. 2.7.3 Il primo bacio non si scorda mai In questo esempio vediamo invece come le frequenze cumulate possono aiutare a capire meglio un fenomeno. Nella Tabella 2.21 sono riportate le frequenze assolute ni , le frequenze assolute cumulate Ni e le frequenze relative cumulate della variabile età a cui è stato dato il primo bacio a sfondo sessuale. Si tratta di una variabile continua (l’età) ed è rilevata su un campione di 42 giovani uomini (dati privati). Abbiamo calcolato la frequenza cumulata 44 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI 0.10 0.05 0.00 Density 0.15 Scritti di Madison 0 5 10 15 Rate 0.10 0.00 Density Scritti di Hamilton 0 5 10 15 Rate 0.10 0.05 0.00 Density 0.15 Scritti contesi 0 5 10 15 Rate Figura 2.11: Istogramma della variabile Tasso della parola by nei 50 scritti di Madison (M), nei 48 scritti di Hamilton (H) e nei 12 scritti contesi sul federalismo. 2.7. ESEMPI 45 Età 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Totali ni 1 0 1 0 3 6 5 6 12 2 4 1 0 1 42 Ni 1 1 2 2 5 11 16 22 34 36 40 41 41 42 – Fi 0.024 0.024 0.048 0.048 0.119 0.262 0.381 0.524 0.810 0.857 0.952 0.976 0.976 1.000 – Tabella 2.21: Età del primo bacio a carattere sessuale di 42 giovani uomini. Frequenze assolute, frequenze cumulate e frequenze cumulate relative. relativa perché ci interessa confrontare questo fenomeno con quello riportato nella Tabella 2.22 in cui viene rilevata sullo stesso gruppo di giovani uomini l’età in cui hanno avuto il primo rapporto sessuale. La tabella riporta anche in questo caso le frequenze assolute ni , le frequenze assolute cumulate Ni e le frequenze relative cumulate. Dalla Tabella 2.21 ad esempio leggiamo che il più alto numero di uomini ha dato il primo bacio all’età di 15 anni (frequenza assoluta 12). Ma il dato che descrive meglio il fenomeno è il fatto che all’età di 15 anni, 34 uomini dei 42 (ovvero l’81%) hanno già dato il primo bacio (frequenza cumulata 34, frequenza cumulate relativa 0.81). Si deduce anche che almeno il 50% degli uomini ha dato il primo bacio ad un’età inferiore o uguale ai 14 anni (frequenza cumulata relativa 0.52). Dalla Tabella 2.22 invece leggiamo che che il primo rapporto sessuale è avvenuto dopo il primo bacio (prima osservazione età=11), che il più alto numero di uomini ha avuto il primo rapporto all’età di 18 anni (frequenza assoluta 15). Anche in questo caso il dato che descrive meglio il fenomeno è il fatto che all’età di 18 anni, 36 uomini dei 42 (ovvero l’86%) hanno già avuto il primo rapporto sessuale (frequenza cumulata 36, frequenza cumulate relativa 0.86). Si deduce anche che il 50% degli uomini ha avuto il primo rapporto sessuale ad un’età inferiore o uguale ai 17 anni (frequenza cumulata relativa 0.50). La tabella 2.23 riporta le due distribuzioni insieme. Per effettuare il confronto l’età è stata fissata da 7 a 21 anni per entrambe le distribuzioni. Le frequenze cumulate relative sono state arrotondate alla seconda cifra significativa. 46 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI Età 11 12 13 14 15 16 17 18 19 20 21 Totali ni 1 0 1 4 4 5 6 15 4 1 1 42 Ni 1 1 2 6 10 15 21 36 40 41 42 – Fi 0.02 0.02 0.05 0.14 0.24 0.36 0.50 0.86 0.95 0.98 1 – Tabella 2.22: Età del primo rapporto sessuale di 42 giovani uomini. Frequenze assolute, frequenze cumulate e frequenze cumulate relative. Età 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Totali nB i 1 0 1 0 3 6 5 6 12 2 4 1 0 1 0 42 NiB 1 1 2 2 5 11 16 22 34 36 40 41 41 42 42 – FiB 0.02 0.02 0.05 0.05 0.12 0.26 0.38 0.52 0.81 0.86 0.95 0.98 0.98 1 1 – nR i 0 0 0 0 1 0 1 4 4 5 6 15 4 1 1 42 NiR 0 0 0 0 1 1 2 6 10 15 21 36 40 41 42 – FiR 0 0 0 0 0.02 0.02 0.05 0.10 0.24 0.36 0.50 0.86 0.95 0.98 1 – Tabella 2.23: Età del primo bacio a carattere sessuale e del primo rapporto sessuale di 42 giovani uomini. Frequenze assolute, frequenze cumulate e frequenze cumulate relative. (Apice B si riferiscono all’età del primo bacio, apice R all’età del primo rapporto). 2.8. ESERCIZI 47 0.8 1.0 Età al primo bacio e del primo rapporto sessuale 0.0 0.2 0.4 F 0.6 età primo bacio età primo rapporto 10 15 20 età Figura 2.12: Grafico delle frequenze cumulate relative per l’età al primo bacio e l’età del primo rapporto sessuale per 42 giovani uomini. La retta rappresenta F = 0.50. Nella figura 2.12 le due distribuzioni sono messe a confronto. Come si può osservare il grafico delle frequenze cumulate relative della distribuzione dell’età del primo rapporto sessuale sta sempre sotto il grafico delle frequenze cumulate relative dell’età del primo bacio. Questo significa che la prima distribuzione è sempre maggiore della seconda. Cioè l’età del primo rapporto sessuale è maggiore dell’eta del primo bacio. La linea orizzontale tracciata per F = 0.50 ci informa che l’età in cui almeno il 50% del campione ha dato il primo bacio è 14 anni, mentre l’età in cui almeno il 50% del campione ha avuto il primo rapporto sessuale è 17 anni. La lunghezza del segmento tra i due punti in cui la retta F = 0.50 interseca le due linee delle frequenze cumulate relative ci informa sul fatto che la metà della campione ha avuto il primo rapporto sessuale tre anni dopo che la metà del campione ha dato il primo bacio. 2.8 Esercizi Esercizio 2.8.1. Si considerino le variabili stato civile e numero di figli della tabella 2.1. 48 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI 1. Si costruisca la tabella delle frequenze assolute congiunte delle due variabili. 2. Che percentuale di capofamiglia non ha figli? 3. Che percentuale di capofamiglia è nubile o celibe e non ha figli? 4. Tra i capofamiglia che sono nubili o celibi, che percentuale non hanno figli? 5. Tra i capofamiglia che non hanno figli che percentuale è nubile o celibe? Esercizio 2.8.2. Dal sito corriere.it, dal quale è stata tratta la foto riportata sotto in Figura 2.13, sono stati tratti i dati riguardante un indagine sul lavoro durante la maternità. Consideriamo solo le risposte alla domanda: Le è capitato di lavorare mentre era in congedo di maternità? La domanda è stata rivolta a 4813 mamme lavoratrici dipendenti e 1087 mamme lavoratrici autonome. Le percentuali delle risposte alla domanda per le lavoratrici dipendenti sono state le seguenti: Si è capitato e l’ho apprezzato: 8% Si è capitato ma ne avrei fatto a meno: 11% Si è capitato ma ho potuto decidere quando: 18% No non è capitato: 63% Le percentuali delle risposte alla domanda per le lavoratrici autonome son state le seguenti: Si è capitato e l’ho apprezzato: 8% Si è capitato ma ne avrei fatto a meno: 26% Si è capitato ma ho potuto decidere quando: 32% No non è capitato: 34% 1. Ricostruire la tabella delle frequenze assolute della distribuzione congiunta delle due variabili rilevate sulle mamme: tipo di lavoro (dipendente o autonomo) e Stato lavorativo mentre era in congedo di maternità rilevata con le 4 modalità date dalle rispettive domante alla risposta. 2. Calcolare la distribuzione delle frequenze assolute, relative e percentuali della variabile Stato lavorativo durante la gravidanza rilevata con le 4 modalità date dalle rispettive domante alla risposta. 3. Tra le mamme che non hanno lavorato, qual è la percentuale di mamme che hanno un lavoro dipendente? E quella delle mamme che hanno un lavoro autonomo? 2.8. ESERCIZI Figura 2.13: Le è capitato di lavorare durante il periodo di maternità? Lavoratrici dipendenti 49 50 CAPITOLO 2. RAPPRESENTARE I DATI E LE LORO DISTRIBUZIONI Esercizio 2.8.3. Si faccia riferimento ai dati del Gayser Old Faithful. 1. Costruire la tabella a doppia entrata per le frequenze relative delle due variabili. Per la variabile tempo di pausa tra due eruzioni successive si mantenga la suddivisione in classi riportata nella Tabella 2.16. 2. Che percentuale di eruzioni hanno una durata maggiore o uguale a 60 minuti e hanno quella precedente breve? 3. Che percentuale di eruzioni hanno una durata maggiore o uguale a 60 minuti e hanno quella precedente lunga? 4. Tra le eruzioni che hanno la precedente di tipo breve, che percentuale hanno una durata inferiore ai 55 minuti? 5. Che percentuale di eruzioni lunghe dura meno di 65 minuti? 6. Che percentuale di eruzioni dura meno di 65 minuti? Capitolo 3 Valori medi Il titolo di questo capitolo è al plurale perché come vedremo ci sono diversi tipi di medie per un certo tipo di dati e diverse medie per diversi tipi di dati (numerici o nominali). In inglese il termine average può indicare questo tipo di media mentre viene lasciato al termine mean il significato di media (aritmetica) di un certo numero di valori numerici. In italiano non abbiamo una tale ricchezza di vocaboli per cui dovremo prestare attenzione al fatto se con il termine media ci riferiamo ad un concetto, cioè se indichiamo quel valore che sintetizza l’intera distribuzione, oppure alla media aritmetica che è solo una delle medie a cui si riferisce il titolo del capitolo. In genere dal contesto si capirà a cosa ci stiamo riferendo. Quello che si vuole fare in questo capitolo è condensare in un solo numero (quando i dati sono di tipo numerico) o in una sola caratteristica (quando sono nominali) un intero insieme di dati relativi ad una certa variabile. Questo unico numero (nel caso delle variabili numeriche) viene chiamato, a seconda dei casi, moda, mediana o media (aritmetica, ma in realtà esiste anche la media armonica e altri tipi di media che non studieremo) 3.1 La moda La moda può essere calcolata per qualunque tipo di variabile (o di dati). Definizione 3.1.1. La moda è la modalità per le variabili nominali (o il numero per le variabili numeriche) che si presenta con la frequenza maggiore. Per trovare la moda di una distribuzione bisogna allora calcolare tutte le frequenze (è indifferente se assolute o relative) e andare a vedere a quale modalità corrisponde la frequenza maggiore. Tale modalità è la moda della distribuzione o la moda della variabile. A volte può capitare che due modalità abbiano la frequenza maggiore, in questo caso si dice che la distribuzione è bi-modale. Anche quando rappresentando i dati graficamente si osservano due picchi distanti per le frequenze si può dire che la distribuzione è bi-modale. 51 52 CAPITOLO 3. VALORI MEDI Ad esempio nel caso dei dati sui tempi di pausa del geyser Old Faithful dell’Esempio 2.3.3. Nella Figura 2.8 si notano due frequenze distinte nettamente più alte delle altre. In questo caso sono presenti due nette distribuzioni come lo studio dividendo le osservazioni rispetto alla variabile tipo di eruzione precedente mette in luce. Esercizio 3.1.2. Calcolare la moda per i dati dell’Esempio 2.5.2 [Ris: Moda= ottimo] Esercizio 3.1.3. Calcoalre la moda per la variabile X stato civile e Z titolo di studio dei dati dell’Esempio 2.3.1 3.2 La media artitmetica Riportiamo la poesia del poeta romano Trilussa (pseudonimo di Carlo Alberto Salustri, nato nel 1871 e morto nel 1950) dal titolo che non ha bisogno di presentazioni in questo volume e che presenta il valore medio sottolineando come il questo debba essere considerato con attenzione e non con leggerezza. LA STATISTICA Sai ched’è la statistica? È ’na cosa che serve pe fà un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che sposa. Ma pè me la statistica curiosa è dove c’entra la percentuale, pè via che, lı̀ la media è sempre eguale puro co’ la persona bisognosa. Me spiego: da li conti che se fanno seconno le statistiche d’adesso risurta che te tocca un pollo all’anno: e, se nun entra nelle spese tue, t’entra ne la statistica lo stesso perch’è c’è un antro che ne magna due. Come vedremo introducendo la mediana, non sempre la media aritmetica di cui parla Trilussa va bene per descrivere fenomeni come questo. Ma teniamo presente il testo della poesia per capire il significato di media aritmetica. 3.2. LA MEDIA ARTITMETICA 53 La media aritmetica si può fare per le variabili numeriche. Se abbiamo la distribuzione del numero dei figli possiamo calcolare la media (aritmetica) del numero di figli, se abbiamo la distribuzione dei redditi possiamo calcolare la media (aritmetica) dei redditi. La definizione di media aritmetica, che tra le righe della poesia possiamo cogliere è la seguente: Definizione 3.2.1. La media aritmetica di n valori è quel valore che se sostituito a tutti i valori lascia inalterata la somma totale degli n valori. Per rivederla con Trilussa, se io mangio due polli e tu zero, i due valori sono 2 e 0, il totale dei polli in gioco, anzi meglio, mangiati è 2+0=2. La media aritmetica è 1, per la statistica io mangio un pollo e anche tu un pollo, in totale sempre due polli si mangiano. Se si sostituisce sia a 2 che a 0 la media, 1, la somma totale dei polli mangiati non cambia, 1+1=2. Per calcolare operativamente la media aritmetica si procede in due passi: 1. Si sommano tutti i valori osservati 2. Si divide la somma ottenuta per il numero di valori osservati Riprendiamo i dati dell’esempio 2.3.1 della variabile Z numero di figli. I 20 valori che la variabile assume sulle 20 unità del campione sono: 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4 Sommiamo tutti i valori della variabile 0 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 1 + 1 + 2 + 2 + 2 + 3 + 3 + 3 + 4 + 4 + 4 + 4 = 36 E quindi dividiamo per il numero di unità statistiche nel campione: 36 = 1.8 ∼ 2 20 Il numero medio di figli è poco meno di 2, o circa 2 figli per nucleo famigliare. (Occorre arrotondare al numero intero più vicino, tenendo presente che il numero medio è più piccolo di 2). In genere si usa la notazione x̄ = 1.8 ∼ 2, dove x̄, che si legge x-bar, o x barrato, denota universalmente la media aritmetica di n valori. Tale scrittura viene dal fatto che se si indicano con xi gli n valori di una generica variabile X la media aritmetica si pò scrivere con la formula n 1X x̄ = xi . n i=1 54 CAPITOLO 3. VALORI MEDI La somma dei venti valori della variabile numero di figli, poteva anche essere ottenuta nel seguente modo: 0 ∗ 5 + 1 ∗ 5 + 2 ∗ 3 + 3 ∗ 3 + 4 ∗ 4 = 36 cioè facendo il prodotto di ogni modalità per il numero di volte in cui questa si presenta, ovvero la sua frequenza assoluta. Quindi la media aritmetica si può anche scrivere, indicando con ni la frequenza assoluta in cui si presenta la modalità xi , nel seguente modo: k 1X ni ∗ xi . x̄ = n i=1 dove k sono il numero di modalità in cui si presenta la variabile di cui stiamo calcolando la media. Si noti che se fosse possibile avere 1.8 figli e se in tutti i 20 nuclei famigliari fossero presenti 1.8 figli, la somma totale dei figli sarebbe 36. Esempio 3.2.2. Calcolare la media aritmetica della variabile Reddito nell’Esempio 2.3.1. I 20 redditi vanno sommati: 72.50 + 54.28 + 50.02 + 88.88 + 62.30 + 45.21 + 57.50 + 78.40 + 75.13 + 58.00 + 53.70+ + 91.29 + 74.70 + 41.22 + 65.20 + 63.58 + 48.27 + 52.52 + 69.50 + 85.98 = 1288.18 e quindi la somma divisa per il numero di unità statistiche (20): 1288.18 = 64.4090 20 Il reddito medio è quindi x̄ = 64.4090. In questo caso possiamo affermare che se tutti i capifamiglia avessero un reddito di 64.4090 euro, la somma totale dei redditi sarebbe invariata e pari a 1288.18. Non si può calcolare la media aritmetica di un carattere nominale. Ad esempio se abbiamo la seguente distribuzione M F Tot. 22 12 44 non possiamo fare la media tra M e F. Possiamo solo dire che in questo campione è maggiore il numero di maschi, cioè la moda è il carattere o modalità maschio. Neppure se fossero codificati M=1 F=2 Tot. 22 12 44 3.2. LA MEDIA ARTITMETICA 55 non possiamo calcolare 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1+ 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1+ 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 = 46 e quindi dire che la media è 46/44 = 1.05. Esempio 3.2.3. Riprendiamo i dati relativi alla durata dei tempi di pausa nell’esempio 2.3.3. Consideriamo la variabile Durata del tempo di pausa nel caso l’eruzione precedente sia di tipo corto. Sono 17 osservazioni del campione che per comodità riportiamo nella seguente tabella. xi ni 42 1 45 1 49 1 50 1 51 4 53 2 55 2 56 2 58 1 66 1 67 1 Calcoliamo la media aritmetica del tempo di pausa per questo sottocampione. 1. Prima si sommano tutti i valori tenendo presente che alcuni di essi si presentano più di una volta: 42 + 45 + 49 + 50 + 51 + 51 + 51 + 51 + 53 + 53 + 55 + 55 + 56 + 56 + 58 + 66 + 67= 909 2. Si divide il risultato per il numero di valori, in questo caso n = 17: 909 = 53.47 17 Si dice che la media aritmetica dei tempi di pausa tre due eruzioni successive quando la precedente è di tipo Corto è di 53.47 minuti. La media aritmetica si denota quasi universalmente con la x barrata. Ovvero si scrive x̄ = 53.47. Dal punto di vista inferenziale si può interpretare che se mi metto seduto accanto al geyser che ha appena avuto un eruzione di tipo corto, mi aspetto di dover aspettare (scusate il gioco di parole!) circa 53 minuti prima di vedere il geyser emettere il suo spruzzo di vapore. Tornando alla definizione, se si sostituisce ai 17 valori osservati il valore medio calcolato x̄ = 53.47 abbiamo che la somma totale dei tempi di attesa non cambia, infatti sommare per 17 volte il valore 53.47 equivale a calcolare il prodotto 53.47 · 17 = 908.99 che è uguale a 909 a meno degli arrotondamenti. In modo analogo si può calcolare la media aritmetica per il tempo di attesa tra due eruzioni quando il tipo di pausa prcedente è di tipo lungo. Si ottiene x̄ = 78.19. Mentre il tempo medio di attesa calcolato per tutte le 60 eruzioni risulta: x̄ = 71.183 56 CAPITOLO 3. VALORI MEDI Sfruttando la definizione di media aritmetica la media totale di tutti i tempi di attesa si può anche ottenere come 17 ∗ 53.47 + 43 ∗ 78.19 4271.16 = = 71.186 60 60 che a meno degli arrotondamenti è la media calcolata. Esercizio 3.2.4. Calcolare la media aritmetica della variabile Numero di figli nell’Esempio 2.3.1. Risultato: x̄ = 1.8. Cosa significa che la media aritmetica è 1.8 figli? 3.2.1 Media aritmetica per i dati in classi I dati che provengono da variabili continue di solito vengono forniti direttamente in classi. Occorre verificare che essendo il dato la realizzazione di una variabile continua le classi abbiano sempre la forma (a, b] oppure [a, b), dove con la parentesi tonda si intende che il valore corrispondente non appartiene a quella classe, mentre con la parentesi quadra si intende che il valore appartiene alla classe. Se le modalità nelle classi non dovessero essere in questa forma dobbiamo sempre riscriverle in questo modo per facilitare i conti che dovremo fare per calcolare i valori medi. Riprendiamo l’esempio della variabile W reddito per i dati dell’Esempio 2.3.1. Supponiamo che i dati siano forniti in classi invece che i singoli valori originali. Quando i dati sono raccolti in classi e non possiamo risalire ai dati originari da cui sono state costruite le classi per calcolare la media aritmetica dobbiamo fare delle ipotesi. Nel senso che dobbiamo ipotizzare un valore della classe che rappresenta tutti valori che rientrano in quella classe. La scelta più naturale è scegliere il valore centrale della classe. Per determinare i punti centrali abbiamo una formula: se l’intervallo è [a, b) oppure (a, b], il punto centrale si ottiene sommano gli estremi e dividendo per due Punto centrale = a+b 2 Nella Tavola 3.1 sono riportati i valori centrali, che si ottengono facendo la semisomma dei valori degli estremi della classe. Si noti che abbiamo cambiato, rispetto alla Tavola 2.15, l’estremo superiore dell’ultima classe per ottenere anche in questo caso un valore intero. Per calcolare la media aritmetica occorre quindi moltiplicare ogni valore centrale per la frequenza della classe, sommare tutti i valori ottenuti e dividere per il numero totale di osservazioni: k 1X x̄ = ci ∗ ni n i=1 dove nella formula, ci è il valore centrale della classe i-esima, k sono il numero di classi e ni è la frequenza assoluta di ogni classe. Per i dati della variabile W della Tavola 3.1 3.2. LA MEDIA ARTITMETICA 57 classi 40 a 50 50 a 58 58 a 70 70 a 96 ni 3 6 4 7 20 ci 45 54 64 83 ci · ni 135 324 256 581 1296 Tabella 3.1: Frequenze assolute, relative della variabile reddito in euro nell’Esempio 2.3.1. Gli estremi destri degli intervalli sono inclusi. Sono riportati i calcoli per ottenere la media del reddito. ci valore centrale. età meno di 12 13-24 25-34 35-44 45-54 55-64 65-74 75 e più Totale Uomini 84 282 391 281 187 168 79 45 1517 Donne 75 297 355 168 127 137 82 132 1373 totale 159 579 746 449 314 305 161 177 2890 Tabella 3.2: Persone pendolari verso un luogo diverso dalla propria abitazione per sesso e classe di età - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali. otteniamo quindi x̄ = 1296 = 64.8 20 Si noti come il valore ottenuto, che è una approssimazione della media aritmetica del campione, è comunque molto simile al valore ottenuto quando i dati non sono raccolti in classi. Vediamo un altro esempio. Dall’indagine dell’ISTAT sulle famiglie e i soggetti sociali sono presi i dati della Tabella 3.2. Si tratta di tre distribuzioni dell’età dei pendolari considerati in base al sesso. Vogliamo calcolare l’età media dei pendolari e capire se c’è differenza tra l’età degli uomini e delle donne. Poiché l’età è un carattere continuo tutti i valori devono essere considerati. Nella Tabella 3.3, abbiamo quindi modificato gli estremi dell’intervallo, perché chi ad esempio ha 24 anni e mezzo appartiene alla terza classe non alla seconda. In questa tabella l’intervallo (a, b] è rappresentato con i simboli a a b. Si noti che per l’ultima classe non era dato l’estremo superiore quindi abbiamo fatto l’ipotesi che fosse 84, per analogia alle classi 58 CAPITOLO 3. VALORI MEDI età 0 a 12 12 a 24 24 a 34 34 a 44 44 a 54 54 a 64 64 a 74 74 a 84 Totale valore centrale 6 18 29 39 49 59 69 79 – Uomini 84 282 391 281 187 168 79 45 1517 Donne 75 297 355 168 127 137 82 132 1373 totale 159 579 746 449 314 305 161 177 2890 Tabella 3.3: Persone pendolari verso un luogo diverso dalla propria abitazione per sesso e classe di età - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali. precedenti. Capita spesso che per la prima e l’ultima classe non siano dati gli estremi inferiore e superiore rispettivamente. Per la moda possiamo dire che la classe modale è sia per gli uomini che per le donne (24, 34]. La moda però non è molto informativa in questo caso. Di solito non si usa per i dati raccolti in classi. Per la media aritmetica dovremmo conoscere l’età di ogni unità che casca in una classe. Poiché non la conosciamo facciamo l’ipotesi che le unità siano distribuite uniformemente all’interno della classe, che equivale a ipotizzare che tutti abbiano l’età che casca nel punto centrale dell’intervallo che determina la classe. Ad esempio il punto centrale della classe (24, 34] è 29. Quindi per calcolare la media dobbiamo calcolare tutti i punti medi e quindi calcolare la media della nuova distribuzione. Per calcolare la media dell’età degli uomini, i conti sono riportati nella Tavola 3.4 in cui l’età 6 si presenta 84 volte, l’età 18 si presenta 282 volte e cos via. La media dell’età dei pendolari uomini è si calcola prima facendo il prodotto di ogni età per la frequenza con cui si presenta: 6 ∗ 84 + 18 ∗ 282 + 29 ∗ 391 + 39 ∗ 281 + 49 ∗ 187 + 59 ∗ 168 + 69 ∗ 79 + 79 ∗ 45 = 55959 e quindi si digita per il numero di osservazioni: 55959 = 36.89. 1517 Si calcoli la media dell’età per le donne e la media dell’età per tutto il campione costruendo le analoghe tabelle delle frequenze per il calcolo della media partendo dai valori centrali delle classi. I risultati sono: media etè donne 38.62, media età per tutto il campione 37.71. Possiamo concludere che le donne che fanno le pendolari hanno quasi due anni di più degli uomini. 3.3. LA MEDIANA 59 età 0 a 12 12 a 24 24 a 34 34 a 44 44 a 54 54 a 64 64 a 74 74 a 84 Totale ci 6 18 29 39 49 59 69 79 – ni 84 282 391 281 187 168 79 45 1517 ci ∗ ni 504 5076 11339 10959 9163 9912 5451 3555 55959 Tabella 3.4: Calcolo dell’età media degli uomini pendolari verso un luogo diverso dalla propria abitazione - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali. 3.3 La mediana La mediana è un modo alternativo di calcolare il valor medio di una distribuzione inteso come quel valore che sintetizza al meglio la distribuzione dei dati (l’average inglese) e quindi descrive meglio il fenomeno oggetto di studio. Forziamo la mano a Trilussa. Supponiamo di avere 10 persone, una di essa che mangia 10 polli e le altre nove che non ne mangiano neppure uno. Abbiamo 10 valori, x1 = 10 e gli altri valori xi = 0 per i = 2, 3, . . . , 10. La media aritmetica del numero di polli mangiati a testa è ancora 1, cioè per dirla con Trilussa il pollo di media t’entra ne la statistica lo stesso perch’è c’è un antro che ne magna dieci!. Si capisce che in questo caso la media non descrive bene la distribuzione del numero di polli che si mangiano questi 10 cristiani! La mediana è un modo alternativo di riassumere la distribuzione che tiene conto di questa disparità. Definizione 3.3.1. La mediana è l’osservazione, cioè quel valore tra quelli osservati, che ha alla sua sinistra (cioè più bassi o uguali a se) almeno la metà più una delle osservazioni e alle sua destra, (cioè più alti) al più l’altra metà delle osservazioni. La mediana è quindi quel valore che divide divide in due parti uguali le osservazioni. Vediamo le operazioni per calcolarla. 1. Si ordinano le n osservazioni dalla più piccola alla più grande. 2. Si calcola il valore n+1 2 . (a) Se n è dispari l’osservazione che sta nella posizione n+1 2 -esima è la mediana. (b) Se n è pari si prendono le due osservazioni centrali, quella che occupa la posizione n2 -esima e quella che occupa la posizione n2 + 1-esima e la mediana è data dalla media aritmetica di queste due osservazioni. 60 CAPITOLO 3. VALORI MEDI La mediana può essere calcolata per tutte le variabili le cui modalità possono essere ordinate, quindi per le variabili numeriche, sia discrete che continue, ma anche per le variabili qualitative ordinali. Vediamo un esempio. Esempio 3.3.2. Si considerino i dati relativi al titolo di studio osservato su n = 11 persone. Il titolo di studio è classificato secondo le modalità: Licenza Media=M, Diploma di scuola Superiore=S, Laurea=L, Master o Dottorato=D. Le osservazioni sono D L L M S M L S S M S Cominciamo con ordinare le osservazioni: Osservazioni : M P osizione : 1a M 2a M 2a S S S S L L L D a a a a a a a 4 5 6 7 8 9 10 11a Calcoliamo la posizione mediana: 11 + 1 n+1 = =6 2 2 La mediana è il valore dell’osservazione che occupa la 6a posizione cioè: P osM e = Me = S La mediana è Diploma di scuola Superiore. Si noti che 7 osservazioni (quindi almeno la metà) hanno un titolo di studio inferiore o uguale a quello mediano, mentre 4 osservazioni (al più la metà) hanno un titolo di studio superiore a quello mediano. Si considerino ora i dati relativi al titolo di studio osservato su n = 10 persone. Le osservazioni sono D L L M S M L S S S Rispetto al campione di prima abbiamo un’osservazione in meno. Ordiniamo le osservazioni: Osservazioni : M M S S S S L L L D P osizione : 1a 2a 2a 4a 5a 6a 7a 8a 9a 10a Calcoliamo la posizione mediana: n+1 10 + 1 = = 5.5 2 2 Devo considerare i valori che occupano la 5a e la 6a posizione. In entrambi i casi il valore è S per cui la mediana è: M e = S. P osM e = Nel caso in cui le osservazioni fossero state (le riportiamo già ordinate) Osservazioni : M P osizione : 1a M 2a M 2a S S L L L L D 4a 5a 6a 7a 8a 9a 10a Poichè le due posizioni centrali sono occupate da ue modalità diverse la mediana non è definita perché non si può fare la media aritmetica di due valori nominali S e L. 3.3. LA MEDIANA 61 La mediana può essere calcolata con la tabella delle frequenze relative cumulate. Infatti poiché la mediana è quel valore che lascia alla propria sinistra almeno la metà delle osservazioni più una, essa può essere determinata come la modalità la cui frequenza relativa cumulata supera per la prima volta il valore 0.50. Ad esempio per la prima distribuzione la tabella delle frequenze relative cumulate è T itolo ni M 3 S 4 L 3 D 1 T otali 11 fi Fi 0.27 0.27 0.37 0.64 0.27 0.91 0.09 1 1 − La prima frequenza relativa cumulate che supera 0.50 è 0.64 e la modalità corrispondente è S. Per la seconda distribuzione la tabella per il calcolo delle frequenze cumulate relative è: T itolo ni fi Fi M 2 0.20 0.20 S 4 0.40 0.60 L 3 0.30 0.90 D 1 0.10 1 T otali 10 1 − La prima frequenza relativa cumulate che supera 0.50 è 0.60 e la modalità corrispondente è S. Consideriamo le n = 17 osservazioni nell’esempio 2.3.3 relative alla variabile Durata del tempo di pausa nel caso l’eruzione precedente sia di tipo corto. Le 17 osservazioni ordinate dalla più piccola alla più grande sono: 42, 45, 49, 50, 51, 51, 51, 51, 53, 53, 55, 55, 56, 56, 58, 66, 67 Poiché n è dispari, calcoliamo il valore n+1 = 9. La nona osservazione è il valore 53, 2 dunque la mediana è 53. Scriveremo M e = 53. Consideriamo adesso le n = 60 osservazioni nell’esempio 2.3.3 relative alla variabile Durata del tempo di pausa indipendentemente dal valore della variabile Tipo di pausa precedente. Questi sono i valori ordinati della durata della pausa dopo un eruzione del Gaiser Old Faithful. 42 68 80 45 69 80 49 70 80 50 71 81 51 72 82 51 73 82 51 73 82 51 74 83 53 75 83 53 75 84 55 75 84 55 75 84 56 76 85 56 76 86 57 76 86 58 76 86 60 76 88 66 79 90 67 79 91 67 80 93 Per calcolare la mediana, poiché n è pari, 60+1 2 = 30.5, prendiamo i valori nella posizione n n 2 = 30 e 2 + 1 = 31, sono 75 e 75, per cui la mediana è M e = 75. 62 CAPITOLO 3. VALORI MEDI Tornando all’esempio dei polli, se una persona mangia 10 polli e nove persone zero polli, la distribuzione ordinata delle osservazioni è 0, 0, 0, 0, 0, 0, 0, 0, 0, 10 il valore (10+1)/2 = 5.5, i due valori che occupano la quinta e la sesta posizione sono 0 e 0, per cui la mediana è zero. Quindi la mediana di questa distribuzione descrive molto meglio il fenomeno: il numero medio (inteso come sintesi della distribuzione) di polli mangiati da ciascuno è zero, non 1, con buona pace di Trilussa. 3.3.1 Mediana per i dati in classi Per il calcolo della mediana quando i dati sono raccolti in classe il metodo migliore è il metodo grafico. Vediamo i passi per ottenerla 1. Costruiamo il grafico delle frequenze cumulate relative. 2. Individuiamo sull’asse delle ordinate il valore F = 0.50. 3. Tracciamo la retta orizzontale in corrispondenza di F = 0.50 fino ad incontrare la spezzata delle frequenze cumulate relative. 4. Tracciamo la retta verticale dal punto dove la retta F = 0.50 incontra la spezzata delle frequenze cumulate relative fino all’incontro dell’asse. 5. La mediana è il punto dove questa retta incontra l’asse delle ascisse. Questo metodo grafico è in realtà dedotto da un metodo analitico, si individua la classe mediana, come quella classe in cui la frequenza cumulata relativa è uguale o supera il valore F = 0.50. Se la cumulata relativa è esattamente 0.50 la mediana è l’estremo superiore della classe. Sia che sia incluso sia che non lo sia nell’intervallo. Se il valore della frequenza cumulata supera 0.50, si cerca il valore sull’asse delle ascisse al quale corrisponde sulla spezzata delle frequenze cumulate il valore sull’asse delle ordinate di 0.50. La formula è la seguente. Indichiamo con F − e F + i valori delle frequenze cumulate della classe prima della classe mediana e della classe mediana rispettivamente. Indichiamo con xa e xb l’estremo inferiore e l’estremo superiore della classe mediana, indipendentemente se siano inclusi o esclusi dall’intervallo. La mediana è data da M e = xa + xb − xa (0.50 − F − ) F+ − F− (3.1) Si noti che se la classe mediana ha come frequenza cumulata esattamente 0.50, allora nella formula sopra F + = 0.50 e la mediana è proprio xb , l’estremo superiore della classe mediana. Vediamo un esempio con i dati dell’esempio dell’indagine dell’ISTAT sulle famiglie e i soggetti sociali. Nella Tabella 3.5 sono calcolate le frequenze cumulate relative. 3.3. LA MEDIANA 63 età 0 a 12 12 a 24 24 a 34 34 a 44 44 a 54 54 a 64 64 a 74 74 a 84 Totale Uomini 84 282 391 281 187 168 79 45 1517 Ni 84 366 757 1038 1225 1393 1472 1517 – Fi 0.06 0.24 0.50 0.68 0.81 0.92 0.97 1 – Tabella 3.5: Uomini pendolari verso un luogo diverso dalla propria abitazione per sesso e classe di età - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali. 40 50 58 70 xi a 50 a 58 a 70 a 95 ni 3 6 4 7 20 fi 0.15 0.30 0.20 0.35 1.00 Ni 3 9 13 20 20 ai 10 8 12 25 Fi 0.15 0.45 0.65 1 Tabella 3.6: Redditi di 20 capofamiglia. Dalla colonna delle frequenze cumulate relative deduciamo che la classe (24, 34] è la classe mediana. Notiamo poi che la frequenza relativa cumulata è proprio 0.50. La mediana in questo caso è l’estremo superiore della classe mediana, 34 anni. Consideriamo ora la Tabella 3.6, che riporta i dati del reddito dell’Esempio 2.3.1. La classe mediana è (58, 70]. Quindi xa = 58 xb = 70. La frequenza cumulata della classe mediana è F + = 0.65, la frequenza cumulata della classe prima della mediana è 0.45. Applicando la formula per la mediana otteniamo M e = 58 + 70 − 58 (0.50 − 0.45) = 61 0.65 − 0.45 La mediana del reddito è 61000 euro. (Ricordiamo che i dati del reddito erano in migliaia di euro). Vediamo un ultimo esempio. L’età mediana delle donne pendolari. La Tabella 3.7 contiene i dati per il calcolo della mediana. Dalla formula 3.1 abbiamo M e = 24 + 34 − 24 (0.50 − 0.27) = 32.85 0.53 + −0.27 L’etè mediana delle donne pendolari è 33 anni. Esercizio 3.3.3. Fare il grafico delle frequenze cumulate relative dei dati nelle Tabelle 3.5, 3.6 e 3.7. Dedurre con il metodo grafico il valore della mediana per le tre distribuzioni. 64 CAPITOLO 3. VALORI MEDI età 0 a 12 12 a 24 24 a 34 34 a 44 44 a 54 54 a 64 64 a 74 75 a 84 Totale Donne 75 297 355 168 127 137 82 45 1373 Ni 75 372 727 895 1022 1159 1254 1373 – Fi 0.05 0.27 0.53 0.65 0.74 0.84 0.90 1 – Tabella 3.7: Donne pendolari verso un luogo diverso dalla propria abitazione per sesso e classe di età - Anno 2009 (dati in migliaia). Indagine ISTAT su famiglia e soggetti sociali. Esercizio 3.3.4. Calcolare la mediana dell’età del primo bacio e dell’età del primo rapporto sessuale per i dati nella Tabella 2.23. Dedurre con il metodo grafico il valore della mediana per le due distribuzioni facendo riferimento alla Figura 2.12. 3.4 Simmetria e asimmetria L’istogramma dei dati ci permette di capire se la distribuzione dei dati è di tipo asimmetrico o simmetrico. Possiamo tracciare seguendo la forma dell’istogramma una curva continua che mostra la distribuzione dei dati. La Figura 3.1 si riferisce ai tempi di sopravvivenza di 128 pazienti operati per un tumore ai polmoni (dati personali). Quando la distribuzione, come quella in figura, mostra la maggior parte dei dati nella parte sinistra o mostra valori bassi, con pochi valori alti, si dice che la distribuzione presenta un’asimmetria positiva. In questo caso la media assume un valore più alto della mediana. Quando succede il contrario (tanti valori alti e pochi bassi), e quindi la media aritmetica è minore della mediana si dice che la distribuzione presenta un’asimmetria negativa. Quando invece la distribuzione è simmetrica la media e la mediana hanno lo stesso valore. La più importante distribuzione simmetrica della statistica è la distribuzione Normale. Se i dati sono distribuiti in modo simmetrico attorno ad una valore centrale e la loro distribuzione ha la cosiddetta forma a campana, come nella Figura 3.2 dove abbiamo l’istogramma relativo a 1000 osservazioni di una distribuzione simmetrica, si dice che i dati seguono una distribuzione Normale, che qui è tracciata con una linea continua. Torneremo ancora molte volte a questa distribuzione perché è la distribuzione più importante di tutta la statistica. I dati provenienti da indagini sul peso e sull’altezza di una popolazione seguono spesso una distribuzione Normale. Questo poiché la maggior parte dei pesi o delle altezze, si distribuiscono attorno ad un valore centrale, in modo simmetrico a sinistra o a destra e di solito con pochi valori 65 Density 0.00 0.05 0.10 0.15 0.20 3.5. QUALE MEDIA SCEGLIERE? 0 5 10 15 t Figura 3.1: Tempi di sopravvivenza di 128 pazienti operati per un tumore ai polmoni. La media aritmetica dei tempi è 10 anni. La mediana è 2.3 anni (2 anni e poco più di 3 mesi). particolarmente alti o bassi. 3.5 Quale media scegliere? Il compito della media (average) o valore centrale è quello di sintetizzare un’intera distribuzione di dati, quindi l’informazione che ci fornisce deve essere il più possibile vicino alla distribuzione che li sintetizza. Diamo qui qualche suggerimento non esaustivo per la scelta della media per una distribuzione di dati. 1. La moda va usata solo per i dati qualitativi. Quasi mai per i dati quantitativi a meno che la distribuzione sia bimodale. In questo caso fornire il valore delle due mode è più indicativo che fornire la media o la mediana che farebbero scomparire l’informazione sulle due sottopopolazioni probabilmente presenti. 2. Quando si è in presenza di distribuzioni asimmetriche è meglio utilizzare la Mediana, perché la media aritmetica risente dei pochi valori particolarmente alti o bassi come nel caso dell’Esempio rappresentato in Figura 3.1. 3. Se i dati hanno una distribuzione simmetrica è preferibile utilizzare la media aritmetica. 66 CAPITOLO 3. VALORI MEDI 0.2 0.0 0.1 Density 0.3 0.4 Distribuzione simmetrica, normale −3 −2 −1 0 1 2 3 x Figura 3.2: Istogramma di 1000 osservazioni normale e distribuzione Normale (linea continua). La distribuzione è simmetrica. 4. Se i dati sono soggetti ad errori (ad esempio dovuti alla registrazione) è meglio anche in questo caso utilizzare la Mediana, in quanto la media è molto influenzata da osservazioni particolarmente diverse o inusuali. La mediana invece non risente di questi valori. 3.6 Quartili, percentili e quantili I quartili e i percentlli o più in generale i quantili sono indici di posizione. Individuano l’osservazione che lascia alla sua sinistra almeno il 25% delle osservazioni (primo quartile), almeno il 75% delle osservazioni (terzo quartile), almeno una percentuale p di osservazioni (p-esimo percentile). Definizione 3.6.1 (Primo quartile). Quel valore che lascia alla sua sinistra il (o almeno il) 25% delle osservazioni. Definizione 3.6.2 (Terzo quartile). Quel valore che lascia alla sua sinistra il (o almeno il) 75% delle osservazioni. Definizione 3.6.3 (p-esimo percentile). Per p = 1, 2, . . . , 100 è quel valore che lascia alla sua sinistra il (o almeno il) p% delle osservazioni. 3.6. QUARTILI, PERCENTILI E QUANTILI 67 Dalle definizioni appena date risulta evidente che il 25-esimo, il 50-esimo e il 75-esimo percentile sono rispettivamente il primo quartile, la mediana e il terzo quartile. Inoltre il secondo quartile è la mediana. La procedura per calcolare un’approssimazione dei quartili o dei percentili si può riassumere nei seguenti passi. • Si ordinano i valori osservati dal più piccolo al più grande. • Si calcolano i valori 0.25(n + 1) (primo quartile), 0.75(n + 1), (terzo quartile) ovvero p (n + 1) (p-percentile). il valore 100 • Se è intero l’osservazione che occupa la posizione data dal valore calcolato è il primo quartile o il terzo quartile o p-esimo percentile. • Se non è intero si calcola la media (pesata) tra i due valori le cui posizioni precedono e seguono il valore calcolato. Si osservi che per semplicità si può prendere il valore medio tra i valori nelle posizioni indicate. Il valore del quantile corrispondente dovrebbe essere il valore proporzionale alla parte decimale tra le due osservazioni nelle posizioni date dai due interi che precedono e seguono il valore non intero calcolato. Se n è elevato conviene procedere calcolando le frequenze relative cumulate, facendo il grafico di questa ultimo e procedendo trovando il valore per cui la frequenza relativa cumulata vale quando il percentile che si deve calcolare. Il valore dell’osservazione per la quale la frequenza relativa cumulata supera 0.25, 0.75, ovvero p/100 dove p = 1, . . . , 99 è detto primo quartile, terzo quartile o p-esimo percentile. Esempio 3.6.4. Calcoliamo i quartili e i percentili per i dati dei tempi di pausa prima di un’eruzione del geyser Old Faithful. I valori ordinati della durata della pausa dopo un eruzione sono 42 58 75 82 45 60 75 82 • Mediana: M e = 75. 49 66 76 83 60+1 2 50 67 76 83 51 67 76 84 51 68 76 84 51 69 76 84 51 70 79 85 53 71 79 86 53 72 80 86 55 73 80 86 55 73 80 88 56 74 80 90 56 75 81 91 57 75 82 93 = 30.5. Posizioni 30 e 31, sono i valori 75 e 75, per cui la mediana è • Primo Quartile: 0.25(61) = 15.25. Posizioni 15 e 16: sono i valori 57 e 58. Il primo quartile è Q1 = 57.5 • Terzo Quartile: 0.75(61) = 45.75. Posizioni 45 e 46: sono i valori 82 e 82. Il terzo quartile è Q3 = 82 • Quinto percentile: 0.05(61) = 3.05. Posizioni 3 e 4: sono i valori 49 e 50. Il quinto percentile è P5 = 49.5 68 CAPITOLO 3. VALORI MEDI • 95-esimo percentile: 0.95(61) = 57.95. Posizioni 57 e 58: sono i valori 88 e 90. Il novantacinquesimo percentile è P95 = 89 3.7 Il box-plot Il box blot è un grafico che permette di dare una rappresentazione della distribuzione di una variabile molto immediata tramite il calcolo dei quartili e della mediana. Il nome deriva dal fatto che la distribuzione di una variabile statistica viene rappresentata come una scatola. Per disegnare il box plot la procedura può essere riassunta dai seguenti passi. 1. gli estremi della scatola sono Q1 e Q3 2. la scatola è tagliata dalla mediana 3. Si calcola il valore Q3 + 1.5 · (Q3 − Q1 ). Il basso superiore coincide con la più grande osservazione minore o uguale a questo valore. 4. Si calcola il valore Q1 − 1.5 · (Q3 − Q1 ). Il baffo inferiore coincide con la più piccola osservazione maggiore o uguale a questo valore. 5. Tutti i valori fuori dai baffi si segnano come punti isolati. Esempio 3.7.1. Consideriamo sempre i dati del geyser Old Faithful nei due gruppi rispetto al tipo di eruzione precedente. Le 43 osservazioni con eruzione precedente di tipo Lunga ordinate sono le seguenti. 57 74 79 83 90 60 75 79 83 91 67 75 80 84 93 68 75 80 84 69 75 80 84 70 76 80 85 71 76 81 86 72 76 82 86 73 76 82 86 73 76 82 88 Le 17 osservazioni con eruzione precedente di tipo Corta ordinate sono le seguenti. 42 55 45 55 49 56 50 56 51 58 51 66 51 67 51 53 53 Per disegnare il box plot del primo gruppo calcoliamo prima le posizioni della mediana e del primo e terzo quartile. Esse sono rispettivamente le posizioni n+1 44 = = 22, 2 2 n+1 44 = = 11, 4 4 3 n+1 44 = 3 = 33, 4 4 Quindi la mediana occupa la 22-esima posizione, è il valore 79. Il primo quartile occupa la 11-esima posizione, si tratta del valore 74. Il terzo quartile occupa la posizione 33, si tratta del valore 84. Per calcolare i baffi valutiamo dapprima la distanza interquartile. Q3 − Q1 = 10 3.8. SOLUZIONE DEGLI ESERCIZI ASSEGNATI 69 Quindi Q3 + 1.5 · (Q3 − Q1 ) = 99, Q1 − 1.5 · (Q3 − Q1 ) = 59. La più grande delle osservazioni minori o uguali a 99 è 93. Quindi il baffo superiore viene posto in corrispondenza a 93 poiché non ci sono altre osservazioni maggiori. Per il baffo inferiore una osservazione è più piccola di 60. Quindi il baffo inferiore viene posto in corrispondenza del valore 60. Essendoci ancora un valore più piccolo di 60, il 57, questo viene rappresentato singolarmente. Analogamente per il secondo gruppo otteniamo 18 n+1 18 n+1 18 n+1 = = 9, = = 4.5, 3 = 3 = 13.5, 2 2 4 4 4 4 Quindi la mediana è 53. Il primo quartile è la media tra i valori che occupano la quarta e la quinta posizione, Q1 = 50.5. Il terzo quartile è la media tra valori che occupano la tredicesima e la quattordicesima posizione indi ragion per cui Q3 = 56. Abbiamo che Q1 − 1.5(Q3 − Q1 ) = 42.25 mentre Q3 + 1.5(Q3 − Q1 ) = 64.25. Poiché c’è un’osservazione più piccola di 42.25, il 42, in questo gruppo il baffo viene posto in corrispondenza della più grande osservazione minore o uguale a 42.25 cioè 45. L’osservazione minore viene disegnata singolarmente. Per quanto riguarda il baffo superiore abbiamo due osservazioni maggiori di 64.25, precisamente 66 e 67 che vengono disegnate singolarmente, mentre il baffo viene tracciato all’altezza della più grande osservazione minore di 64.25 ovvero di 58. Nella Figura 3.3 è riportato il box plot dei tempi di attesa per un’eruzione quando quella precedente era di tipo lungo e quando era di tipo corto. 3.8 Soluzione degli esercizi assegnati Esercizio 3.3.3. La classe mediana per la distribuzione dell’età degli uomini è la classe (24, 34]. Poichè 0.50 viene raggiunto esattamente alla fine di questa classe la Mediana dell’età è 34 anni. Del resto anche dalla formula 3.1 si deduce M e = 34. La classe mediana per la distribuzione dei redditi è 58 a 70. Ci sono 4 unità dalla decima alla tredicesima. Quella che corrisponde alla mediana è la 10.5 che sta tra la decima e la undicesima. La mediana è 61. La formula per ottenerla è M e = 58 + 70 − 58 (0.50 − 0.45) = 61. 0.65 − 0.45 Per la distribuzione dell’età delle pendolari donne, la classe mediana à 24 a 34. La mediana è 33 anni, infatti 34 − 24 M e = 24 + (0.50 − 0.27) = 32.85. 0.53 + −0.27 La Figura 3.4 riporta il grafico delle frequenze cumulate relative per l’età delle pendolari donne e dei pendolari uomini. Abbiamo tracciato le rette F = 0.50 e dove queste intersecano la curva delle frequenze relative abbiamo tracciato la corrispondente retta verticale. CAPITOLO 3. VALORI MEDI 70 80 90 70 60 ● ● 50 ● 40 ● Long Short Figura 3.3: Boxplot dei tempi di attesa per un’eruzione quando quella precedente era di tipo lungo (a sinistra) e quando era di tipo corto (a destra) 0.8 0.6 0.6 0.8 1.0 Frequenze cumulate uomini 1.0 Frequenze cumulate donne F=50 0.2 0.4 F 0.2 0.4 F F=50 età=34 0.0 0.0 età=32.85 0 20 40 età 60 80 0 20 40 60 80 età Figura 3.4: Frequenze cumulate relative per l’età delle pendolari donne e dei pendolari uomini 3.8. SOLUZIONE DEGLI ESERCIZI ASSEGNATI 71 Esercizio 3.3.4 L’età del primo bacio è 14 anni. Lo scarto quadratico medio è 2.41 che possiamo arrotondare a due anni e mezzo. L’età media del primo rapporto risulta 16.88 che possiamo arrotondare a 17 anni, con una standard deviation di 2 anni. 72 CAPITOLO 3. VALORI MEDI Capitolo 4 La variabilità Come abbiamo sottolineato all’inizio di questa dispensa si può affermare senza troppi dubbi che lo scopo principale della statistica è la comprensione delle cause della variabilità. In questo capitolo presentiamo alcuni indici di variabilità che, insieme agli indici dati nel capitolo precedente, che sintetizzano con un numero tutti i valori osservati sul campione della variabile, questi ci danno invece informazioni su quanto e come i valori osservati si distribuiscano attorno al valore centrale. Presenteremo tre di questi indici: il range, lo scarto interquartile e lo scarto quadratico medio o standard deviation. Accanto a quest’ultimo daremo anche la definizione di varianza che tanta importanza avrà nella parte di statistica inferenziale. Prima di introdurre tali indici facciamo qualche considerazione di carattere generale sulla variabilità. Prima di tutto cerchiamo di capire perché non basta dare solo l’informazione sintetizzata da un valore medio. Osserviamo le due distribuzioni nel grafico seguente. 50 100 150 0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.035 Istogramma di y Density 0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.035 Density Istogramma di x 50 x 100 150 y Si tratta di due distribuzioni che hanno la stessa media e la stessa mediana, ma non possiamo certo dire che fornendo solo l’informazione sul valor medio possiamo descrivere 73 74 CAPITOLO 4. LA VARIABILITÀ due situazioni cosı̀ diverse. D’altro canto anche senza conoscere il valor medio di due distribuzioni, l’informazione che ricaviamo dalla variabilità osservando le due distribuzioni nel grafico seguente è fondamentale. Il fenomeno nel grafico di sinistra è poco variabile e molto concentrato attorno al suo valore centrale. Il fenomeno di destra è molto meno concentrato e molto più variabile attorno al suo valore medio. 0.3 0.0 0.1 0.2 densità 0.2 0.0 0.1 densità 0.3 0.4 Grande variabilità 0.4 Piccola variabilità x x Il fenomeno rappresentato è l’età al matrimonio di un campione di donne negli anni ’40 e di un altro campione di donne negli anni 2000. Non sapendo quale che sia l’età media in cui queste donne si sposavano, (il valore della media delle età x non è indicato) l’informazione sulla variabilità è fondamentale per dire che negli anni 2000 l’età del primo matrimonio è molto più variabile. Consideriamo un altro esempio. La media delle temperature annuali ad Honolulu e a Phoenix è per entrambe le città 24o C. Le temperature medie nei dodici mesi nelle due città sono riportate nella seguente tabella: Honolulu Phoenix 21 2 22 8 23 18 24 27 25 28 25 35 27 36 26 38 25 35 24 27 24 22 22 12 Come si può notare dai valori in tabella la temperatura ad Honolulu è molto meno variabile che a Phoenix, quindi l’informazione solo sul valor medio è del tutto fuorviante ad esempio per l’acquisto di un completo guardaroba in occasione di un trasferimento in ognuna delle due città. Se ci basassimo solo sul valor medio acquisteremmo solo camice leggere per entrambe le città. Ma nel caso di Phoenix soffriremmo assai i freddo nei mesi invernali e le camice non ci servirebbero a molto neppure nei mesi della grande calura estiva! 4.1 Il range e lo scarto interquartile Il range e lo scarto interquartile sono due misure della variabilità che di solito accompagnano la mediana come misura del valor medio (inteso come valore centrale) di una 4.1. IL RANGE E LO SCARTO INTERQUARTILE 75 distribuzione. Vediamo la definizione di entrambi e poi calcoliamo entrambi gli indici per i dati di un esempio. Il range (si utilizza il termine inglese che in italiano potrebbe essere tradotto con campo di variazione) misura l’ampiezza totale del dataset o delle osservazioni. Definizione 4.1.1 (Range). È definito come la differenza tra il valore più grande osservato e il valore più piccolo osservato. In formula: Range = max{x1 , x2 , . . . xn } − min{x1 , x2 , . . . xn } Lo scarto interquartile a differenza del range non considera tutto il campo di variazione delle osservazioni ma solo la parte centrale. Definizione 4.1.2 (Scarto interquartile). Date n osservazioni x1 , . . . , xn , siano Q1 e Q3 rispettivamente il primo e il terzo quartile. Lo scarto interquartile è dato da IQ = Q3 − Q1 . Di solito lo scarto interquartile viale utilizzato quando le osservazioni hanno una distribuzione asimmetrica e si è utilizzata la mediana come misura del valore centrale. Esempio 4.1.3. Durante la visita dei servizi sociali ad un campo rom alla periferia di Roma è stato chiesto alle 13 madri presenti al campo il peso dei loro 13 primogeniti alla nascita. La seguente tabella riporta i pesi dei 13 neonati. Calcolare la mediana il range e kg 1 2.5 2 4.0 3 3.5 4 3.0 5 3.1 6 3.0 7 4.0 8 2.5 9 3.5 10 3.0 11 2.8 12 3.0 13 4.7 Tabella 4.1: Peso in kg di 13 neonati in un campo rom. lo scarto interquatile del peso dei tredici neonati. Prima di tutto ordiniamo le osservazioni dalla più piccola alla più grande. La seguente tabella riporta i dati ordinati. 2.5 2.5 2.8 3.0 3.0 3.0 3.0 3.1 3.5 3.5 4.0 4.0 4.7 Il peso mediano è l’osservazione che occupa la settima posizione (ricordare: (n + 1)/2 = 14/2 = 7). Quindi M e = 3.0 kg. Il range è dato dalla differenza tra l’osservazione più grande e l’osservazione più piccola: Range = 4.7 − 2.5 = 2.2 Mentre il primo e il terzo quartile occupano rispettivamente la posizione 0.25(n + 1) = 3.5 e 0.75(n + 1) = 10.5. Quindi 2.8 + 3.0 3.5 + 4.0 = 2.9, Q3 = = 3.75, IQ = Q3 − Q1 = 3.75 − 2.9 = 0.85. 2 2 Possiamo quindi concludere che il il peso mediano dei neonati è 3 kg con un campo di variazione di 2.2 kg. Oppure concludere che il il peso mediano dei neonati è 3 kg con una variabilità (data dallo scarto interquartile) di 0.85 kg, ovvero di 850 g. Q1 = 76 CAPITOLO 4. LA VARIABILITÀ 4.2 Scarto quadratico medio e varianza Lo scarto quadratico medio (in inglese standard deviation) misura la variabilità come media degli scarti al quadrato di ogni osservazione dalla media aritmetica. Di solito si utilizza quando la media aritmetica viene usata come misura della tendenza centrale. Definizione 4.2.1 (Scarto quadratico medio). Siano x1 , . . . , xn , n osservazioni e sia x̄ la media aritmetica delle n osservazioni. La quantità v u n u 1 X (xi − x̄)2 (4.1) s=t n−1 i=1 si chiama scarto quadratico medio ovvero deviazione standard. In pratica per calcolare lo scarto quadratico medio occorre calcolare nell’ordine: 1. la media aritmetica x̄ = 1 n Pn i=1 xi ; 2. gli n scarti (o residui) delle osservazioni della media: xi − x̄ per ogni i = 1, 2, . . . , n; 3. elevare ogni scarto al quadrato: (xi − x̄)2 per ogni i = 1, 2, . . . , n; 4. sommare tutti i residui al quadrato: Pn i=1 (xi − x̄)2 ; 5. dividere la somma dei residui al quadrato per n − 1: 6. calcolare la radice quadrata: q 1 n−1 Pn i=1 (xi 1 n−1 Pn i=1 (xi − x̄)2 ; − x̄)2 . Il risultato ottenuto si denota con s. Osservazione 4.2.2. La somma di tutti i residui è nulla. Infatti n X (xi − x̄) = i=1 n X xi − nx̄ i=1 Dividendo entrambi i membri per n e ricordando la definizione di media aritmetica otteniamo n 1X n xi − x̄ = x̄ − x̄ = 0. n n i=1 Da questa osservazione deriva il fatto che la somma di tutti i residui non può essere usata come indicatore della variabilità perché è sempre nulla. La varianza è semplicemente lo scarto quadratico medio elevato al quadrato, oppure possiamo dire che lo scarto quadratico medio è la radice quadrata della varianza! 4.2. SCARTO QUADRATICO MEDIO E VARIANZA 77 Definizione 4.2.3 (Varianza). Date n osservazioni x1 , . . . , xn , sia x̄ la media aritmetica delle n osservazioni. La quantità n s2 = 1 X (xi − x̄)2 n−1 (4.2) i=1 si chiama varianza. La varianza è una statistica che rivestirà un ruolo molto importante nell’inferenza statistica. Come indice di variabilità è invece poco usato perché non è espresso nella stessa untià di misura delle osservazioni, bensı̀ al quadrato. Viene spontaneo chiedersi perché dividiamo per n − 1 invece che per n la somma degli n residui al quadrato per ottenere la varianza e lo scarto quadratico medio. Dopotutto abbiamo definito la media di n valori come la loro somma divisa per n. Il motivo è legato al fatto che dividendo per n − 1 si ottiene una stima più precisa della varianza di una distribuzione. Osserviamo che quando si divide una quantità per n − 1 si ottiene un valore più grande che se avessimo diviso per n. Cioè se avessimo diviso per n avremmo ottenuto una stima troppo bassa per la varianza. Questo si può giustificare con il fatto che le n osservazioni si utilizzano già una volta per ottenere la media (quindi per stimare il valore centrale) e poi ancora una volta per calcolare la somma egli scarti. Con questa seconda operazione si dice che si perde un grado di libertà. Ma torneremo più avanti su questo concetto. Esempio 4.2.4. Riprendiamo i dati dell’Esempio 4.1.3. La tabella riporta i dati per il calcolo della standard deviation. La media è x̄ = 3.28 Quindi 1 2 3 4 5 6 7 8 9 10 11 12 13 sum r s= xi 2.50 4.00 3.50 3.00 3.10 3.00 4.00 2.50 3.50 3.00 2.80 3.00 4.70 42.6 (xi − x̄) -0.777 0.723 0.223 -0.277 -0.177 -0.277 0.723 -0.777 0.223 -0.277 -0.477 -0.277 1.423 0.000 (xi − x̄)2 0.604 0.523 0.050 0.077 0.031 0.077 0.523 0.604 0.050 0.077 0.228 0.077 2.025 4.946 √ 1 4.946 = 0.412 = 0.642. 12 78 CAPITOLO 4. LA VARIABILITÀ Possiamo concludere che il peso medio dei neonati è di 3.28 kg con uno scarto quadratico medio di 642 grammi. Si scrive x̄ ± s ovvero in questo esempio 3.28 ± 0.64. Esercizio 4.2.5. Si calcoli la mediana, il range e lo scarto interquartile e quindi la media aritmetica, la standard deviation e la varianza per i dati dell’Esempio 4.1.3 togliendo l’ultima osservazione. Esercizio 4.2.6. I dati nella seguente tabella rappresentano le altezze in cm di 11 giocatori di una squadra di pallavolo. Calcolare la media aritmetica e lo scarto quadratico medio. h (cm) 9 1 190 2 185 3 182 4 208 5 186 6 187 7 189 8 179 9 183 10 191 11 179 Fare il grafico dei residui. Calcolare la media e lo scarto quadratico medio quando viene tolta la quarta osservazioni 208 cm. Esercizio 4.2.7. La seguente tabella riporta il numero di partner maschili nell’ultimo anno di 21 donne che hanno usufruito dei servizi offerti da un consultorio nel territorio di Milano Calcolare la media aritmetica, lo scarto quadratico medio, la mediana e lo scarto 1 2 0 1 3 2 1 0 2 16 1 12 0 1 0 1 1 3 2 3 4 interquartile. Quale dei due gruppi di indici (uno per il valore centrale e uno per la variabilità descrivono meglio il fenomeno? Perché? Capitolo 5 Operazioni sui dati Molto spesso i dati vengono trasformati. Trasformare i dati non significa manipolarli o falsificarli ma semplicemente renderli più comprensibili o più facili da studiare e analizzare. Le ragioni per cui trasformare i dati sono le più diverse. Le principali sono dovute al bisogno di confrontare distribuzioni registrate in diverse scale, per trovare errori nei dati e per migliorare la qualità dei dati stessi. Ad esempio può essere di interesse studiare come e se è cambiato il PIL nei paesi della zona Euro prima e dopo l’avvento della moneta unica. In questo caso dovremo convertire i dati degli anni precedenti il passaggio all’Euro nella monete comunitaria. Oppure quando vogliamo sapere se un certo punteggio (score) è sopra o sotto la media. Per quanto riguarda la qualità dei dati a volte alcune informazioni sono inconsistenti, come ad esempio se l’età del licenziamento avviene prima dell’età del primo impiego. Le operazioni che presenteremo sui dati sono le trasformazioni di scala e la standardizzazione. 5.1 Trasformazioni di scala La seguente tabella riporta il peso di 5 donne prima di una dieta, gli scarti dalla media q e gli 100 = scarti al quadrato. Calcoliamo il peso medio x̄ = 60 e la deviazione standard s = 5−1 i 1 2 3 4 5 xi 55 67 56 63 59 300 (xi − x̄) -5 7 -4 3 -1 0 (xi − x̄)2 25 49 16 9 1 100 5. Dopo 2 settimane di dieta il peso, gli scarti dalla media e gli scarti al quadrato sono riportati nella seguente tabella. Tutte le donne sono calate di 4 kg. Il peso medio è x̄ = 56 79 80 CAPITOLO 5. OPERAZIONI SUI DATI i 1 2 3 4 5 xi 51 63 52 59 55 280 (xi − x̄) -5 7 -4 3 -1 0 (xi − x̄)2 25 49 16 9 1 100 mentre la deviazione standard è ancora s = 5. Si osservi infatti che nella seconda tabella gli scarti e gli scarti al quadrato non sono cambiati per nessuna delle osservazioni. Questa è una regola generale: aggiungendo o sottraendo una costante a tutte le osservazioni la media cambia per il valore di quella costante mentre lo scarto quadratico medio rimane inalterato. Abbiamo quindi più formalmente la seguente proposizione. Proposizione 5.1.1. Siano x1 , x2 , . . . , xn , n osservazioni. Indichiamo con x̄ la media campionaria e con sx la deviazione standard delle n osservazioni. Sia a una costante qualunque (positiva o negativa). Consideriamo la trasformazione yi = xi + a Abbiamo ȳ = x̄ + a Mentre la deviazione standard non cambia. Dimostrazione. Poiché yi = xi + a per ogni i = 1, 2, , . . . , n abbiamo ȳ = n n i=1 i=1 1X 1 1X (xi + a) = xi + na = x̄ + a. n n n ovvero la media dei dati trasformati ȳ è uguale alla media dei dati da cui siamo partiti x̄ più la costante a. Denotiamo ora con sx lo scarto quadratico medio delle osservazioni x1 , . . . , xn , e analogamente con sy lo scarto quadratico medio delle osservazioni trasformate. Poichè abbiamo appena dimostrato che ȳ = x̄ + a abbiamo v v u u n n u 1 X u 1 X 2 t t sy = (yi − ȳ) = (xi + a − (x̄ + a))2 n−1 n−1 i=1 i=1 v u n u 1 X =t (xi − x̄)2 = sx n−1 i=1 Lo scarto quadratico medio non cambia se si somma o se si sottrae una costante. 5.1. TRASFORMAZIONI DI SCALA 81 Supponiamo adesso che invece che essere tutte diminuite di 4 kg, tutte le donne abbiano perso il 10% del loro peso. Indichiamo con zi il peso dopo la diminuzione del 10%. Si ha zi = xi − 0.1 · xi q ovvero zi = 0.9 · xi . La media del nuovo peso è z̄ = 54 e la standard deviation è sz = 81 4 = 4.5. I conti per ottenere la media e lo scarto quadratico medio sono riportati nella seguente tabella. i 1 2 3 4 5 zi 49.5 60.3 50.4 56.7 53.1 270 (zi − z̄) -4.5 6.3 -3.6 2.7 -0.1 0 (zi − z̄)2 20.25 39.69 12.96 7.29 0.81 81 Osserviamo che 54 è il 10% meno di 60, e 4.5 è il 10% meno di 5. Quindi se si moltiplica o si divide ogni osservazione per una costante sia la media che lo scarto quadratico medio dei dati trasformati risultano moltiplicati o divisi per quella stessa costante. Abbiamo quindi la seguente proposizione Proposizione 5.1.2. Siano x1 , x2 , . . . , xn , n osservazioni. Indichiamo con x̄ la media campionaria e con sx la deviazione standard delle n osservazioni. Sia b una costante qualunque (positiva). Consideriamo la trasformazione yi = bxi Abbiamo ȳ = bx̄ sy = bsx Dimostrazione. Poiché yi = bxi per ogni i = 1, 2, , . . . , n abbiamo n n i=1 i=1 1X 1 X ȳ = (bxi ) = b xi = bx̄. n n Si noti infatti che nella prima somma scritta per esteso abbiamo n n i=1 i=1 bx1 + bx2 + · · · bxn b(x1 + x2 + · · · + xn ) 1 X 1X (bxi ) = = = b xi n n n n ovvero la media dei dati trasformati ȳ è uguale alla media dei dati da cui siamo partiti x̄ moltiplicati per la stessa costante b. Denotiamo ora con sx lo scarto quadratico medio delle osservazioni x1 , . . . , xn , e analogamente con sy lo scarto quadratico medio delle osservazioni 82 CAPITOLO 5. OPERAZIONI SUI DATI trasformate. Poichè abbiamo appena dimostrato che ȳ = bx̄ abbiamo v v u u n n u 1 X u 1 X 2 t t sy = (yi − ȳ) = (bxi − bx̄)2 n−1 n−1 i=1 i=1 v u n X u 1 2 t b (xi − x̄)2 = bsx = n−1 i=1 ovvero lo scarto quadratico medio dei dati trasformati sy è uguale allo scarto quadratico medio dei dati da cui siamo partiti sx moltiplicati per la stessa costante b. 2*x 0.4 0.0 0.1 0.2 densità 0.3 0.4 0.3 0.0 0.1 0.2 densità 0.2 0.0 0.1 densità 0.3 0.4 La Figura 5.1 rappresenta come la variabilità di una distribuzione aumenti se moltiplichiamo per una costante più grande di uno, mentre diminuisce se moltiplichiamo per una costante più piccola di uno. x 1/2*x Figura 5.1: La variabilità aumenta (a sinistra) o diminuisce (a destra) a seconda se si moltiplica per una costante minore o maggiore di uno una distribuzione qualunque (in centro). Un vantaggio di questo tipo di trasformazioni è che se sappiamo con che tipo di trasformazione di scala si passa da una osservazione all’altra possiamo calcolare la media e lo scarto quadratico medio per i dati trasformati senza rifare i conti per i dati trasformati ma semplicemente trasformando con la stessa trasformazione la media e lo scarto quadratico medio dei dati trasformati. 5.2 Standardizzazione L’operazione di standardizzazione di un dato è un’operazione che riveste un ruolo fondamentale in gran parte di tutta la statistica. La standardizzazione ci permette di confrontare 5.2. STANDARDIZZAZIONE 83 e riportare ad una stessa scala dati provenienti da fonti, casi e unità diverse. Per capire l’importanza partiamo da un esempio. Due studentesse Ada e Bea hanno superato una l’esame di glottologia con voto 28, l’altra l’esame di filologia germanica con voto 27. Chi ha ottenuto il miglior risultato? Se si guarda solo al voto si sarebbe tentati di rispondere che ha ottenuto il miglior risultato Ada prendendo il voto più alto rispetto al 27 di Bea. Il confronto fatto in questo modo sarebbe corretto se entrambe avessero sostenuto lo stesso esame. Essendo l’esame diverso non possiamo rispondere senza fare qualche considerazione. Nel corso di laurea seguito dalle due studentesse per l’esame di Glottologia la media di tutti gli studenti che hanno superato l’esame è 26.5 mentre la deviazione standard è 1.5. Per il corso di Filologia germanica invece la media è 24.2 e la deviazione standard è 2. Quindi sembra essere molto più difficile prendere un voto alto a Filologia germanica che a Glottologia. Calcoliamo gli score di entrambi i voti di Ada e Bea. Significa esprimere quante volte lo scarto quadratico medio il loro voto si è discostato dal valor medio. 27 − 24.2 28 − 26.5 = 1 Bea: = 1.4 1.5 2 Bea ha ottenuto il risultato migliore, il suo risultato è 1.4 volte la standard deviation sopra la media, mentre il risultato di Ada è solo 1 volta la s.d. sopra la media. In sostanza standardizzare un dato vuol dire esprimere la sua distanza dal valor medio come multipli dello scarto quadratico medio. In pratica si calcola quante volte lo scarto quadratico medio sta nella differenza tra valore osservato e media. Supponiamo che una terza studentessa Clio, abbia preso in filologia germanica voto 23. In questo caso il suo voto è inferiore al valor medio, quindi la differenza tra il voto riportato e la media dei voti in quella materia è negativo. Lo score risulta Ada: 23 − 24.2 = −0.60. 2 Quindi Clio ha ottenuto un voto che è 6/10 lo scarto quadratico medio inferiore alla media. In generale il valore standardizzato di una osservazione proveniente da una popolazione con media µ e standard deviation σ si può sempre scrivere come Clio: z= x − Media Standard Deviation Possiamo scrivere z= x−µ σ ⇒ ovvero z= x−µ σ x=µ+z·σ ovvero si può sempre scrivere x = Media + z · Standard Deviation ovvero x=µ+z·σ Definizione 5.2.1. Lo score o valore standardizzato di un’osservazione xi da una popolazione con media µ e standard deviation σ è calcolato come segue: xi − µ zi = σ 84 CAPITOLO 5. OPERAZIONI SUI DATI Se µ e σ non sono note non è possibile ricavare il valore standardizzato di una osservazione, allora lo score si può calcolare come zi = xi − x̄ sx dove x̄ è la media calcolata su tutte le osservazioni e sx è la standard deviation calcolata su tutte le osservazioni. Lo score misura il numero di standard deviation che un’osservazione si allontana dal valore medio. • score positivo: l’osservazione è sopra la media di z volte la standard deviation. • score negativo: l’osservazione è sotto la media di z volte la standard deviation. • score nullo: l’osservazione è uguale alla media. Gli score hanno uno proprietà molto utile. Cerchiamo di derivarla partendo da un esempio. Per i valori del paso delle 5 donne considerate all’inzio della sezione precedente, calcoliamo i valori standardizzati (gli score) dei 5 pesi e quindi calcoliamo la media e lo scarto quadratico medio dei valori standardizzati per i pesi delle 5 donne. I conti sono riportati nella seguente tabella. Ricordiamo che il peso medio delle 5 donne è x̄ = 60 kg con una standard deviation sx = 5 kg. Peso: xi Peso-media: xi − x̄ score: zi = xis−x̄ x score2 : zi2 1 55 -5 -1.00 1.00 2 67 7 1.40 1.96 3 56 -4 -0.80 0.64 4 63 3 0.60 0.36 5 59 -1 -0.20 0.04 somma 300 0 0 4 Possiamo quindi calcolare la media e lo scarto quadratico medio dei pesi standardizzati r 4 media score: z̄ = 0, s.d. score sz = =1 4 Il fatto che la media degli score sia zero e lo scarto quadratico medio degli score sia 1, non è un caso. Proposizione 5.2.2. Siano x1 , x2 , . . . , xn , n osservazioni. Indichiamo con x̄ la media campionaria e con sx la deviazione standard delle n osservazioni. Indichiamo con zi i valori standardizzati xi − x̄ zi = . sx Allora v u n n X u 1 X 1 z̄ = zi = 0 e s z = t (zi − z̄)2 = 1 n n−1 i=1 i=1 5.2. STANDARDIZZAZIONE 85 Dimostrazione. Poiché sx è una costante e la somma di tutti gli scarti è nulla (ricordare l’Osservazione 4.2.2), abbiamo n n n 1 1 X 1 X xi − x̄ 1X = zi = (xi − x̄) = 0 z̄ = n n sx n sx i=1 i=1 i=1 Passando al calcolo per la standard deviation, poiché z̄ = 0 e per la definizione di sx , abbiamo v v v u u u r n n n u 1 X u 1 X u 1 X sx (xi − x̄)2 2 2 t t t = = 1. sz = (zi − z̄) = zi = n−1 n−1 n−1 sx sx i=1 i=1 i=1 Esempio 5.2.3. Per 6 esami del corso di laurea in lettere le medie e gli scarti quadratici medi sono riportati nella seguente tabella. Tre studentesse hanno sostenuto i seguenti Inglese Tedesco Francese Giapponese Russo Statistica sociale media 24.3 25.5 23.8 26.1 25.6 24.4 sd 1.3 2.1 1.4 1.8 2.2 2.3 esami con le votazioni riportate: • Ada: Inglese 25, Francese 25, Giapponese 27, Russo 28 • Bea: Tedesco 24, Francese 26, Russo 27, Stat. Sociale 28 • Clio: Inglese 23, Tedesco 26, Francese 22, Giapponese 27, Russo 24 Chi ha ottenuto il migliore risultato? Esercizio 5.2.4. L’indice di deprivazione si basa su tre variabili rilevate in ogni comune: la percentuale di persone che non possiede un auto, riportata in tabella nella colonna NO Auto, la percentuale di persone che è affetto da una patologia debilitante grave, riportate nella colonna Malattia e la percentuale di coloro che non sono proprietari della casa dove abitano, nella colonna NO Casa. Nella seguente tabella sono riportate le percentuali di queste variabili rilevate in un campione non specificato in 6 comuni della provincia di Bergamo. Determinare in quale comune della provincia l’indice di deprivazione è il più elevato. Quale è il comune più deprivato? 86 CAPITOLO 5. OPERAZIONI SUI DATI comuni Bergamo Trescore Dalmine Albino Clusone Osio NO Auto % 25.4 56.9 31.6 32.6 25.6 24.4 Malattia % 11.3 16.1 11.8 12.5 12.2 11.3 NO Casa % 29.9 56.4 35.3 32.9 34.7 43.8 Capitolo 6 Siamo tutti normali? In questo capitolo studiamo una distribuzione fondamentale per tutta la statistica: la distribuzione normale. Supporre che un fenomeno sia Normale (cioè abbia una distribuzione Normale) è abbastanza nomale in diversi settori della ricerca in particolare anche nello studio dei fenomeni sociali. Ad esempio di qui in avanti supporremo che dal punto di vista teoriche tutti i fenomeni che abbiamo incontrato siano distribuiti con questa distribuzione: la distribuzione normale. Quindi per rispondere alla domanda che da il titolo al capitolo: sı̀ siamo tutti normali! A cominciare dalla forma della collina che compare nella foto riportata in Figura 6.1 e dalla forma della campana riportata in Figura 6.2. Infatti la distribuzione normale è conosciuta anche come la bell shaped distribution: la distribuzione a forma di campana. 6.1 La curva è normale! La distribuzione normale è una distribuzione teorica. Le distribuzioni teoriche si distinguono da quelle empiriche perché non sono determinate partendo dai dati (o almeno non direttamente) ma perché sono date da una formula matematica che ne fornisce la forma e le caratteristiche salienti come media e scarto quadratico medio. Fino ad ora abbiamo avuto a che fare con distribuzioni empiriche: partendo dai dati osservati di una certa distribuzione venivano costruite le forme delle distribuzioni attraverso l’istogramma e i valori di sintesi come media (aritmetica) mediana, quartili, percentili, scarto quadratico medio, varianza, range, scarto interquartile. La distribuzione teorica invece è data da una formula matematica (che non riportiamo qui ma che riportiamo alla fine del capitolo per i più curiosi) le cui caratteristiche sono le seguenti: 1. La distribuzione normale è simmetrica attorno al suo valore centrale che coincide con la media (aritmetica) la mediana e la moda della distribuzione. 87 88 CAPITOLO 6. SIAMO TUTTI NORMALI? Figura 6.1: La collina normale. 2. La maggior parte dei valori si distribuisce attorno a questo valore centrale secondo modalità che verrano specificate tra poco. 3. Pochi valori si distribuiscono lontano da questo valore centrale. 4. La curva man mano che si allontana dal valore centrale si avvicina sempre più all’asse delle ascisse senza però mai toccarlo. La Figura 6.3 riporta il grafico di tre curve normali per le quali il valore centrale è lo stesso. Il valore centrale viene indicato con la lettera greca mu, µ. Quindi per le distribuzioni in figura µ = 15. Le curve delle distribuzioni normali in Figura 6.3 hanno tutte la stessa media, ma non si può negare che siano molto diverse tra loro: i fenomeni che rappresentano sono molto diversi tra loro. Questa diversità è data dalla forma, da quanto i valori della distribuzione si distribuiscono attorno alla media in termini di multipli dello scarto quadratico medio. La distribuzione normale è molto comoda perché è caratterizzata oltre che dalla media µ da solo un’altra grandezza che è lo scarto quadratico medio, che viene indicato con la lettera greca sigma, che si scrive σ. Le distribuzioni in Figura 6.3 hanno rispettivamente σ = 1 la blu, σ = 2 la nera e σ = 5 la rossa. 6.1. LA CURVA È NORMALE! 89 Figura 6.2: La campana normale. Foto Ditta Colaci. Le curve in Figura 6.3 sono molto diverse tra loro, ma quello che hanno in comune sono alcune caratteristiche. Queste sono date dall’area della curva sotto determinati intervalli di valori. Precisamente valgono le seguenti proprietà per le aree sotto la curva normale. Indichiamo con µ la media e con σ lo s.q.m di una Normale. Per ogni distribuzione normale 1. L’area sotto la curva è 1 2. L’area tra µ − σ e µ + σ è 0.682 (il 68.2% delle osservazione sta tra µ − σ e µ + σ) 3. L’area tra µ − 2σ e µ + 2σ è 0.954 (il 95.4% delle osservazione sta tra µ − 2σ e µ + 2σ) 4. L’area tra µ − 3σ e µ + 3σ è 0.998 (il 99.8% delle osservazione sta tra µ − 3σ e µ + 3σ) La distribuzione Normale ammette, almeno in via teorica che la variabile di interesse possa assumere valori sempre più grandi e anche sempre più piccoli del valore medio µ. Il valore più grande che non potrà mai essere raggiunto è più infinito, si indica col simbolo +∞ e giace all’estremità destra dell’asse dove rappresentiamo il fenomeno (l’asse delle ascisse). Il valore più piccolo che non potrà mai essere raggiunto è meno infinito, si indica col simbolo −∞ e giace all’estremità sinistra dell’asse dove rappresentiamo il fenomeno (l’asse delle ascisse). La curva della distribuzione nomale quindi è centrata in µ e simmetrica rispetto a µ è tanto più stretta e alta tanto più il valore dello scarto quadratico medio σ è piccolo (cioè c’è poca variabilità attorno al valor medio µ), mentre è tanto più larga e bassa tanto più il valore dello scarto quadratico medio σ è grande 90 CAPITOLO 6. SIAMO TUTTI NORMALI? 0.2 0.0 0.1 densità 0.3 0.4 Curva Normale 0 5 10 15 20 25 30 x Figura 6.3: Distribuzioni normali con la stessa media ma diverso scarto quadratico medio. (cioè c’è tanta variabilità attorno al valor medio µ). Per ogni valore di µ e σ la curva della distribuzione Normale si avvicina all’asse delle ascisse da entrambi i lati senza mai toccarla se non all’infinito (si dice che è asintotica all’asse delle ascisse). L’area complessiva tra la curva Normale e l’asse delle ascisse vale sempre 1 e la maggior parte di quest’area si trova tra i valori µ − 3σ e µ + 3σ. Solo per rendere un idea di cosa significa maggior parte, l’area sotto la curva Normale da µ − 5σ a −∞ è 0.0000003, cioè in genere 3 casi ogni 10 milioni! Come abbiamo detto la distribuzione normale è una distribuzione teorica. Noi avremo a che fare con distribuzioni empiriche. Il legame tra la distribuzione empirica e quella teorica è però molto stretto. Un fenomeno empirico è lecito ritenere che abbia una distribuzione Normale quando calcolati x̄ e s su un campione abbastanza numeroso, e disegnato l’istogramma delle frequenze relative si osserva che: 1. l’istogramma è simmetrico rispetto alla media aritmetica x̄; 2. circa il 68.2% delle osservazioni del campione sta tra x̄ − s e x̄ + s; 3. circa il 95.4% delle osservazioni del campione sta tra x̄ − 2s e x̄ + 2s; 4. circa il 99.8% delle osservazioni del campione sta tra x̄ − 3s e x̄ + 3s; 5. praticamente nessun valore sta oltre x̄ − 4s e x̄ + 4s Se un fenomeno riteniamo si possa distribuire come una Normale, secondo quanto descritto sopra, possiamo ritenere noti la media µ e lo scarto quadratico medio σ della distribuzione (nella pratica saranno considerati µ = x̄ e σ = s). 6.1. LA CURVA È NORMALE! 91 Esempio 6.1.1. La distribuzione empirica dei voti di 1200 studenti che hanno sostenuto l’esame di statistica è riportato nella Figura Figura 6.4. Insieme all’istogramma dei voti di 1200 studenti che hanno sostenuto l’esame di statistica abbiamo tracciato il grafico della distribuzione Normale con mu pari alla media calcolata sul campione che è x̄ = 24.002 e deviazione standard σ pari a quella calciata sul campii che è s = 1.5. Come si vede la curva teorica si sovrappone molto bene all’istogramma ricavato empiricamente e le porzioni di frequenze relative descritte sopra vengono rispettate. 0.15 0.00 0.05 0.10 Density 0.20 0.25 Distribuzione dei voti, normale 18 20 22 24 26 28 30 x Figura 6.4: Distribuzione empirica e distribuzione teorica dei voti di 1200 studenti. Istogramma dei voti all’esame di statistica: Media=24.002, Mediana= 24, moda=24, sd= 1.5, curva normale con media 24 e sd=1.5 È importante notare che dati i valori di µ e σ caratterizziamo completamente la distribuzione normale, cioè la identifichiamo e siamo in grado di disegnarla. Ad esempio se sappiamo che una certa distribuzione di redditi è normale con media µ = 15000 e standard deviation σ = 3000, il grafico è quello riportato in Figura 6.5. Se sappiamo che l’età a cui viene dato il primo bacio (esempio presentato nella Sezione 2.7.3) è distribuita come una normale con media µ = 14 anni e scarto quadratico medio σ = 2.5 anni (due anni e mezzo) il grafico è riportato in Figura 6.6. Ancora dall’esperienza personale basata su 1200 esami effettuati, posso ritenere che la distribuzione del voto di statistica alla facoltà di ingegneria sia normale con media µ = 24 e scarto quadratico medio σ = 1.5. Il grafico è riportato nella Figura 6.7 Possiamo ora rispondere alle seguenti domande e ad altre simili: 1. Che proporzione di popolazione di studenti ha preso un voto che sta tra µ e µ + 2σ, cioè un voto tra 24 e 27? 92 CAPITOLO 6. SIAMO TUTTI NORMALI? 0.00008 0.00004 0.00000 dnorm(x, 15000, 3000) 0.00012 Distribuzione dei redditi 0 5000 10000 15000 20000 25000 30000 x Figura 6.5: Distribuzioni dei redditi normale con µ = 15000 euro σ = 3000 euro. 2. Che proporzione di popolazione di redditieri ha un reddito compreso tra µ − σ e µ, ovvero un reddito comrpeso tra 12000 euro e 15000 euro? 3. Che proporzione di popolazione di redditieri ha un reddito minore di µ − σ, ovvero un reddito minore di 12000 euro? 4. Che proporzione di popolazione di giovani uomini ha dato il primo bacio ad un età minore di µ − 2σ o maggiore di µ + 2σ, ovvero minore di 9 anni o maggiore di 19 anni? Nell’ordine abbiamo 1. L’area sotto la curva normale tra µ e µ + 2σ è 0.954/2, ovvero 0.477. La proporzione richiesta è il 47.7%. 2. L’area sotto la curva normale tra µ − σ e µ è 0.682/2, ovvero 0.341. La proporzione richiesta è il 34.1%. 3. L’area sotto la curva normale dal limite inferiore a µ − σ è 0.50 − 0.341 = 0.159. La proporzione cercata è quindi il 15.9 % 4. L’area sotto la curva normale dal limite inferiore a µ − 2σ e l’area da µ + 2σ è data da 1 − 0.954 = 0.046. La proporzione richiesta è il 4.6%. Per ogni distribuzione Normale con valore medio µ e scarto quadratico medio σ possiamo dividere l’area tra la curva e l’asse delle ascisse in settori simmetrici per multipli di 6.2. LA NORMALE STANDARDIZZATA 93 0.10 0.00 0.05 dnorm(x, 14, 2.5) 0.15 Distribuzione dell'età al primo bacio 0 5 10 15 20 25 30 x Figura 6.6: Distribuzioni dell’età al primo bacio con µ = 14 anni σ = 2.5 anni. σ e l’area di questi settori è riassunta in questa tabella: Settore (−∞, µ − 3σ) (µ − 3σ, µ − 2σ) (µ − 2σ, µ − σ) (µ − σ, µ) Area 0.001 0.022 0.136 0.341 Settore (µ, µ + σ) (µ + σ, µ + 2σ) (µ + 2σ, µ + 3σ) (µ + 3σ, +∞, ) Area 0.341 0.136 0.022 0.001 6.2 La normale standardizzata Esistono quindi un’infinità di distribuzioni normali, una per ogni valore della media µ e ogni valore dello scarto quadratico o medio σ. Tra tutte le normali c’è n’è una un po’ più normale delle altre. Si tratta della normale standardizzata che è una distribuzione normale con media µ = 0 e scarto quadratico medio σ = 1. Questa distribuzione riveste un ruolo particolare perché è la distribuzione degli Z-scores di ogni distribuzione normale. Prendiamo uno dei tre esempi della sezione precedente. La distribuzione dei redditi. Indichiamo con x un reddito generico. La distribuzione di tutti i possibili redditi è una distribuzione normale con media µ = 15000 e standard deviation σ = 3000. Consideriamo adesso per un reddito generico x il suo z-score. Lo score del reddito è definito come z= x − 15000 3000 per ogni reddito x. La distribuzione di tutti i possibili z-scores dei redditi segue una distribuzione normale standardizzata, ovvero con media µ = 0 e scarto quadratico medio σ = 1. Se consideriamo la distribuzione dei voti all’esame di statistica, si tratta di una 94 CAPITOLO 6. SIAMO TUTTI NORMALI? 0.15 0.10 0.00 0.05 dnorm(x, 24, 1.5) 0.20 0.25 Distribuzione dei voti normale teorica 18 20 22 24 26 28 30 x Figura 6.7: Distribuzioni dei voti all’esame di statistica µ = 24 trentesimi σ = 1.5 trentesimi. distribuzione normale con media µ = 24 e scarto quadratico medio σ = 1.5. Se indico con x il voto generico, lo z-score del voto è z= x − 24 1.5 Anche in questo caso la distribuzione di tutti i possibili z-scores dei voti segue una distribuzione normale standardizzata, ovvero con media µ = 0 e scarto quadratico medio σ = 1. Si può generalizzare per ogni tipo di distribuzione normale. Abbiamo infatti il seguente risultato. Proposizione 6.2.1. Sia X un fenomeno con una distribuzione Normale con media µ e scarto quadratico medio σ. Sia x uno dei possibili valori assunti da X. La distribuzione di tutti i possibili score per ogni valore possibile x, z= x−µ σ segue una distribuzione normale standardizzata. Gli z-score sono importanti nella pratica perché riconducono ogni problema ad un problema relativo a una sola distribuzione. Facendo riferimento agli esempi precedenti, se si vuole conoscere la proporzione di studenti che ha un voto compreso tra 24 − 1.5 e 24 + 1.5, questa è pari alla proporzione di studenti che ha uno z-score del voto compreso tra −1 e 1. Se si vuole conoscere la proporzione di redditieri che ha un reddito compreso tra 15000 − 3000 e 15000 + 3000, questa è pari alla proporzione di redditieri che ha uno 6.2. LA NORMALE STANDARDIZZATA 95 0.15 0.00 0.05 0.10 Density 0.20 0.25 Distribuzione dei voti, normale empirica 18 20 22 24 26 28 30 x Figura 6.8: Distribuzione empirica dei voti di 1200 studenti. Istogramma dei voti all’esame di statistica: Media=24.002, Mediana= 24, moda=24, sd= 1.5 z-score del reddito compreso tra −1 e 1. In entrambi i casi trattandosi dell’area sotto una curva normale di media µ = 0 e s.q.m. σ = 1, so che tale proporzione è pari al 68.26%. Se voglio sapere la proporzione di redditieri con uno z-score tra −2 e 2, questa è equivalente alla proporzione di redditieri che hanno un reddito compreso tra il valor medio e più o meno due standard deviation del reddito, ancora so che tale proporzione è il 95.46%. Ma la distribuzione degli z score permette di rispondere a domande più interessanti come quelle nel seguente esempio. Esempio 6.2.2. La distribuzione dei voti all’esame di statistica è normale con media µ = 24 e s.q.m. σ = 1.5. 1. Prendete 28. Che proporzione di studenti hanno preso un voto maggiore del vostro? 2. Prendete 23. Che proporzione di studenti ha preso un voto minore del vostro? 3. Qual è il voto minimo che dovete prendere per essere tra il 60% degli studenti più bravi? Per la rispondere alla prima domanda occorre calcolare l’area sotto la curva nomale con media µ = 24 e σ = 1.5 dal valore 28 fino a più infinito. Si noti che 28 non è esprimibile come µ + kσ per k pari a 1, 2 o 3. Infatti 28 ha uno z score di (28 − 24)/1.5 = 2.67. Quindi non è esprimibile come multiplo intero di σ, ma invertendo la definizione di z-score, x = µ + zσ 96 CAPITOLO 6. SIAMO TUTTI NORMALI? possiamo scrivere 28 = 24+2.67·1.5. L’area da 28 a +∞ sotto la curva normale con media µ = 24 e s.q.m. σ = 1.5 è uguale all’area sotto la curva nomale standardizzata da 2.67 a +∞. Si noti che 23 ha uno z score di (23 − 24)/1.5 = −0.67. Quindi non è esprimibile come multiplo intero di σ. Io devo poter calcolare la proporzione di studenti che hanno lo z score minore di −0.67. In questo modo conoscerò la proporzione di studenti di cui sono stato più bravo, ovvero con uno z score minore del mio. Per rispondere alla terza domanda, devo trovare quel voto per cui la proporzione di voti maggiori di quel voto sia il 60%. Devo trovare lo z score tale per cui l’area sotto la curva normale standardizzata dal valore z in poi sia pari a 0.60. Prima di rispondere a queste domande dobbiamo introdurre la tavola dei valori della normale standardizzata. Tali tavole riportano i valori dell’area sotto la curva Normale standardizzata per diversi valori degli z score. Ne riportiamo alcune nell’Appendice A. Esse sono tutte equivalenti, nel senso che i valori di una tavola possono essere dedotti da una qualunque delle altre con semplici considerazioni geometriche basate sulla simmetria della distribuzione Normale. Prendiamo ad esempio la Tabella A.1. I valori nella prima colonna sono i valori degli z score fino alla prima cifra decimale. Sono i valori da 0.0 a 3.5. La seconda cifra decimale la troviamo invece nella prima riga, sono i valori 0.00, fino a 0.09. I valori interni alla tavola corrispondono all’area sotto la curva normale da 0 fino al valore dello z score come mostra il grafico sopra la tavola. Per calcolare l’area sotto la curva per l’intervallo (0, 1.51) si cerca il valore all’incrocio della riga 1.5 e della colonna 0.01, cioè l’area è 0.434. Quest’area corrisponde alla probabilità che lo z score assuma valori tra 0 e 1.51. Per capire come le tavole sono tutte equivalenti è chiaro che se volessimo calcolare la probabilità che lo z score sia maggiore di 1.51, questa probabilità è data dall’area sotto la curva da 1.51 all’infinito e tale area la ricaviamo da quella da 0 a più infinito che è 0.5 togliendo l’area da 0 a 1.51 che abbiamo ricavato dalla tavola, cioè 0.500 − 0.434 = 0.066. Il valore 0.066 può essere ricavato direttamente dalla Tabella A.2. Questa tavola fornisce i valori delle aree da un qualunque z score positivo a più infinito. In corrispondenza dell’incrocio tra 1.5 e 0.01 di questa tavola troviamo infatti 0.066. Quindi per rispondere alla prima domanda devo cercare nella Tabella A.2 lo z-score 2.67 e trovare il valore dell’area corrispondente. Il valore lo trovo all’incrocio tra la riga di 2.6 e la colonna di 0.07: si tratta del valore 0.004. Quindi solo lo 0.4% di studenti prenderà un voto maggiore di 28. Si noti che tale valore poteva anche essere ricavato da una qualunque delle altre tavole. Ad esempio dalla Tabella A.4 cercando il valore corrispondente a 2.67, che è 0.996. L’area cercata è 1 − 0.994 = 0.004. Oppure dalla Tavola A.3 cercando il valore corrispondente a -2.67, che è 0.496. L’area cercata in questo caro è 0.500 − 0.496 = 0.004. Per quanto riguarda il secondo punto devo calcolare l’area da −∞ al valore −0.67. Posso cercare il valore -0.67 nella Tabella A.3. Lo trovo in corrispondenza della riga con 6.2. LA NORMALE STANDARDIZZATA 97 −0.6 e della colonna con −0.07. Il valore all’incrocio tra questa riga e questa colonna riporta il valore: 0.249. L’area cercata è quindi 0.500 − 0.249 = 0.251. Posso concludere che la percentuale cercata è il 25.1%. Lo stesso valore poteva essere ricavato direttamente osservando che l’area cercata è la stessa calcolata da 0.67 a +∞ e quindi dalla Tabella A.2 incorrispondenza di 0.67, troviamo 0.251. Per rispondere all’ultima domanda devo utilizzare le tavole in maniera inversa. In questo caso conosco il valore di un area (trasformo la proporzione 60% in 0.60) e devo trovare il valore dello z score che lascia alla sua destra sotto la curva normale un’area pari a 0.60 ovvero alla sua sinistra un’area di 0.40. Cerco quindi tale valore ad esempio nella Tabella A.4 e noto che nella tavola ci sono i valori 0.599 che lo approssima per difetto e che corrisponde allo z score 0.25 e il valore 0.603 che lo approssima per eccesso e che corrisponde allo z score 0.26. Il valore z che cerco può essere scelto un due modi: o prendo il valore tra i due z score con l’errore più basso, in questo caso 0.25, perché 0.600 − 0.599 = 0.001 è minore di 0.603 − 0.600 = 0.003. Oppure prendo il punto intermedio 0.255 tra 0.25 e 0.26. z Φ(z) = P(Z ≤ z) = ⌠ f(x)dx ⌡−∞ z 0 Figura 6.9: Area sotto la curva normale standardizzata della regione di valori minori del generico z score. Esercizio 6.2.3. Il QI nella popolazione è noto che si distribuisce come una normale con µ = 100 e standard deviation σ = 15. • Tra quali valori di QI sta il 68.26% della popolazione centrale? 98 CAPITOLO 6. SIAMO TUTTI NORMALI? • Quale proporzione di popolazione ha un QI minore di 75? • Quale proporzione di popolazione ha un QI minore di 105? • Quale proporzione di popolazione ha un QI maggiore di 105? • Quale proporzione di popolazione ha un QI maggiore di 130? • Quale proporzione di popolazione ha un QI compreso tra 90 e 115? • Quale proporzione di popolazione ha un QI compreso tra 95 e 105? • A che QI corrisponde il 10% della popolazione con QI più alto? z 0.0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -1.0 -1.1 -1.2 -1.3 -1.4 -1.5 -1.6 -1.7 -1.8 -1.9 -2.0 -2.1 -2.2 -2.3 -2.4 -2.5 -2.6 -2.7 -2.8 -2.9 -3.0 0.00 0.50000 0.46017 0.42074 0.38209 0.34458 0.30854 0.27425 0.24196 0.21186 0.18406 0.15866 0.13567 0.11507 0.09680 0.08076 0.06681 0.05480 0.04457 0.03593 0.02872 0.02275 0.01786 0.01390 0.01072 0.00820 0.00621 0.00466 0.00347 0.00256 0.00187 0.00135 -0.01 0.49601 0.45620 0.41683 0.37828 0.34090 0.30503 0.27093 0.23885 0.20897 0.18141 0.15625 0.13350 0.11314 0.09510 0.07927 0.06552 0.05370 0.04363 0.03515 0.02807 0.02222 0.01743 0.01355 0.01044 0.00798 0.00604 0.00453 0.00336 0.00248 0.00181 0.00131 -0.02 0.49202 0.45224 0.41294 0.37448 0.33724 0.30153 0.26763 0.23576 0.20611 0.17879 0.15386 0.13136 0.11123 0.09342 0.07780 0.06426 0.05262 0.04272 0.03438 0.02743 0.02169 0.01700 0.01321 0.01017 0.00776 0.00587 0.00440 0.00326 0.00240 0.00175 0.00126 -0.03 0.48803 0.44828 0.40905 0.37070 0.33360 0.29806 0.26435 0.23270 0.20327 0.17619 0.15151 0.12924 0.10935 0.09176 0.07636 0.06301 0.05155 0.04182 0.03362 0.02680 0.02118 0.01659 0.01287 0.00990 0.00755 0.00570 0.00427 0.00317 0.00233 0.00169 0.00122 -0.04 0.48405 0.44433 0.40517 0.36693 0.32997 0.29460 0.26109 0.22965 0.20045 0.17361 0.14917 0.12714 0.10749 0.09012 0.07493 0.06178 0.05050 0.04093 0.03288 0.02619 0.02068 0.01618 0.01255 0.00964 0.00734 0.00554 0.00415 0.00307 0.00226 0.00164 0.00118 -0.05 0.48006 0.44038 0.40129 0.36317 0.32636 0.29116 0.25785 0.22663 0.19766 0.17106 0.14686 0.12507 0.10565 0.08851 0.07353 0.06057 0.04947 0.04006 0.03216 0.02559 0.02018 0.01578 0.01222 0.00939 0.00714 0.00539 0.00402 0.00298 0.00219 0.00159 0.00114 -0.06 0.47608 0.43644 0.39743 0.35942 0.32276 0.28774 0.25463 0.22363 0.19489 0.16853 0.14457 0.12302 0.10383 0.08691 0.07215 0.05938 0.04846 0.03920 0.03144 0.02500 0.01970 0.01539 0.01191 0.00914 0.00695 0.00523 0.00391 0.00289 0.00212 0.00154 0.00111 -0.07 0.47210 0.43251 0.39358 0.35569 0.31918 0.28434 0.25143 0.22065 0.19215 0.16602 0.14231 0.12100 0.10204 0.08534 0.07078 0.05821 0.04746 0.03836 0.03074 0.02442 0.01923 0.01500 0.01160 0.00889 0.00676 0.00508 0.00379 0.00280 0.00205 0.00149 0.00107 -0.08 0.46812 0.42858 0.38974 0.35197 0.31561 0.28096 0.24825 0.21770 0.18943 0.16354 0.14007 0.11900 0.10027 0.08379 0.06944 0.05705 0.04648 0.03754 0.03005 0.02385 0.01876 0.01463 0.01130 0.00866 0.00657 0.00494 0.00368 0.00272 0.00199 0.00144 0.00104 -0.09 0.46414 0.42465 0.38591 0.34827 0.31207 0.27760 0.24510 0.21476 0.18673 0.16109 0.13786 0.11702 0.09853 0.08226 0.06811 0.05592 0.04551 0.03673 0.02938 0.02330 0.01831 0.01426 0.01101 0.00842 0.00639 0.00480 0.00357 0.00264 0.00193 0.00139 0.00100 Tabella 6.1: Tavola della Normale standard. Valori di Φ(z) = P (Z < z) per z negativi. Per calcolare P (Z < −1.51) = Φ(−1.51) si cerca il valore all’incrocio della riga −1.5 e della colonna −0.01, cioè Φ(−1.51) = 0.06552. 6.3 Un po’ di formule matematiche e un po’ di storia La formula matematica della curva della distribuzione normale con generica media µ e generico scarto quadratico medio σ > 0 è la seguente: f (x) = √ 1 2πσ 2 e− (x−µ)2 2σ 2 , x∈R Nella formula oltre ai parametri µ e σ compaiono anche π il numero noto come pi greco il cui valore approssimato alla seconda cifra decimale è 3.14 e la x. La x è la variabile. Per 6.3. UN PO’ DI FORMULE MATEMATICHE E UN PO’ DI STORIA 99 ogni valore di x ∈ R, dove R è l’insieme dei numeri reali, tutti quanti, f (x) ci da il valore in ordinata della curva normale. Si noti che al crescere di x verso valori sempre più grandi o al diminuire di x verso valori sempre più piccoli, ma grandi in valore assoluto, ad esempio per x = −100 o x = 100, il valore di f (x) per µ = 10 e σ = 4 vale 0.0 . . . 110zeri0117. Questo è praticamente 0 ma non lo è di fatto! Si noti che l’esponente del numero e (altra costante universale della matematica, il numero di Nepero, la base dei logaritmi naturali, che approssimata alla seconda cifra decimale vale 2.27) è negativo, il che significa che al crescere dell’esponente, diventa sempre più vicino allo zero, ma non lo raggiunge mai. Solo al limite e−∞ = 0. Il simbolo ∞ è il simbolo matematico che denota il valore infinito, che non è un valore vero e proprio ma solo una quantità molto molto molto grande. La distribuzione della normale standard, la distribuzione di tutti gli z-scores è invece data dalla formula: 1 2 1 f (z) = √ e− 2 z , z ∈ R. 2π Si tratta delle stessa formula dove abbiamo sostituito a µ il valore zero e a σ abbiamo sostituito il valore 1 (nella distribuzione normale standardizzata abbiamo µ = 0 e σ = 1). Abbiamo utilizzato la lettera z invece della lettera x ma questo non ha nessuna importanza. Avremmo potuto utilizzare ancora la lettera x per indicare un valore qualunque dello z score. La distribuzione normale prende anche il nome di distribuzione Gaussiana, dal nome del matematico tedesco Carl F. Gauss (1777-1855) che per primo dedusse il teorema centrale del limite, o il teorema di normalità asintotica, che studieremo nel prossimo capitolo e che vide apparire per la prima volta la distribuzione gaussiana. Per una biografia di Gauss consiglio la lettura del libro La misura del mondo di Daniel Kehlmann (Feltrinelli) dove la personalità e il carattere molto particolari di Gauss sono descritti in modo sublime insieme alla personalità di un altro grande scienziato tedesco: Alexander von Humboldt. 100 CAPITOLO 6. SIAMO TUTTI NORMALI? Capitolo 7 Dal campione alla popolazione Nelle scienze sociali, come in ogni altra scienza, l’interesse è in genere rivolto ad un particolare gruppo (di persone o di altro tipo). Ad esempio siamo interessati a sapere qual è la percentuale di giovani che sono disoccupati in Italia. Per trovare questa percentuale potremmo domandare a tutti i giovani d’Italia se siano o meno disoccupati e quindi calcolarla come numero dei disoccupati diviso numero totale dei giovani in Italia. Si capisce bene che tale procedura è di fatto irrealizzabile. Fortunatamente non occorre fare questo per sapere qual è la percentuale dei giovani senza lavoro. Se lo domandiamo solo ad un campione, purché questo sia scelto in maniera appropriata, il calcolo della percentuale di giovani disoccupati nel campione potrà essere esteso a tutta la popolazione dei giovani. La percentuale dei disoccupati valutata sul campione costituisce una stima della percentuale dei disoccupati nell’intera popolazione. 7.1 Campionamento Ci sono due concetti molto importanti alla base del campionamento, il concetto di popolazione e quello di campione. La popolazione è il gruppo sul quale vogliamo conoscere qualche cosa (nell’esempio di prima: la popolazione sono i giovani italiani, l’oggetto di nostro interesse è la percentuale di disoccupati). Non sempre la popolazione è tangibile o reale, come in questo caso, dove per forza di cose è finita. A volte la popolazione è concettuale e non tangibile. Questo è tipico degli esperimenti fisici o dove interessa misurare una quantità e vengono eseguiti un certo numero di esperimenti per ottenere questa misura. Ogni misura ottenuta in ognuno degli esperimenti è il campione ma la popolazione è costituita da tutte le possibili misurazioni che si sarebbero potute avere. In genere nelle scienze sociali la popolazione è costituita da un gruppo ben specificato di persone, quindi sarà sempre tangibile e costituita da un numero finito di unità. Definizione 7.1.1 (Popolazione). L’intera collezione di oggetti o persone o eventi sui quali si ricerca l’informazione di interesse. 101 102 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE Prima di tutto la popolazione deve essere ben definita. Se ad esempio si vuole condurre un’indagine per sapere se gli adulti sono favorevoli alla liberalizzazione della cannabis, occorre ben definire la categoria degli adulti. Anche la variabile di interesse deve essere ben definita. Se vogliamo conoscere il reddito medio, dobbiamo specificare cosa intendiamo per reddito medio. La media aritmetica o la mediana? Il secondo concetto è invece quello di campione. Definizione 7.1.2 (Campione). È un sottoinsieme della popolazione che contiene gli oggetti o le persone o gli eventi sui quali si osserva la quantitè di interesse. La caratteristica fondamentale di un campione è che deve essere rappresentativo della popolazione dalle quale è stato scelto. Ad esempio se torniamo al problema di conoscere la percentuale di disoccupati, per stimare questa percentuale non possiamo scegliere come campione 100 giovani laureati da tre anni all’università di Milano. Quello che stimeremmo in questo caso sarebbe la percentuale di disoccupati tra i giovani laureati da tre anni all’università di Milano, non la percentuale dei disoccupati tra i giovani in Italia. Vi sono molte ragioni per cui la caratteristica valutata sulle unità del campione non è in genere uguale alla caratteristica della popolazione. Si tenga presente che noi non saremo mai in grado di dire quanto è la percentuale dei disoccupati in Italia! Le quantità sulla popolazione sono di solito chiamate parametri. I parametri possono assumere determinati valori, uno solo è il vero valore del parametro e noi non lo conosceremo mai: il lavoro dello statistico è molto triste! Studia per qualcosa che non sarà mai in grado di conoscere! Quello che però si può fare è fare una stima di questo parametro (la percentuale dei disoccupati ad esempio) sulla base di un campione scelto bene, e dire quanto si può sbagliare. I tipi di errore nel campionamento possono essere di diverso tipo e occorre scegliere il campione in modo appropriato in modo da minimizzare questi errori. Vediamo alcuni di questi errori di campionamento. 1. Variabilità del campione. Questo errore è detto anche errore casuale ed è dovuto al fatto che scegliendo diversi campioni la quantità di interesse calcolata su diversi campioni sarà diversa. Ad esempio se scegliamo in modo appropriato 1000 campioni di cento giovani per stimare la percentuale di disoccupati, non osserveremo sempre la stessa percentuale di disoccupati in ogni campione. 2. Errore di campionamento. Questo tipo di errore detto anche sistematico è più difficile da individuare e produce in genere stime distorte cioè con un bias. Ad esempio se si sceglie un campione da un elenco telefonico, si escludono automaticamente tutti coloro che non possiedono un telefono producendo una stima distorta. Errori di questo tipo sono legati al modo sbagliato con cui viene scelto il campione. 7.1. CAMPIONAMENTO 103 3. Errori non dovuti al campionamento. Questi sono errori che non sono dovuti al modo con cui è selezionato il campione. Ad esempio: le domande possono essere poste in modo scorretto e che possono essere interpretate in modo sbagliato dai rispondenti. Oppure gli intervistati possono di proposito rispondere in maniera diversa da ciò che pensano. Questo ad esempio succede spesso nelle elezioni in cui i voti ai partiti di estrema destra sono spesso sottostimati negli exit pool perchè all’uscita del seggio colui che ha votato un tale partito non lo rileva agli intervistatori. Altri errori di questo tipo sono ad esempio quelli dovuti alla codificazione o digitalizzazione delle risposte. Per ridurre questo tipo di errori vi sono corsi interi nei corsi di laurea di statistica per cui non possiamo pretendere di essere esaustivi qui. Ci basta però dare due regole di base che devono sempre essere applicate. Per tutto il resto si supporrà di avere dei campioni scelti in modo appropriato. La prima regola è che ogni elemento della popolazione deve avere la stessa probabilità di essere selezionato come elemento del campione. Si deve perciò immaginare tutte le unità di una popolazione come delle palline inserite in una grande urna e la scelta del campione consiste nell’estrarre un certo numero di palline da quest’urna. In questo caso ogni pallina ha la stessa probabilità di essere selezionata. Un campione ottenuto in questo modo si chiama campione casuale semplice. L’altra regola è che il campione deve essere stratificato. Questo tipo di campionamento deve essere utilizzato quando si sa che vi sono diversi gruppi in una popolazione diversi tra loro. Ad esempio la stratificazione può avvenire per età o per regione di residenza o per genere. Una questione di cui non abbiamo ancora parlato ma che è fondamentale in tutta la teoria è la grandezza del campionaria: quando deve essere grande un campione? La scelta dell’ampiezza del campione dipende in generale dai seguenti fattori: 1. La variabilità tra i membri della popolazione. Se in una popolazione è presente una grande variabilità allora il campione deve essere grande. Per capire questo fatto pensiamo invece ad una popolazione dove la variabile di interesse non varia affatto sugli elementi della popolazione, cioè è costante. In questo caso per stimare questa caratteristica basterebbe solo osservarla su un elemento. Basterebbe un campione di ampiezza campionaria n = 1, e la stima sarebbe perfetta. 2. Il livello di precisione necessario alla stima. Più abbiamo bisogno di stime precise più il campione deve essere numeroso. Vedremo che il miglioramento nella precisione della stima non varia uniformemente con l’aumentare della numerosità del campione su cui si basa la stima. 104 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE 3. Costi di campionamento. Intervistare tante persone costa in generale molto non solo in termini di costo vero e proprio ma anche di tempo. Occorre valutare bene i benefici che se ne ricavano prima di selezionare campioni troppo grandi con un costo non sostenibile. 7.2 Dalla popolazione al campione: il caso della media Il titolo della sezione costituisce il viaggio di andata del titolo del capitolo. Vedremo come è fatta la distribuzione della media campionaria. Consideriamo la popolazione femminile in età fertile. Siamo interessati al numero medio di figli che una donna ha in questa popolazione. Supponiamo di aver estratto diversi campioni di numerosità 5 da questa popolazione. I campioni sono riportati nella tabella seguente Campione 1 2 3 4 5 numero di figli 0 2 2 1 1 0 3 0 2 1 1 2 0 2 2 0 2 4 1 0 3 1 2 0 2 x̄ 1.2 1.2 1.4 1.4 1.6 s 0.83 1.30 0.89 1.67 1.14 La penultima colonna della tabella riporta la media del numero di figli calcolato in ogni campione. Le medie di questi diversi campioni sono le medie campionarie. Se i campioni sono stati scelti in modo corretto la maggior parte delle medie campionarie sarà molto vicina alla media della popolazione (il parametro incognito) ma comunque qualcuna di queste medie avrà un valore che si discosta dalla media della popolazione. Se calcoliamo la media delle medie otteniamo ¯= x̄ 1.2 + 1.2 + 1.4 + 1.4 + 1.6 = 1.36. 5 ¯ la media delle medie (quante medie!) Questo numero Si noti che abbiamo indicato con x̄ possiamo dire che è la migliore stima che possiamo dare della media della popolazione. consideriamo adesso lo scarto quadratico medio delle medie osservate sui 5 campioni r (1.2 − 1.36)2 + (1.2 − 1.36)2 + (1.4 − 1.36)2 + (1.4 − 1.36)2 + (1.6 − 1.36)2 sx̄ = 4 = 0.167 Si noti che questa variabilità è molto più piccola della variabilità della popolazione che può essere stimata calcolando la media delle standard deviation in ogni campione (riportata nell’ultima colonna della tabella) che è pari a 1.17. Questo non è dovuto al caso ma è una proprietà della media campionaria che si può riassumere nei due seguenti fatti: 1. La media della media campionaria è uguale alla media della popolazione. 7.2. DALLA POPOLAZIONE AL CAMPIONE: IL CASO DELLA MEDIA 105 2. Lo scarto quadratico medio della media campionaria è uguale allo scarto quadratico medio della popolazione diviso per la radice quadrata della numerosità campionaria. In formula la seconda proprietà si può scrivere, se denotiamo con sigma lo s.q.m. della popolazione e con n la numerosità campionaria, come σ σx̄ = √ . n Accanto a questi due fatti abbiamo un risultato ancora più interessante, al punto da essere noto come teorema fondamentale della statistica. Tale teorema ci assicura che se il campione è scelto in maniera appropriata non solo valgono i due fatti appena detti ma la distribuzione della media campionaria è normale. Teorema 7.2.1 (Fondamentale della statistica). Se abbiamo un campione casuale di ampiezza n estratto da una popolazione con media µ e scarto quadratico medio σ allora la media campionaria ha una distribuzione che per n elevato è approssimativamente una normale con la media µ e lo scarto quadratico medio pari a √σn . Il teorema fondamentale della statistica in sostanza ci dice che quando stimiamo il valore medio di una quantità che ci interessa con la media campionaria, quella stima ha una distribuzione Nomale sempre, qualunque sia la popolazione di riferimento. Questo ci permetterà di valutare gli errori che commettiamo usando quella stima. Inoltre si capisce il ruolo fondamentale della distribuzione Normale. Il valore osservato sugli n elementi del campione della media campionaria x̄, è solo uno dei possibili valori che la media campionaria avrebbe potuto assumere, se avessimo estratto un altro campione. Se pensiamo alla distribuzione di tutti i possibili valori della media √ campionaria, questa distribuzione è normale con media µ e scarto quadratico medio σ/ n. Allora possiamo calcolare lo z-score, il valore standardizzato della media campionaria z= x̄ − µ √σ n Gli z- score della media campionaria hanno una distribuzione normale standardizzata. Vediamo un’applicazione nel seguente esempio Esempio 7.2.2. Si consideri la popolazione costituita da tutti i lavoratori di imprese di pulizia. Si supponga che per tale popolazione valgano i seguenti fatti: • Valore medio paga oraria netta: 4.60 euro • Deviazione standard: 0.40 centesimi di euro Tenendo presente il teorema fondamentale della statistica rispondere alle domande seguenti. 106 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE 1. Qual è la probabilità che un singolo lavoratore scelto a caso guadagni meno di 4.50 euro all’ora? 2. Qual è la probabilità che la media della paga oraria di un campione casuale di 20 lavoratori scelti a caso sia meno di 4.50 euro all’ora? 3. Qual è la probabilità che la media della paga oraria di un campione casuale di 50 lavoratori scelti a caso sia meno di 4.50 euro all’ora? 4. Perché le risposte ai quesiti precedenti sono diverse? Per rispondere alla prima domanda dobbiamo sapere la distribuzione della paga oraria per un lavoratore. Denotiamo con X la paga oraria per un lavoratore. Sappiamo dal testo che X ha una distribuzione normale con media µ = 4.60 e scarto quadratico medio σ = 0.40. Per calcolare la probabilità richiesta dobbiamo calcolare l’area sotto la curva normale con media µ = 4.60 e scarto quadratico medio σ = 0.40 da −∞ a 4.50. Ovvero dobbiamo calcolare l’area sotto la curva normale standardizzata da −∞ allo z score di 4.50. Lo z-score cercato è dato da z= 4.50 − 4.60 = −0.25. 0.40 L’area cercata è uguale all’area da 0.25 a +∞ e quindi dalla Tavola A.2 ricaviamo in corrispondenza di 0.25 un area pari a 0.401. Concludiamo quindi che la probabilità che un lavoratore abbia una paga inferiore a 4.50 euro è del 40.1%, ovvero se pensiamo all’intera popolazione dei lavoratori delle imprese di pulizie, il 40.1% di essi ha una paga inferiore ai 4.50 euro all’ora. Per rispondere alla seconda domanda il teorema fondamentale della statistica ci dice che la media delle paghe di n = 20 lavoratori ha una distribuzione normale con media 0.40 mu = 4.60 e scarto quadratico medio σ = √ = 0.089. La probbilità cercata è quindi 20 data dall’area sotto la curva nomale con media mu = 4.60 e scarto quadratico medio σ = 0.089 da −∞ a 4.50, ovvero l’area l’area sotto la curva normale standardizzata da −∞ allo z score di 4.50. Lo z-score cercato è dato da z= 4.50 − 4.60 0.40 √ 20 = −0.10 = −1.12. 0.089 L’area cercata è uguale all’area da 1.12 a +∞ e quindi dalla Tavola A.2 ricaviamo in corrispondenza di 1.12 un area pari a 0.131. Concludiamo quindi che la probabilità che la paga media di 20 lavoratori sia inferiore a 4.50 euro è del 13.1%. In modo analogo si risponde alla terza domanda. In questo caso lo z-score va calcolato rispetto allo scarto quadratico medio della media fatta su n = 50 lavoratori. Abbiamo z= 4.50 − 4.60 0.40 √ 50 = −0.10 = −1.77. 0.0566 7.2. DALLA POPOLAZIONE AL CAMPIONE: IL CASO DELLA MEDIA 107 L’area cercata è 0.038. Concludiamo quindi che la probabilità che la paga media di 50 lavoratori sia inferiore a 4.50 euro è del 3.8%. Le risposte ai quesiti sono diverse perché diverso è lo scarto quadratico medio delle grandezze considerate. La media campionaria ha lo scarto quadratico medio che diventa sempre minore al crescere di n. 108 CAPITOLO 7. DAL CAMPIONE ALLA POPOLAZIONE Capitolo 8 Intervalli di confidenza Possiamo riassumere quanto detto nel capitolo precedente. Abbiamo una popolazione ed una informazione da ricercare su questa popolazione. L’informazione da ricercare supponiamo sia la media di una certa variabile di interesse (ad esempio ci interessa il numero medio di figli di una donna italiana). La vera media che ricerchiamo è il parametro di interesse che non è noto. Non potendo conoscere il vero valore del parametro (qual è il vero valore del numero medio di figli che ha una donna italiana? non lo potremo mai conoscere) ne facciamo una stima. Scelto propriamente un campione dalla popolazione, rileviamo per ogni elemento del campione il valore della variabile di interesse e ne calcoliamo la media aritmetica. Questo valore della media aritmetica ottenuta dai valori rilevati su ogni elemento del campione è la nostra stima del parametro incognito. Quello descritto sopra è come usualmente si procede alla stima puntuale della media incognita della variabile di interesse in una popolazione. Per un momento pensiamo però di poter agire in un altro modo e di poter effettuare la scelta di quanti campioni voglio dalla mia popolazione. Abbiamo infatti osservato che se avessimo scelto un altro campione dalla popolazione e avessimo rilevato su ogni elemento di questo campione la variabile di interesse e avessimo calcolato la media, avremmo osservato un altro valore per la media aritmetica e quindi avremmo ottenuto un’altra stima per il parametro incognito. Possiamo immaginare di scegliere tantissimi campioni e calcolare la media aritmetica dei valori osservati in ogni campione e otterremo tantissime stime per il nostro valore osservato. Quello che abbiamo concluso nel precedente capitolo è che questi tantissimi valori hanno una distribuzione normale con media la stessa media della variabile di interesse sulla popolazione (e quindi non nota) ma uno scarto quadratico medio molto minore, pari allo scarto quadratico medio della variabile di interessa nella popolazione diviso per radice quadrata di n, il numero di osservazioni nel campione. 109 110 8.1 CAPITOLO 8. INTERVALLI DI CONFIDENZA La media campionaria Ricordiamo come abbiamo denotato la media e lo scarto quadratico medio di una normale standardizzata nella Sezione 6.2. Abbiamo denotato la media con µ e lo scarto quadratico medio con σ. Possiamo immaginare che la media della nostra variabile di interesse sia µ nella popolazione e lo s.q.m sia σ entrambi incogniti. Ora pensiamo alla variabile media campionaria e a tutti i possibili valori che può assumere nei diversi campioni tutti di numerosità n. Il teorema fondamentale della statistica ci dice che questa variabile media campionaria, se n è grande, ha una distribuzione normale, con media che è ancora µ e scarto quadratico medio che è invece pari a √σn . Per tornare all’esempio del numero di figli medio per una donna italiana tale numero non lo conosciamo e lo indichiamo con µ la media incognita della popolazione. Prendiamo adesso un campione di n = 5 donne (il primo dell’esempio) e stimiamo il valore incognito con la media del numero di figli calcolato per questo campione x̄ = 1.2. Quindi abbiamo una stima per il parametro µ e tale stima è 1.2. Un altro risultato molto importante della statistica ci dice che tale stima è la migliore che possiamo ottenere per la media. Chiunque di voi potrà obbiettare che se avessimo preso un altro campione e avessimo osservato un altro valore per la media (ad esempio il terzo campione) allora anche quest’altro valore è la stima migliore che potevamo dare per la media. Ad esempio per il terzo campione abbiamo x̄ = 1.4. Questo fatto potrebbe sembrare assurdo perchè ho due stime diverse per la media incognita µ e tutte e due sono la migliore stima possibile! Questo fatto non è un paradosso se pensiamo che nella realtà la media campionaria ha una distribuzione normale e quindi se ne osservo più di una esse saranno diverse secondo la distribuzione normale. La media campionaria è il migliore stimatore puntuale per la media, cioè è la migliore stima costituita da un solo numero. Teorema 8.1.1. La media campionaria è la migliore stima puntuale per la media di una popolazione. Quello che invece studiamo nella prossima sezione è come dare un intervallo di valori possibili per la media incognita della popolazione. 8.2 Gli ingredienti e la ricetta Come dicevamo a volte invece che dare un solo numero è meglio dare un intervallo di valori per la media incognita di una popolazione. Se vogliamo stimare la percentuale di votanti per un partito in un sistema bipolare, un conto è dire, stimo la percentuale di votanti per il partito SX con il 48%, oppure dire che la percentuale di votanti per il partito SX è un valore nell’intervallo (45%, 51%). 8.2. GLI INGREDIENTI E LA RICETTA 111 Per il Teorema 8.1.1 l’intervallo di confidenza sarà costruito attorno alla media campionaria. Quindi il primo ingrediente è la media campionaria. L’ingrediente fondamentale per gli intervalli di confidenza è invece dedotto dal livello di confidenza. Questo livello esprime il grado di confidenza col quale confido che il vero valore del parametro stia nell’intervallo che fornisco. Si possono costruire intervalli di confidenza a qualunque livello di confidenza, qui considereremo i livelli 95% e 99% che sono i più utilizzati nei fenomeni sociali, ma credo che tutti saranno in grado di dedurre poi come costruire un intervallo di confidenza a livello 98% o al 99.9%. Per dedurre questo ingrediente fondamentale torniamo un attimo al teorema fondamentale della statistica e supponiamo che lo scarto quadratico medio σ sia noto. Sappiamo che la media campionaria ha distribuzione normale con media µ e scarto quadratico medio √σ , e quindi gli score della media campionaria z = x̄−µ √ hanno una distribuzione normale n σ/ n standardizzata. Allora se cerchiamo quei valori sotto una curva normale standardizzata per cui l’area della parte centrale della distribuzione tra quei valori sia il 95% del totale (area tratteggiata nella Figura 8.1), dalle tavole troviamo che questi valori sono −1.96 quello a sinistra, e 1.96 quello a destra. Allora possiamo spingerci a sinistra della media Area 0.95 −1.96 0 1.96 Figura 8.1: L’area tratteggiata vale 0.95. Entrambe le aree non tratteggiate sono 0.025. campionaria per il fattore −1.96 moltiplicato per la standard deviation divisa per radice quadrata di n e a destra della stessa quantità positiva. In formula avremo che σ σ Intervallo di confidenza al 95% = x̄ − 1.96 √ , x̄ + 1.96 √ . n n Possiamo cioè dire che µ∈ σ σ x̄ − 1.96 √ , x̄ + 1.96 √ n n 112 CAPITOLO 8. INTERVALLI DI CONFIDENZA con un livello di confidenza (o livello di fiducia) pari al 95%. Se lo scarto quadratico medio non è noto, lo si può stimare con s e se n è sufficientemente grande (in genere maggiore di 30) possiamo ancora scrivere l’intervallo di confidenza come s s √ √ . , x̄ + 1.96 Intervallo di confidenza al 95% = x̄ − 1.96 n n Esempio 8.2.1. Consideriamo l’età del primo bacio dell’esempio considerato nella Sezione 2.7.3. L’età media del primo bacio in un campione di numerosità n = 42 è x̄ = 14. Lo scarto quadratico medio è s = 2.41. La formula per l’intervallo di confidenza al 95% è 2.41 2.41 I.C. al 95% = 14 − 1.96 · √ , 14 + 1.96 · √ 42 42 2.41 = 0.37 questa è la stima dello scarto quadratico medio della Facendo i conti abbiamo √ 42 media campionaria. Poi ricaviamo 1.96 · 0.37 = 0.73. Questa è l’ampiezza (o meglio la semi ampiezza) dell’intervallo di confidenza. Quindi possiamo concludere che I.C. al 95% = (14 − 0.73, 14 + 0.73) = (13.27, 14.73) Si noti che in termini di anni 0.73 sono circa 9 mesi, e quindi l’intervallo di confidenza è ampio 18 mesi. Il primo bacio viene dato tra i 13 anni e 3 mesi e i 14 anni e 9 mesi con una confidenza del 95%. Torniamo ancora un attimo sul significato del livello di confidenza. 95% significa che se fosse possibile ripetere questo esperimento un numero grande di volte saremmo confidenti nel credere che tra gli intervalli calcolati circa il 95% contiene il vero valore del parametro e solo 5 su cento, ovvero uno su venti non lo contiene. Ricapitolando possiamo dire che per calcolare l’intervallo di confidenza al 95% servono questi ingredienti: 1. La numerosità campionaria n. 2. La media campionaria x̄. 3. Lo scarto quadratico medio σ. 4. Il valore 1.96. Con questi ingredienti ricaviamo l’intervallo di confidenza per la media incognita della popolazione come σ σ √ √ , x̄ + 1.96 . I.C. al 95% = x̄ − 1.96 n n Se σ non è noto e n è sufficientemente grande possiamo sostituire a σ la sua stimas. 8.2. GLI INGREDIENTI E LA RICETTA 113 Se invece che al 95% volessimo l’intervallo di confidenza al 99%, dobbiamo trovare quei valori sotto una curva normale standardizzata per cui l’area della parte centrale della distribuzione tra quei valori sia il 99% del totale (area tratteggiata nella Figura 8.2). Dalle tavole troviamo che questi valori sono −2.575 quello a sinistra, e 2.575 quello a destra. Area 0.99 −2.575 0 2.575 Figura 8.2: L’area tratteggiata vale 0.99. Entrambe le aree non tratteggiate sono 0.005. Quindi ripetendo i ragionamenti sopra l’intervallo di confidenza al 99% per la media incognita di una popolazione è s s I.C. al 99% = x̄ − 2.575 √ , x̄ + 2.575 √ . n n Gli ingredienti per ottenere questo intervallo sono 1. La numerosità campionaria n. 2. La media campionaria x̄. 3. Lo scarto quadratico medio σ. 4. Il valore 2.575. Come si può notare sono gli stessi ingredienti per l’intervallo di confidenza al 95% tranne l’ultimo valore. Da questo deduciamo che l’intervallo di confidenza al 99% se gli altri ingredienti sono uguali (in particolare se il campione è lo stesso) sarà più ampio di quello al 95%. Anche in questo caso se σ non è noto e n è sufficientemente elevato possiamo sostituire a sigma la sua stima s. 114 CAPITOLO 8. INTERVALLI DI CONFIDENZA Ad esempio tornando all’esempio precedente l’intervallo di confidenza al 99% per l’età media in cui gli uomini danno il primo bacio è 2.41 2.41 = (14 − 0.96, 14 + 0.96) I.C. al 95% = 14 − 2.575 · √ , 14 + 2.575 · √ 42 42 = (13.04, 14.96). Siamo confidenti al 99% che l’età in cui un ragazzo da il primo bacio è compreso tra 13 anni e 15 anni. In questo caso siamo più confidenti ma l’ampiezza dell’intervallo è più grande: quasi due anni (abbiamo approssimato 0.96 di un anno con 1). A parità di tute le condizioni (n, campione, quindi stessi valori per la media x̄ e per lo s.q.m. s calcolati sul campione) se si cambia il livello di confidenza prendendone uno più grande (voglio essere più confidente che il vero valore sia nell’intervallo che fornisco, quindi ad esempio passo dal 95% con la possibilità di sbagliare del 5% al 99% con la possibilità di sbagliare solo dell1%) l’intervallo che fornisco non può che essere più grande. Poiché √ l’ampiezza dell’intervallo dipende dal fattore n a denominatore, per avere intervalli più precisi (cioè più stretti) a parità di livello di confidenza dobbiamo aumentare la numerosità campionaria. Lo vediamo in questo esempio. Esercizio 8.2.2. Ad un campione di 40 studenti è stato chiesto di dare un voto da 1 a 20 all’operato del primo ministro Letta nei primi 6 mesi del suo mandato su una scala da 1 a 20. La media è stata 12.1 con standard deviation di 3.5. 1. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza del 95%. 2. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza del 99%. Questo intervallo come è rispetto al precedente? Più ampio o più stretto? Perchè? 3. Supponete che la stessa medio e lo stesso s.q.m. sono stati osservati su un campione di 100 studenti. Stimare il voto dato a Letta da tutti gli studenti con un intervallo di confidenza del 95%. Questo intervallo come è rispetto al primo intervallo? Più ampio o più stretto? Perchè? Esercizio 8.2.3. Con riferimento ai dati dell’esempio della sezione 2.7.3, calcolare Intervallo di confidenza al 95% per l’età del primo rapporto e confrontarla con quella calcolata per il primo bacio. Quale dei due intervalli è più ampio? I due intervalli si sovrappongono? Capitolo 9 La proporzione Fino ad ora abbiamo considerato variabili continue dove la statistica considerata per lo studio era la media campionaria. In questo capitolo consideriamo invece la proporzione di un certo evento di interesse valutata su un campione rappresentativo di una popolazione. Ad esempio possiamo essere interessati alla proporzione di studenti maschi nella facoltà di lettere e letterature straniere, o alla proporzione di fumatori nella popolazione italiana o ancora alla proporzione di lavoratori della provincia di Bergamo con un reddito inferiore a 20000 euro all’anno. 9.1 Il modello In tutti e tre gli esempi di prima possiamo immaginare la popolazione in cui l’interesse è per una caratteristica (che viene codificata come successo: il fatto di essere maschi nella popolazione degli studenti di lettere e letterature straniere, il fatto di essere fumatori nella popolazione degli italiani, il fatto di essere un lavoratore bergamasco con un reddito di meno di 20000 euro all’anno). Indichiamo con π, la lettera pi greca, la vera proporzione di successo nella popolazione in oggetto. Se vogliamo avere qualche informazione su questo valore incognito π possiamo scegliere in modo rappresentativo un campione di n elementi nella popolazione e vedere (contare) quante volte si realizza il successo. Ad esempio possiamo scegliere un campione di 40 studenti e studentesse dell’Università di Bergamo e contare i maschi. Oppure un campione di 6000 italiani e contare i fumatori, oppure ancora un campione di 500 lavoratori della provincia di Bergamo e contare quelli che hanno un reddito inferiore ai 20000 euro. In tutti questi casi scegliamo un campione di ampiezza n e codifichiamo con 1 il successo e con 0 l’insuccesso. Registriamo quindi 1 ogni volta che sull’unità del campione osserviamo il successo e 0 ogni volta che registriamo insuccesso. Se indichiamo con k il numero di successi avremo che la proporzione di successi nel campione è data dal rapporto tra il 115 116 CAPITOLO 9. LA PROPORZIONE numero dei successi e il numero delle unità nel campione 1| + 1 + . . . + 0} {z. . . + 1} +0 | +{z p̂ = k volte n−k volte n = k . n La quantità p̂ = nk è detta proporzione campionaria e costituisce la grandezza fondamentale per l’inferenza sulla proporzione vera π. In particolare vale il seguente risultato, analogo a quello della media campionaria per la media incognita µ. Teorema 9.1.1. p̂ è la migliore stima puntuale per π basata su un campione di numerosità n. In effetti se si guarda a come è definita p̂, essa è una media campionaria di n grandezze x1 , x2 , . . . , xn , che possono solo assumere il valore 1 o il valore 0. Quindi, ad esempio, stimeremo la proporzione vera di studenti maschi alla facoltà di lettere con la proporzione campionaria valutata sul campione di 40 studenti. Naturalmente sarà preferibile fornire un intervallo come stima fornendo anche l’informazione su quanto siamo confidenti che il vero valore stia nell’intervallo fornito come stima. Per costruire quindi l’intervallo di confidenza con un certo grado di fiducia abbiamo il seguente risultato che deriva dal teorema fondamentale della statistica. Teorema 9.1.2. Se n è grande la distribuzione di p̂ è approssimativamente normale con q π(1−π) . media π e scarto quadratico medio n L’importanza di questo risultato è evidente. Se abbiamo qualche informazione sulla proporzione di una evento di interesse in una popolazione e osserviamo su un campione di numerosità n una certa proporzione campionaria p̂, possiamo, dopo aver calcolato lo score di questa proporzione campionaria, valutare se è un valore attendibile per la popolazione che stiamo considerando. Prima quindi di vedere come costruire l’intervallo di confidenza per la proporzione incognita π, vediamo questo esempio. Esempio 9.1.3. Nell’esame di statistica la proporzione di promossi ad un generico appello è stata comunicata dalla docente ed è del 70%. Durante l’appello per gli studenti fuori corso si presentano 17 studenti e 10 passano l’esame di statistica. Possiamo dire che gli studenti che si sono presentati all’appello per i fuori corso sono particolarmente non bravi? Al primo appello utile dopo la fine del corso si presentano 92 studenti e 80 passano l’esame. Cosa possiamo concludere per questi studenti? La percentuale di studenti che passa l’esame all’appello riservato agli studenti fuori corso è p̂ = 10 17 = 0.59. Lo score di questa proporzione lo ottengo calcolando prima lo 9.2. INTERVALLO DI CONFIDENZA PER LA PROPORZIONE π 117 standard error per la proporzione di studenti che passano l’esame di statistica in questo q 0.70∗0.30 = 0.11. Quindi lo score è appello. Questo è dato da 17 z= 0.59 − 0.70 = −1 0.11 Calcolando l’area sotto la distribuzione normale standardizzata prima di -1 ho un’indicazione relativa alla probabilità con cui avrei potuto osservare un numero di studenti che ha passato l’esame inferiore a quello che ho realmente osservato. Dalle tavole ricavo che il valore della propabilità cercata è circa 0.16. Quindi con una probabilità di circa il 16 % avrei potuto osservare un numero inferiore di successi. Quindi concludo che gli studenti fuori corso non sono particolarmente non bravi. Veniamo al primo appello utile dopo aver seguito il corso. La proporzione di studenti q 0.70∗0.30 = 0.05 La probabilità che ha passato l’esame è p̂ = 0.87. Lo standard error è 92 di osservare più di 80 studenti che passano l’esame su 92 è 0.0003 cioè solo in 3 appelli su 10000 avrei osservato una simile percentuale di successi, quindi sono particolarmente preparati gli studenti che sostengono il primo appello utile. Esercizio 9.1.4. Due sondaggi rappresentativi a livello nazionale sono stati condotti nel 2011 e 2012 su un campione totale di 6167 adulti. La percentuale dei fumatori in Italia diminuisce, passando dal 22.7% nel 2011 al 20.8% nel 2012. Gli uomini fumano più delle donne: 25.3% contro il 18.4%. 6 Su un campione di 50 studenti presenti oggi in aula osserviamo p̂ = 50 = 0.12. 1. Calcolare la probabilità che un campione abbia la proporzione più bassa di quella osservata. 9.2 Intervallo di confidenza per la proporzione π Quando non si possiede nessuna informazione sulla popolazione e vogliamo stimare la proporzione incognita di un certo evento che rappresenta il successo, possiamo invece che fornire solo la stima puntuale, valutata come la proporzione campionaria p̂ del numero di successi in n osservazioni, fornire un intervallo di confidenza per la proporzione incognita π. L’intervallo di confidenza al 95% di fiducia è dato dalla seguente formula: ! r r p̂(1 − p̂) p̂(1 − p̂) I.C al 95% = p̂ − 1.96 ; p̂ + 1.96 . n n Si osservi che nello standar error (o scarto quadratico medio di p̂) non compare il valore incognito π (e come potrebbe: non ne conosciamo il valore, ne stiamo cercando una stima con un intervallo di confidenza!), ma compare invece la miglior stima di π dove nella formula dello standard error compariva π. Si tenga poi presente che tale intervallo è 118 CAPITOLO 9. LA PROPORZIONE un intervallo che è tanto migliore tanto più è grande n. In modo analogo l’intervallo di confidenza al 99% di fiducia è dato dalla seguente formula: ! r r p̂(1 − p̂) p̂(1 − p̂) ; p̂ + 2.575 I.C al 99% = p̂ − 2.575 . (9.1) n n Esercizio 9.2.1. Supponendo che il campione osservato nell’ Esercizio 9.1.4, sia rappresentativo della popolazione italiana, sulla base del risultato campionario rilevato, calcolare l’intervallo di confidenza a livello 95% per la proporzione di fumatori in Italia. Tale intervallo contiene la proporzione fornita dallo studio per il 2012? Esercizio 9.2.2. La seguente tabella riporta i risultati pubblicati sui quotidiani The Indipendent e The Daily Telegraph nel 1992 sulle intenzioni di voto dei britannici. Fonte The Indipendent The Daily Telegraph n 1746 2478 Intenzione di voto (in %) Consevatori Laburisti 39.0 42.0 38.5 38.0 1. Calcolare l’intervallo di confidenza per le quattro proporzioni. 2. Gli intervalli per la proporzione di votanti per i conservatori e per i laburisti dei due quotidiani si sovrappongono? 3. Potete concludere da questi dati chi sarà il vincitore delle elezioni e con che distacco? 4. Fare una ricerca per trovare il vincitore e il distacco. L’esercizio non fornisce il livello di confidenza. In questi casi si assume il livello 95%. Applicando la formula (9.1) otteniamo i seguenti intervalli per i dati forniti dai due quotidiani: 1. Partito conservatore dati da The Indipendent: I.C al 95% = (0.380, 0.400) = (36.7%; 41.3%) 2. Partito laburista dati da The Indipendent: I.C al 95% = (0.397, 0.443) = (39.7%; 44.3%) 3. Partito conservatore dati da The Daily Telegraph: I.C al 95% = (0.366, 0.404) = (36.6%; 40.4%) 9.2. INTERVALLO DI CONFIDENZA PER LA PROPORZIONE π 119 4. Partito laburista dati da The Daily Telegraph: I.C al 95% = (0.361, 0.399) = (36.1%; 39.9%) Si noti come gli intervalli calcolati per il The Daily Telegraph siano più precisi, cioè più stretti, hanno un’ampiezza di 0.038, cioè 3.8 punti percentuali, rispetto a quelli calcolati per il The Indipendent, che hanno un’ampiezza di 0.046, cioè di 4.6 punti percentuali. Questo è dovuto alla maggiore numerosità del campione. Il distacco stimato dal The Indipendent si ottiene facendo la differenza delle due stime, e quindi è di tre punti percentuali, mentre la stima data dal The Daily Telegraph è praticamente i due partiti con la stessa percentuale di voti, stimando la differenza con solo mezzo punto percentuale. I due intervalli calcolati per il giornale The Indipendent non si intersecano e danno la vittoria al partito laburista. I due intervalli calcolati per il giornale The Daily Telegraph si intersecano e sembrerebbe in leggero vantaggio il partito conservatore. I risultati delle elezioni smentirono quasi tutti i sondaggi pre elettorali, soprattutto per il distacco tra le percentuali dei due partiti. 120 CAPITOLO 9. LA PROPORZIONE Capitolo 10 Test statistici I test statistici (detti anche verifica di ipotesi) occupano un posto di rilievo in tutta l’inferenza statistica. Insieme alla stima costituiscono il fulcro di tutta l’inferenza statistica. Se nel problema della stima si stratta di trovare un valore plausibile per i parametri incogniti di una popolazione (o meglio del modello sulla popolazione), nella verifica d’ipotesi si tratta di formulare una affermazione sul parametro incognito. La statistica ci fornisce gli strumenti per arrivare ad una scelta riguardo a questa ipotesi sul parametro (se accettarla o rifiutarla) quantificando il rischio connesso a questa scelta. 10.1 Verifica d’ipotesi: la teoria Supponiamo di avere un modello su una popolazione d’interesse e che questo modello dipenda da un parametro generico θ che è il nostro interesse. (Ad esempio un modello normale con il parametro di interesse la media µ). Il nostro interesse per il parametro è costituito da un’affermazione sul possibile valore di questo parametro che noi riteniamo plausibile. Questo valore dichiarato per il parametro è sottoposto ad una verifica basata sulle osservazioni sperimentali di un campione scelto dalla popolazione sulla quale è stata fatta l’affermazione riguardante il valore del parametro. Definizione 10.1.1. Una ipotesi statistica è una affermazione su θ. L’ipotesi sottoposta a verifica sperimentale viene di solito chiamata ipotesi nulla ed indicata con H0 . Di solito H0 specifica il valore di un parametro della popolazione indicato genericamente con θ. Quindi H0 : θ = θ0 dove θ0 è un valore fissato. Ad esempio se il parametro della popolazione da sottoporre a verifica è la media µ scriveremo H0 : µ = µ0 dove µ0 è un valore della media specificato e noto. 121 122 CAPITOLO 10. TEST STATISTICI Definizione 10.1.2. Un test statistico è una regola per decidere sulla compatibilità dei dati con l’affermazione definita dall’ipotesi nulla. Un test statistico è come un sistema d’allarme che suona in presenza di dati non compatibili con l’ipotesi nulla. Come tutti i sistemi di allarme il test statistico può produrre falsi allarmi o dar luogo a mancati allarmi. Un test conduce sempre a due sole alternative: • rifiutiamo l’ipotesi nulla H0 • non rifiutiamo l’ipotesi nulla H0 Tale decisione viene presa sulla base delle osservazioni x1 , . . . , xn , di un campione casuale di ampiezza n proveniente dalla popolazione. Sulla base di queste osservazioni prenderemo la nostra decisione tramite il valore assunto da quella che è chiamata statistica test e che sarà diversa per ogni verifica d’ipotesi. La statistica test ci definisce una regola per cui se la statistica test assume certi valori, che appartengono ad una regione detta regione di rifiuto si rifiuterà l’ipotesi nulla, se invece assume valori che non appartengono a tale regione, non si potrà rifiutare l’ipotesi nulla. Si tenga però presente che accettare l’ipotesi nulla non significa che questa sia vera. Significa che la riteniamo plausibile sulla base delle nostre osservazioni. Noi non potremo mai sapere qual è il vero valore del parametro. Trattandosi di un problema di decisione ogni decisione porta con sè la possibilità di commettere un errore facendo la scelta sbagliata. Se i dati portano a rifiutare un’ipotesi nulla che è vera si commette un errore chiamato di primo tipo. La probabilità di commettere questo errore viene indicata con α: α = P (rifiutare H0 |H0 è vera). L’errore di primo tipo α è chiamato anche livello di significatività del test. Nella pratica si deve scegliere la regione di rifiuto in modo da garantire un pre-assegnato livello di significatività α e in modo da minimizzare la probabilità dell’altro tipo di errore che si può commettere: l’errore di secondo tipo indicato con β. Se i dati portano ad accettare una ipotesi nulla che è falsa si commette un errore di secondo tipo. La probabilità di questo errore viene indicata con β: β = P (non rifiutare H0 |H0 è falsa). I due tipi di errore che si possono commettere in relazione alla realtà sono riassunti nella seguente tabella 10.1. VERIFICA D’IPOTESI: LA TEORIA Decisione→ Realtà↓ H0 vera H0 falsa 123 Rifiuto H0 Non Rifuto H0 errore Io tipo α nessun errore (OK) 1−β nessun errore (OK) 1−α errore di IIo tipo β I test che presenteremo nella prossima sezione sono tali da fissare ad un livello che si ritiene soddisfacente l’errore di primo tipo (nei fenomeni di tipo sociale di solito α = 0.05 o α = 0.01) e hanno il più piccolo errore di secondo tipo. Il nome errore di primo tipo ha origine storica perchè rappresenta l’errore più grave che si possa commettere dal punto di vista di chi sottoporne il parametro alla verifica. Ad esempio nell’ottica dell’allarme l’errore più grave è quello del mancato allarme, perchè stanno rubando la macchina (qui H0 vera significa che il ladro sta agendo) ma l’allarme non suona (rifiuto H0 , i dati mi portano a non credere all’ipotesi H0 ). Un altro modo di interpretare i test consiste nel considerare un test come un processo fatto ad un imputato. L’imputato è considerato innocente (ipotesi nulla). Se le prove portate sono tali da far emettere alla giuria un verdetto di colpevolezza, l’imputato viene condannato. (si rifiuta l’ipotesi nulla). Si noti che nel caso le prove non siano schiaccianti, e quindi non si possa condannare l’imputato (non si può rifiutare l’ipotesi nulla) questo non significa che l’imputato sia innocente. Accettare l’ipotesi nulla, o non rifiutarla, non significa che questa sia vera. La decisione se accettare o rifiutare l’ipotesi nulla viene fatta sulla base della determinazione di una regione di rifiuto nella quale può rientrare la statistica test basata sui dati. La regione di rifiuto viene determinata in base all’errore di primo tipo α e in base a quella che viene chiamata ipotesi alternativa e indicata con HA . A volte l’ipotesi alternativa viene indicata anche con H1 . Se H0 è data da θ = θ0 l’ipotesi alternativa potrà essere di tre tipi. • HA : θ 6= θ0 , detta ipotesi alternativa bilaterale; • HA : θ > θ0 , detta ipotesi alternativa unilaterale destra; • HA : θ < θ0 , è detta ipotesi alternativa unilaterale sinistra. A parità di ipotesi nulla diverse ipotesi alternative producono diversi modi di utilizzare i dati sperimentali per verificare l’ipotesi nulla. Nella prossima sezione vedremo come si costruisce la regione di rifiuto per il primo tipo di ipotesi alternativa, che è in un certo senso la più sicura. Per gli altri due tipi di ipotesi occorre prestare più attenzione perchè per applicarli occorre essere ben certi della direzione in cui si è convinti si sia modificato il parametro. Riassumendo per i test statistici occorre: 124 CAPITOLO 10. TEST STATISTICI 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA . 2. Trovare la statistica test per il sistema d’ipotesi. 3. Trovare la regione di rifiuto per il sistema d’ipotesi. 4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o rifiutare H0 . Nelle prossime sezioni vedremo come si applicheranno questi passi a vari problemi di verifica d’ipotesi. 10.2 Verifica d’ipotesi: la pratica Nella pratica la verifica di ipotesi si basa sulla ricerca di statistiche test, che saranno diverse a seconda dei diversi modelli sulla popolazione e dei diversi parametri da sottoporre a verifica. Noi prenderemo in considerazione popolazione con distribuzione normale e saremo interessati a verifiche di ipotesi sulla media nel caso in cui la standard deviation σ sia nota e nel caso in cui non lo sia. L’altro caso che tratteremo sarà la verifica d’ipotesi per la proporzione del successo di un certo evento. 10.2.1 Test per la media di popolazione normale: σ nota Supponiamo di avere un modello normale su una popolazione d’interesse. Ad esempio un’azienda per la ricerca del personale dichiara che i suoi candidati sono dotati di un quoziente intellettivo di 120 con una standard deviation di 10. Quello che in sostanza sta dichiarando l’azienda è che la media µ della sua popolazione normale è 120 e la standard deviation è σ = 10. Si tratta di dichiarazioni sui parametri di una popolazione. Supponiamo ancora che voi vogliate verificare l’affermazione dell’azienda sul fatto che fornisca candidati con un quoziente intellettivo di 120. Quello che dovete fare è impostare un test d’ipotesi per la media della popolazione. In questo caso la popolazione è costituita dai candidati dell’azienda e la media dichiarata è µ0 = 120. In questo caso siamo interessati ad una verifica d’ipotesi sul parametro µ, mentre il parametro σ è considerato un parametro di disturbo che in questo caso è noto. Il primo passo consiste nel scrivere il sistema d’ipotesi: H0 : µ = 120 HA : µ 6= 120 Il secondo passo consiste nel trovare la statistica test. Se dobbiamo verificare la veridicità di una affermazione sul valore di una media sembra abbastanza sensato testarla sul valore della media campionaria calcolata su un campione scelto della popolazione. Quindi dobbiamo avere i dati relativi al quoziente intellettivo di un certo numero n di aspiranti 10.2. VERIFICA D’IPOTESI: LA PRATICA 125 candidati selezionati dall’azienda in questione. I dati sono i seguenti: il quoziente intellettivo medio di n = 36 candidati è stato calcolato e risulta x̄ = 114. L’idea è quella di rifiutare l’ipotesi nulla se lo z score del valore calcolato della media sul campione risulta troppo lontano dal valore zero. Perchè se lo z score assume valori troppo grandi positivi o troppo piccoli negativi vuol dire che riteniamo poco plausibile l’ipotesi nulla. Quindi la statistica test richiesta dal secondo punto è lo z score z= x̄ − µ0 √σ n . Nel caso in considerazione esso vale z= 114 − 120 √10 36 = −3.6. A questo punto per determinare la regione di rifiuto (terzo passo) occorre scegliere una soglia tale per cui se lo z score è oltre tale soglia rifiutiamo l’ipotesi nulla, se non supera tale soglia accettiamo l’ipotesi nulla. Tale soglia che determinerà la regione di rifiuto viene calcolata sulla base dell’errore di primo tipo, o livello del test α. Supponiamo che α = 0.05. Sappiamo che se la popolazione normale ha media 120 solo il 2.5% della popolazione ha uno z score maggiore di 1.96 e solo il 2.5% della popolazione ha uno z score minore di -1.96. Allora se la regione di rifiuto è definita come: R = {z < −1.96 o z > 1.96} , in questo caso la probabilità di rifiutare H0 quando H0 è vera è del 5%. Essa corrisponde all’area tratteggiata nella Figura 10.1. Poiché −3.6 è minore di −1.96, il valore z calcolato appartiene alla regione di rifiuto R e siamo portati a credere che l’ipotesi nulla non sia vera e quindi la conclusione è: rifiutiamo l’ipotesi nulla. E anche il quarto e ultimo punto è stato eseguito. Quindi riassumendo in questo specifico problema i quattro passi sono i seguenti: 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA : H0 : µ = 120 HA : µ 6= 120 2. Trovare la statistica test per il sistema d’ipotesi: z= x̄ − µ0 √σ n = 114 − 120 √10 36 = −3.6. 3. Trovare la regione di rifiuto per il sistema d’ipotesi: R = {z < −1.96 o z > 1.96} 126 CAPITOLO 10. TEST STATISTICI Regione di rifiuto α 2 = 0.025 −3.6 −1.96 α 2 = 0.025 0 1.96 Figura 10.1: Entrambe le aree tratteggiate sono 0.025. z = −3.6 cade nella regione di rifiuto di sinistra. 4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o rifiutare H0 : Poiché −3.6 è minore di −1.96, rifiutiamo l’ipotesi nulla H0 : µ = 120. Un modo equivalente per verificare il sistema d’ipotesi H0 : µ = 120 HA : µ 6= 120 consiste nel metodo dell’intervallo di confidenza. Esso si può riassumere in questi passi: 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA : H0 : µ = 120 HA : µ 6= 120 2. Calcolare l’intervallo di confidenza al 95% (si noti che il livello di confidenza è l’(1 − α)%) per la media µ della popolazione: σ σ Intervallo di confidenza al 95% = x̄ − 1.96 √ , x̄ + 1.96 √ = (111, 117) n n 3. Decidere se accettare o rifiutare H0 sulla base dell’appartenenza all’intervallo calcolato del valore della media definito dall’ipotesi nulla. Poiché 120 non appartiene all’intervallo calcolato, rifiutiamo l’ipotesi nulla H0 : µ = 120. I due metodi sono equivalenti per costruzione. Infatti il valore specificato dall’ipotesi nulla µ = µ0 appartiene all’intervallo di confidenza all’(1 − α)% se e solo se la statistica test z score cade nella regione di rifiuto del test con livello α. 10.2. VERIFICA D’IPOTESI: LA PRATICA 10.2.2 127 Test per la media di popolazione normale: σ non nota Se la standard deviation di una popolazione non è nota, possiamo ancora utilizzare il metodo della statistica test z score, purché la numerosità campionaria sia grande (in genere maggiore di n = 30). In questo caso occorre sostituire al parametro σ la stima s ottenuta dai dati rilevati sul campione. In questo caso l’unico punto che cambia è il secondo dove lo z score è calcolato come z= x̄ − µ0 √s n . Per il resto se il livello del test è α = 0.05 la regione di rifiuto è la stessa R = {z < −1.96 o z > 1.96} , e la decisione è quella di rifiutare H0 se z appartiene alla regione di rifiuto. Se invece la numerosità n del campione è più piccola di di 30 occorre ricorrere ad un altra statistica, chiamata t di Student. La distribuzione di questa statistica non è normale standardizzata ma dipende dal numero di osservazioni. In particolare se abbiamo n osservazioni allora la statistica t di Student si dice che ha n−1 gradi di libertà. Per il resto il grafico della distribuzione della t di Student è simmetrico, assomiglia alla distribuzione normale standardizzata, ma ha le code più alte e la campana più bassa, cioè ha una maggior variabilità rispetto alla normale standard, nel senso che ci si aspetta di osservare una percentuale di valori oltre 3 valori della deviazione standard maggiori di quelli di una normale standardizzata. La Figura 10.2 riporta il grafico della distribuzione t di Student al variare dei gradi di libertà. Come si può notare al crescere dei gradi di libertà la distribuzione della t di Student assomiglia sempre più alla distribuzione normale standard. La distribuzione t di Student deve il suo nome allo statistico William Sealy Gosset che dedusse la distribuzione t di Student mentre lavorava come statistico alla famosa birreria irlandese Guinness. La ditta non gli permise di utilizzare il suo vero nome e lui pubblicò i risultati ottenuti lavorando presso la Guinness con lo pseudonimo di Student. Vediamo la procedura per un test t con livello α = 0.05 (viene chiamato in questo modo il test per verificare il valore di una media di una popolazione normale con σ non noto e numerosità campionaria n piccola, cioè minore di 30). 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA . Anche in questo scriveremo: H0 : µ = µ 0 HA : µ 6= µ0 128 CAPITOLO 10. TEST STATISTICI 0.4 N(0,1) e t−Student 0.2 0.0 0.1 f(x) 0.3 N(0,1) t(1) t(2) t(10) t(30) −5 −4 −3 −2 −1 0 1 2 3 4 5 x Figura 10.2: Distribuzione t di Student al variare dei gradi di libertà e distribuzione normale standard. 2. Calcolare la statistica test t. Osservati i valori del campione x1 , x2 , . . . , xn , questa è data da x̄ − µ0 t= s √ n 3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la soglia occorre cercare nella tavola della t di Student con n − 1 gradi di libertà, quei valori che lasciano a destra un’area pari a 0.025, indichiamo tale valore con tn−1 0.025 , e il valore che lascia alla sua sinistra un’area di 0.025 sarà per simmetria il valore −tn−1 0.025 . La regione di rifiuto è riportata nella Figura 10.3 e si scrive: n−1 R = t < −tn−1 0.025 o t > t0.025 Il valore tn−1 0.025 si deve cercare nella tavola A.5 come spiegato nell’esempio. 4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o rifiutare H0 . Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, altrimenti l’accettiamo. Esempio 10.2.1. La distribuzione del consumo di alcool tra le donne di età compresa tra 15 e 25 anni in Italia si può considerare normale con media pari 9.5 unità per settimana. Per capire se il consumo di alcool tra le studentesse dell’università si possa considerare con la stessa distribuzione si osserva il consumo di alcool di un campione di 14 studentesse. La media e lo scarto quadratico medio dei valori osservati sono risultati rispettivamente 10.2. VERIFICA D’IPOTESI: LA PRATICA 129 Regione di rifiuto α 2 = 0.025 α 2 = 0.025 (n−1) − t0.025 −1 0 (n−1) t0.025 1 Figura 10.3: Regione di rifiuto per il test t. L’area tratteggiata sotto la distribuzione t di Student con n − 1 gradi di libertà è 0.05. x̄ = 10.64 e s = 7.26. Sulla base di questi dati si può accettare l’ipotesi che il consumo di alcool delle studentesse sia lo stesso di quello delle donne italiane? Il sistema di ipotesi è il seguente H0 : µ = 9.5 HA : µ 6= 9.5 La statistica test è: t= x̄ − µ0 √s n = 10.64 − 9.5 7.26 √ 14 = 0.59 Il valore soglia per costruire la regione di rifiuto lo cerchiamo nella Tabella A.5 della t di Student. In questa tabella p indica la probabilità sotto la curva della distribuzione di una t di Student con g gradi di libertà. Tale probabilità è data dall’area tratteggiata in Figura 10.4. Quindi il valore che noi cerchiamo è in corrispondenza della colonna con p = 0.975 in quanto questo valore lascerà alla sua destra un’area sotto la curva pari a 0.025. Essendo le osservazioni n = 14 i gradi di libertà sono 13, per cui dobbiamo incrociare la colonna con p = 0.975 con la riga avente g = 13. Il valore corrispondente è 2.16. Quindi la regione di rifiuto può essere scritta come R = {t < −2.16 o t > 2.16} . Poiché la statistica test t = 0.59 non appartiene a questa regione accettiamo l’ipotesi nulla. Il consumo delle studentesse si può ritenere in linea con il consumo delle donne italiane. 130 CAPITOLO 10. TEST STATISTICI Area sotto la distribuzione t di Student g −5 −3 −1 0 1 tp 3 5 Figura 10.4: Area sotto la curva di una distribuzione t di Student al variare dei gradi di libertà e di p come riportati in Tabella A.5. 10.2.3 Test per la proporzione La procedura per la verifica d’ipotesi può essere applicata anche al caso in cui si voglia sottoporre a verifica il valore della proporzione di un certo evento d’interesse su una popolazione. Vediamo in questo caso i 4 passi. 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA . Abbiamo un’affermazione sul parametro π: H0 : π = π0 HA : π 6= π0 2. Per il teorema 9.1.2 calcoliamo lo z score della proporzione campionaria calcolata sull’osservazione di un campione di ampiezza n. Indicata con p̂ tale proporzione abbiamo: p̂ − π0 z=q π0 (1−π0 ) n 3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la soglia sempre il Teorema 9.1.2 garantisce che se n è abbastanza grande la distribuzione degli score è normale standardizzata. Quindi la regione di rifiuto a livello α = 0.05 è ancora R = {z < −1.96 o z > 1.96} 10.2. VERIFICA D’IPOTESI: LA PRATICA 131 4. Decidere sulla base del valore z. Se z appartiene a R rifiutiamo l’ipotesi nulla, altrimenti accettiamo l’ipotesi nulla. Esempio 10.2.2. Un magazzino dichiara di non commettere discriminazione sulla base dell’etnia dei suoi dipendenti. Metà di essi appartengono infatti a una minoranza etnica. Osservando i dati dei licenziati nell’ultimo anno i dati dicono che di 28 persone licenziate 23 appartengono alla minoranza etnica. Il magazzino commette il reato di discriminazione della minoranza? Se l’affemazione del magazzino fosse vera, cioè se non ci fosse discriminazione il valore 23 = 0.82 dovrebbe essere tale da non far rifiutare l’ipotesi nulla. Applichiamo i di p̂ = 28 passi per la verifica di ipotesi per la proporzione a questo problema. Il sistema di ipotesi è H0 : π = 0.50 HA : π 6= 0.50 Calcoliamo quindi lo z score della proporzione osservata p̂ = 0.82: p̂ − π0 z=q π0 (1−π0 ) n 0.82 − 0.50 =q = 3.39. 0.50(1−0.50) 28 Poiché il valore 3.39 appartiene alla regione di rifiuto R = {z < −1.96 o z > 1.96}, rifiutiamo l’ipotesi nulla. Quindi non possiamo credere all’affermazione del magazzino riguardo alla mancanza di discriminazione. Esercizio 10.2.3. Determinare il numero massimo di licenziati appartenenti alla minoranza etnica affiché l’ipotesi nulla non sia rifiutata. Esempio 10.2.4. Un gruppo di n = 9 studenti laureati in sociologia si sottopone ad un test psicometrico prima di essere assunti da una compagnia. La performance in questo test di tutti partecipanti ha una distribuzione normale con media µ0 = 62. La media aritmetica ottenuta dai 9 studenti nel test è x̄ = 66.33, mentre la standard deviation misurata sui 9 studenti è stata s = 4.04. Si può ritenere, a livello α = 0.05, che gli studenti laureati in sociologia che hanno partecipato al test hanno una performance diversa da quella di tutti gli altri studenti? Svolgiamo l’esercizio passo per passo. 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA . H0 : µ = 62 HA : µ 6= 62 2. Calcolare la statistica test t. I valori del campione x1 , x2 , . . . , x9 non li conosciamo ma conosciamo la media x̄ e s. La statistica test è x̄ − µ0 66.33 − 62 t= = = 3.22 s 4.04 √ n √ 9 132 CAPITOLO 10. TEST STATISTICI 3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la soglia occorre cercare nella tavola della t di Student con n − 1 = 8 gradi di libertà, quei valori che lasciano a destra un’area pari a 0.025, indichiamo tale valore con t80.025 , e il valore che lascia alla sua sinistra un’area di 0.025 sarà per simmetria il valore −t80.025 . Il valore cercato lo troviamo nella tavola all’incrocio con i gradi di libertà g = 8 e probabilità p = 0.975 ed è t80.025 = 2.306. La regione di rifiuto è R = {t < −2.306 o t > 2.306} 4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o rifiutare H0 . Poiché t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, infatti 3.22 è maggiore di 2.306. 10.3 Il livello di significativià del test: α Abbiamo visto nelle sezioni precedenti le regioni di rifiuto per verifiche d’ipotesi con errore di primo tipo α uguale a 0.05. Se il livello di significativià del test varia, anche la regione di rifiuto cambia. Ad esempio se il livello diventa α = 0.01 la regione di rifiuto per il primo caso pratico trattato è R = {z < −2.575 o z > 2.575} Il valore −2.575 è quel valore che lascia alla sua sinistra sotto la curva della distribuzione normale standardizzata un’area pari a 0.005. Mentre per simmetria il valore 2.575 lascia alla sua destra sotto la curva della distribuzione normale standardizzata un’area pari a 0.005. Adottiamo un po’ di notazioni. Se indichiamo con α2 la metà del livello di significatività, siamo in grado di calcolare la regione di rifiuto per qualunque valore di significativià α. Infatti se indichiamo con z α2 il valore sotto la curva normale che lascia alla sua destra un’area pari a α2 la generica regione di rifiuto può essere scritta come n o R = z < −z α2 o z > z α2 Si noti che se α = 0.05, α2 = 0.025 e z α2 = 1.96 mentre se α = 0.01, α2 = 0.005 e z α2 = 2.575. Risulta perciò evidente che se vogliamo calcolare la regione di rifiuto a livello α = 0.02 poiché α2 = 0.01 il valore nelle tavole della Normale standardizzata che lascia alla sua destra un’area di 0.01 è 2.325. Quindi la regione di rifiuto è R = {z < −2.325 o z > 2.3255} Nel caso della verifica d’ipotesi per la proporzione le regioni di rifiuto sono le stesse. Nel caso invece in cui la verifica d’ipotesi sia per la media della popolazione normale nel caso in cui σ non sia noto e l’ampiezza campionaria n sia bassa, occorre ricorrere alla tavola della t di Student per diversi valori di α. Nella tavola fornita occorrerà cercare il valore per p = 1 − α2 in corrispondenza ai gradi di libertà g = n − 1. 10.4. IL P -VALUE E IL SUO RAPPORTO CON α. 10.4 133 Il p-value e il suo rapporto con α. Quando si rifiuta l’ipotesi nulla di solito nella pratica si decide di compiere un’azione, in quanto i dati ci hanno dato conferma che l’ipotesi nulla non è molto plausibile e rifiutandola siamo propensi a credere che sia più plausibile l’ipotesi alternativa. Nel rifiutare l’ipotesi nulla sappiamo che possiamo commettere un errore ma l’errore è controllato dal livello del test α: la probabilità di commettere un errore rifiutando l’ipotesi nulla è inferiore all’ α100%. Risulta evidente che più è grande il valore della statistica test (in valore assoluto) più siamo sicuri nella scelta di rifiutare l’ipotesi nulla. Il p-value misura esattamente questo livello di sicurezza. Più è piccolo il p-vale più siamo sicuri della nostra scelta di rifiutare l’ipotesi nulla. Per il test z, sia z il valore della statistica test. Sappiamo che se |z| > zα/2 rifiutiamo l’ipotesi nulla. Se andiamo a calcolare l’area sotto la curva normale dal valore della statistica test |z| a +∞, poichè abbiamo rifiutato l’ipotesi nulla, tale area sarà minore di α/2. Tanto più tale area è piccola, tanto più il valore della statistica test |z| è grande. Il p-value è esattamente il valore di questa area. In formula p−value = P (Z > |z|). In generale è sempre meglio fornire anche il valore del p-value per il test. La relazione tra il livello di significatività e il p-value è la seguente: • Rifiutiamo l’ipotesi nulla se p-value < • Accettiamo l’ipotesi nulla se p-value ≥ α 2 α 2 Per il test t sia t il valore della statistica calcolato. In questo caso il p-value misura l’area sotto la curva della distribuzione t con i corrispondenti gradi di libertà. Se ad esempio sono g i gradi di libertà dobbiamo andare a cercare i valori dell’area dal valore |t| calcolato fino a +∞ sotto la curva della distribuzione normale con g gradi di libertà. Poiché a volte le tavole della t di student forniscono solo alcuni valori delle aree, a volte possiamo solo dare dei valori approssimati del p-value. La decisione per il test t sarà la stessa che per il test z. L’unica accortezza è che il valore del p-value va cercato nelle tavole della t di Student con i corretti gradi di libertà. • Rifiutiamo l’ipotesi nulla se p-value < • Accettiamo l’ipotesi nulla se p-value ≥ 10.5 α 2 α 2 Intervalli di confidenza e test bilaterali Come si sarà certamente notato il livello di confidenza 1 − α per l’intervallo di confidenza per la media di una popolazione, deve essere collegato al livello di significatività per il 134 CAPITOLO 10. TEST STATISTICI test per la verifica dell’ipotesi nulla sulla media di una popolazione contro l’alternativa bilaterale. In effetti sia per per il test z che per il test t la verifica d’ipotesi può essere effettuata costruendo l’intervallo di confidenza per la media a livello di fiducia 1 − α dove α è il livello di significatività del test e la decisione per il test è la seguente: • Si rifiuta l’ipotesi nulla H0 : µ = µ0 se µ0 non appartiene all’intervallo di confidenza costruito per la media della popolazione e livello 1 − α • Non si rifiuta l’ipotesi nulla H0 : µ = µ0 se µ0 appartiene all’intervallo di confidenza costruito per la media della popolazione e livello 1 − α Abbiamo già visto come si costruisce l’intervallo di confidenza per la media di una popolazione quando lo scarto quadratico medio σ è noto o quando la numerosità campionaria è abbastanza elevata e quindi possiamo utilizzare i valori zα/2 della distribuzione normale. Ad esempio se l’intervallo di confidenza a livello 1 − α = 0.95 per la media µ con σ noto, risulta σ σ I.C. = (x̄ − 1.96 √ , x̄ + 1.96 √ ) n n Se il valore µ0 specificato dell’ipotesi nulla del test a livello di significatività α = 0.05 per la media della popolazione, appartiene all’intervallo calcolato, non si rifiuta l’ipotesi nulla, se µ0 non appartiene all’intervallo calcolato, si rifiuta l’ipotesi nulla. Supponiamo invece di aver calcolato l’intervallo di confidenza a livello 1 − α = 0.95 per la media µ con σ non noto e quindi stimato con s, per una numerosità campionaria n elevata (maggiore di 30, meglio se maggiore di 50). Esso è dato da s s I.C. = (x̄ − 1.96 √ , x̄ + 1.96 √ ) n n Anche in questo caso, se il valore µ0 specificato dell’ipotesi nulla del test a livello di significatività α = 0.05 per la media della popolazione, appartiene all’intervallo calcolato, non si rifiuta l’ipotesi nulla, se µ0 non appartiene all’intervallo calcolato, si rifiuta l’ipotesi nulla. Per quanto riguarda il test t, quando cioè σ non è noto, la numerosità campionaria è bassa e possiamo ritenere il fenomeno distribuito come una normale, dobbiamo costruire l’intervallo di confidenza per la media dela popolazione µ in questo caso. Per fare questo la procedura è la stessa che nel caso di popolazione Normale con sigma noto o nel caso di popolazione qualunque ma numerosità elevata, con la sola differenza che dobbiamo calcolar ein ogni caso s e cercare il valore che determina l’ampiezza dell’intervallo nelle tavole della t di student, con i gradi di libertà pari a n − 1. Vediamo con ordine gli ingredienti: P • Calcolare x̄ = n1 nk=1 xi q 1 Pn 2 • Calcolare s = n−1 k=1 (xi − x̄) 10.6. TEST CON ALTERNATIVA UNILATERALE 135 • Calcolare i gradi di libertà n − 1 • Cercare il valore corrispondente sulla tavola della t di Student in corrispondenza di p = 1 − α/2 e gradi di libertà n − 1. Ad esempio il valore per n = 12 e quindi n − 1 = 11 per un livello di fiducia di 1 − α = 0.95 è dato dal valore t11 0.025 = 2.0099. Tale valore lo troviamo nella Tavola A.5 in appendice per g = 11 e p = 0.975 in quanto la tavola riporta l’area da −∞ al valore prefissato. L’intervallo di confidenza risulta quindi s s √ , x̄ + tn−1 √ ) I.C. = (x̄ − tn−1 α/2 α/2 n n Anche in questo caso, se il valore µ0 specificato dell’ipotesi nulla del test a livello di significatività α = 0.05 per la media della popolazione, appartiene all’intervallo calcolato, non si rifiuta l’ipotesi nulla, se µ0 non appartiene all’intervallo calcolato, si rifiuta l’ipotesi nulla. 10.6 Test con alternativa unilaterale A volte si è praticamente sicuri della direzione in cui si è spostato il valore della media, per cui invece di verificare l’ipotesi se la media è un certo valore contro l’alternativa che sia diversa (test bilaterale) si verifica se la media è un certo valore contro l’alternativa che sia maggiore (oppure minore) del valore specificato con l’ipotesi nulla. Si tratta del test ad una coda ovvero del test con alternativa unilaterale. Per questo tipo di test l’ipotesi nulla è la stessa H0 : µ = µ0 mentre l’alternativa può essere di tipo unilaterale destra HA : µ > µ0 quando siamo convinti che il valore della media sia cresciuto rispetto al valore dichiarato. Oppure l’alternativa può essere di tipo unilaterale sinistra HA : µ < µ0 quando siamo convinti che il valore della media sia diminuito rispetto al valore dichiarato. A questo punto fissato il livello del test α = 0.05 occorre determinare la regione di rifiuto ed è a questo punto che sta la grossa differenza tra test unilaterali e quelli bilaterali. In questi ultimi abbiamo visto che l’errore α veniva spezzato in due parti (una a sinistra e una a destra) della distribuzione della statistica test. Nei test unilaterali questo errore è invece tutto da una parte. Tale parte ovviamente dipende dal tipo di alternativa unilaterale 136 CAPITOLO 10. TEST STATISTICI che stiamo verificando. Se ad esempio abbiamo l’ipotesi unilaterale destra µ > µ0 la regione di rifiuto a livello α = 0.05 è R = {z > 1.645} dove 1.645 è il valore sotto la curva normale standardizzata che lascia alla sua destra un’area pari a 0.05. La regione di rifiuto è riportata in Figura 10.5. Se invece il tet Regione di rifiuto α = 0.05 0 1.645 Figura 10.5: Regione di rifiuto per il test unilaterale con alternava destra a livello α = 0.05. consiste nel verificare l’ipotesi nulla µ = µ0 contro l’alternativa unilaterale sinistra µ < µ0 , la regione di rifiuto a livello α = 0.05 è R = {z < −1.645} dove −1.645 è il valore sotto la curva normale standardizzata che lascia alla sua sinistra un’area pari a 0.05. La regione di rifiuto è riportata in Figura 10.6. Se cambia il livello del test cambia solo il valore soglia da ricavare dalla tavola in corrispondenza del valore α specificato. Per il test per la media di una popolazione normale quando lo scarto quadratico medio non è noto e la numerosità del campione minore di 30 si procede con la statistica t e si utilizza la tavola della t di Student per determinare la regione di rifiuto quando l’alternativa è una delle due unilaterale destra o sinistra. Vediamo i passi per questo test nei due casi. Fissato α = 0.05 consideriamo l’ipotesi alternativa unilaterale destra. 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA . H0 : µ = µ0 HA : µ > µ0 10.6. TEST CON ALTERNATIVA UNILATERALE 137 Regione di rifiuto α = 0.05 −1.645 0 Figura 10.6: Regione di rifiuto per il test unilaterale con alternava sinistra a livello α = 0.05. 2. Calcolare la statistica test t. Osservati i valori del campione x1 , x2 , . . . , xn , questa è data da x̄ − µ0 t= s √ n 3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la soglia occorre cercare nella tavola della t di Student con n − 1 gradi di libertà, quel valore che lascia a destra un’area pari a 0.05, indichiamo tale valore con tn−1 0.05 . La regione è: n−1 R = t > t0.05 4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o rifiutare H0 . Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, altrimenti l’accettiamo. Consideriamo ora l’ipotesi alternativa unilaterale sinistra 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA . H0 : µ = µ 0 HA : µ < µ0 2. Calcolare la statistica test t. Osservati i valori del campione x1 , x2 , . . . , xn , questa è data da x̄ − µ0 t= s √ n 138 CAPITOLO 10. TEST STATISTICI 3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la soglia occorre cercare nella tavola della t di Student con n − 1 gradi di libertà, quel n−1 valore che lascia a sinistra un’area pari a 0.05, indichiamo tale valore con −t0.05 . La regione è: n−1 R = t < −t0.05 4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o rifiutare H0 . Se t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, altrimenti l’accettiamo. Si noti che rispetto ai test bilaterali quello che cambia è unicamente il valore soglia a parità di statistica test e livello del test in quanto tutto l’errore di prima specie viene scaricato nella direzione dell’ipotesi alternativa. Se l’ipotesi nulla è vera si sbaglia sono in una direzione. A parità di livello α la soglia della regione di rifiuto per un test unilaterale è sempre minore del corrispondente test bilaterale e quindi si rifiuterà l’ipotesi nulla con più facilità. Vediamo un esempio Esempio 10.6.1. Riprendiamo l’Esercizio 10.2.4 Gli studenti laureati in sociologia sono convinti di essere nettamente sopra la media della performance in questo test. Impostare una verifica d’ipotesi per stabilire se tale affermazione è credibile. Svolgiamo l’esercizio passo per passo, anche se con le considerazioni fatte se abbiamo rifiutato l’ipotesi nulla nel caso di test bilaterale, questa allo stesso livello sarà rifiutata anche per il test unilaterale destra. Vediamo cosa accade. 1. Scrivere il sistema di ipotesi con l’ipotesi nulla H0 e l’ipotesi alternativa HA . H0 : µ = 62 HA : µ > 62 2. Calcolare la statistica test t. I valori del campione x1 , x2 , . . . , x9 non li conosciamo ma conosciamo la media x̄ e s. La statistica test è t= x̄ − µ0 √s n = 66.33 − 62 4.04 √ 9 = 3.22 Come si vede il valore della statistica test non cambia. 3. Trovare la regione di rifiuto per il sistema d’ipotesi. In questo caso per trovare la soglia occorre cercare nella tavola della t di Student con n − 1 = 8 gradi di libertà, quel valori che lascia a destra un’area pari a 0.05, indichiamo tale valore con t80.05 .Il 10.7. ESERCIZI 139 valore cercato lo troviamo nella tavola all’incrocio con i gradi di libertà g = 8 e probabilità p = 0.95 ed è t80.05 = 1.86. La regione di rifiuto è R = {t > 1.86} Come si vede la regione di rifiuto a destra è più grande della parte destra nel caso di alternativa bilaterale. 4. Decidere sulla base del valore della statistica e la regione di rifiuto se accettare o rifiutare H0 . Poiché t calcolato appartiene ad R, rifiutiamo l’ipotesi nulla, infatti 3.22 è maggiore di 1.86 come lo era di 2.306. 10.7 Esercizi 1. Una ricerca vuole stabilire l’etè media a cui le donne iniziano a fumare. Una ricercatrice intervista 25 fumatrici e chiede loro l’età in cui hanno fumato la prima sigaretta. La media campionaria sulle 25 intervistate è stata x̄ = 16.8 anni e lo scarto quadratico medio s = 1.5 anni. (a) Verificare, con un livello di significatività α = 0.05 se la media dell’età in cui si fuma la prima sigaretta possa considerarsi 16 anni contro l’alternativa che sia diversa. (Utilizzare il test t). (b) Calcolare un intervallo di confidenza per la media dell’età in cui si inizia a fumare per l’intera popolazione. Fissare il livello di confidenza 1−alpha = 0.95. (c) Sulla base dell’intervallo calcolato l’esito del test è confermato? 2. Per determinare il grado di tolleranza verso gli stranieri in un campus universitario agli studenti viene sottoposto un questionario i cui punteggi sono classificati da 1 a 10 dove un punteggio alto indica maggiore tolleranza e un punteggio basso minor tolleranza. Su 40 questionari riconsegnati è stata calcolata la media x̄ = 6 e lo scarto quadratico medio s = 1.5. (a) Verificare l’ipotesi che la media dell’indice di tolleranza nel campus sia µ = 7 contro l’alternativa che sia diverso. Fissare il livello del test α = 0.01. (b) Il p value per questo test quanto vale? (c) Costruire l’intervallo di confidenza a livello di fiducia 1 − α = 0.99 e sulla base dell’intervallo calcolato traete la conclusione per la verifica d’ipotesi precedente. 3. Un indagine vuole determinare se tra i tifosi viene visto favorevolmente il fatto che ai giocatori di calcio venga fatto il test anti-doping dopo ogni partita. Si intervistano 400 tifosi per i quali risulta che il 64% è favorevole a tale procedura. 140 CAPITOLO 10. TEST STATISTICI (a) Verificare se la vera proporzione di favorevoli a tale procedura possa ritenersi pari a π0 = 0.60 contro l’alternativa che sia diversa. Fissare il livello del test a α = 0.05. (b) quale sarebbe stata la conclusione del test se lo stesso risultato p̂ = 0.64 fosse stato ottenuto intervistando n = 1000 tifosi? Capitolo 11 Confronto di medie Nei capitoli precedenti abbiamo considerato una sola variabile di interesse, cioè un solo fenomeno e su di esso abbiamo calcolato gli intervalli di confidenza per la media incognita e abbiamo fatto delle ipotesi sul valore di questa media incognita (il parametro µ) basandoci sui risultati del fenomeno osservati su un campione della stessa popolazione. Nei fenomeni di carattere sociale è invece importante considerare e verificare se sono presenti delle differenze, ad esempio se il tasso di disoccupazione dei giovani sia diverso tra uomini e donne o se si possa ritenere uguale e quindi on dipendere dal genere. Oppure se ad esempio cattolici o protestanti abbiano tendenze diverse sull’essere o meno favorevoli all’aborto. È importante osservare che nella ricerca (anche in campo sociale) si è interessati a trovare e studiare differenze piuttosto che a stabilire che queste differenze non esistono. Dalla constatazione di una differenza nasce spesso lo spunto per intraprendere un nuovo studio e partire con una nuova ricerca. 11.1 Differenza delle medie per popolazioni normali Per introdurre le necessarie notazioni, partiamo da un esempio. Supponiamo di voler capire quale tra due metodi è più efficace per sviluppare la memoria nei giovani che studiano a livello universitario. Si scelgono a caso tra i giovani 5 soggetti che verranno sottoposti al metodo A e altri 5 che verranno sottoposti al metodo B. Dopo il trattamento viene effettuato un test per valutare l’effetto dei due metodi. I risultati del test sono riportati nella Tabella 11.1 Se vogliamo valutare i risultati dei due metodi confrontando la media nei due gruppi, come si vede dai risultati riportati nella Tabella 11.1 nel gruppo sottoposto al metodo A la media ottenuta è 16 e i valori si attestano attorno al questo valore, mentre nel gruppo che è stato sottoposto al metodo B i valori si attestano attorno al valore 20 che è la media. Saremmo propensi a credere che ci sia differenza tra i due metodi osservando i risultati sui due gruppi. Ora si supponga che i risultati nei due gruppi abbiano sempre dato la stessa media, ma le osservazioni sui singoli soggetti siano diverse. Le riportiamo 141 142 CAPITOLO 11. CONFRONTO DI MEDIE Metodo A 16 15 17 15 17 x̄A = 16 Metodo B 20 19 21 20 20 x̄B = 20 Tabella 11.1: Risultati primo esperimento test sulla memoria. Metodo A 20 16 12 13 19 x̄A = 16 Metodo B 15 16 24 20 25 x̄B = 20 Tabella 11.2: Risultati secondo esperimento test sulla memoria. nella Tabella 11.2. Come si vede le singole osservazioni nei due gruppi sono molto instabili attorno ai valori medi. In questa situazione siamo più restii a considerare una differenza effettiva tra i due gruppi. Cercheremo ora di fornire un metodo quantitativo per stabilire sulla base delle osservazioni se ci sia una differenza tra i due gruppi. Denotiamo con X1 e X2 le due popolazioni che hanno subito il trattamento A (nell’esempio il gruppo sottoposto al metodo A) e il trattamento B. Supponiamo che le due popolazioni siano Normali, ciascuna caratterizzata dai propri parametri incogniti media e scarto quadratico medio. Sia µ1 il parametro che rappresenta la media incognita nella prima popolazione e sia µ2 il parametro che rappresenta la media incognita nella seconda popolazione. Supponiamo che la variabilità nella due popolazioni sia la stessa e la denotiamo con σ 2 . Vogliamo verificare l’ipotesi nulla H0 : µ1 = µ2 contro l’alternativa bilaterale HA : µ1 6= µ2 Per verificare questa ipotesi consideriamo per ciascuna delle due popolazioni un campione casuale e andiamo a calcolare la media campionaria nei due campioni. Precisamente sia x(1) = {x1 , x2 , . . . , xn1 } le osservazioni sul campione dalla prima popolazione e siano x(2) = {x1 , x2 , . . . , xn2 } le osservazioni sul campione dalla seconda popolazione. Abbiamo 11.1. DIFFERENZA DELLE MEDIE PER POPOLAZIONI NORMALI 143 usato lo stesso simbolo per non appesantire le notazioni. Si noti che i campioni possono anche avere numerosità diverse, qui indicate con n1 e n2 rispettivamente. La statistica sulla quale si basa il test è data da x̄1 − x̄2 (11.1) t= q 2 s̄p nn11+n n2 dove x̄1 e x̄2 sono le medie calcolate nei due campioni di ampiezza n1 ed n2 rispettivamente. La quantità sp è una media pesata secondo le numerosità dei due campioni della varianza σ 2 ed è definita come segue: s (n1 − 1)s̄21 + (n2 − 1)s̄22 sp = n1 + n2 − 2 dove con s̄1 e s̄2 si sono indicate gli scarti quadratici medi calcolati rispettivamente nei due campioni. Si noti che nella formula sono elevate al quadrato prima di essere moltiplicate per (n1 − 1) e (n2 − 1) rispettivamente. Fissato il livello di significatività del test α, in genere α = 0.05 o α = 0.01, ovvero fissato il rischio che siamo disposti ad assumerci nel caso si rifiutasse H0 e questa fosse in realtà vera, il test consiste nel confrontare il valore di t calcolato con la formula (11.1) con il valore di una t di Student con g = n1 + n2 − 2 gradi di libertà per il corrispondente valore di α. Indicato con tgα il valore per cui l’area dal valore in poi, sotto la distribuzione 2 di una t si Student con g gradi di libertà è pari ad α2 , la regola di decisione del test a livello α corrisponde a rifiutare H0 : µ1 = µ2 se |t| > tgα . Si noti che si prende il valore 2 assoluto della statistica t. Se la differenza delle medie nella formula (11.1) fosse negativa, si considera il valore assoluto. Vediamo un esempio di applicazione del test. Un sociologo ha effettuato un indagine per per capire se la recente riforma sanitaria introdotta dal governo è vista di buon grado dai sostenitori dei partiti di centro destra e dai partiti di centro sinistra. A tal proposito effettua un indagine tra 12 elettori di centro sinistra e 18 elettori di centro destra. A ciascuno di essi viene sottoposto un questionario il cui risultato è sintetizzato da un valore numerico su una scala da 1 a 100 dove più è alto il valore ottenuto più l’individuo è a favore della riforma. Il sociologo calcola i seguenti valori: media dei valori riportati tra i 12 elettori di centro sinistra: x̄1 = 60; scarto quadratico medio riportato tra gli elettori di centro sinistra: s1 = 12. Media dei valori riportati tra i 18 elettori di centro destra: x̄1 = 49; scarto quadratico medio riportato tra gli elettori di centro destra: s2 = 14. Verificare se il sostegno alla riforma sanitaria possa essere considerato lo stesso tra gli elettori dei due partiti considerati o se vi è una differenza. Se indichiamo con µ1 e µ2 i valori medi incogniti nelle due popolazioni del valore del sostegno dato alla riforma valutabile con il test, si tratta di verificare l’ipotesi H0 : µ1 = µ2 144 CAPITOLO 11. CONFRONTO DI MEDIE contro l’alternativa che i due valori siano diversi. Fissiamo α = 0.05. I gradi di libertà sono 12 + 18 − 2 = 28. Il valore t28 0.025 lo troviamo sulle tavole della t di Student. Poiché la Tavola A.5 riporta i valori delle aree da −∞ al valore che cerchiamo, l’area che interessa la troviamo come 1 − α2 = 1 − 0.025 = 0.975. Il valore corrispondente alla colonna 0.975 e alla riga 28 è 2.048. Si noti che se da −∞ a 2.048 l’area è 0.975, ne consegue che da 2.048 a +∞ l’area `e 0.025. Quindi t28 0.025 = 2.048. Ora calcoliamo il valore della statistica test sui dati osservati. Abbiamo r 12 · 122 + ·18 ∗ 142 √ = 187.7143 = 13.70 sp = 12 + 18 − 2 Quindi t= 60 − 49 q = 2.15 12.02 · 12+18 12·18 Quindi possiamo rifiutare l’ipotesi nulla, e concludiamo che c’è evidenza che gli elettori di centro sinistra la pensino in maniera diversa rispetto agli elettori di centro destra riguardo alla nuova riforma sanitaria. Se il valore della deviazione standard calcolata sui due campioni fosse stata rispettivamente s1 = 15 ed s2 = 16 avremmo avuto (si verifichi il conto) sp = √ 261 = 16.16, da cui t = 1.83. A parità della stessa differenza in media (x̄1 − x̄2 non è cambiata) abbiamo un valore della statistica test più basso che non ci porta a rifiutare l’ipotesi nulla. Questo è dovuto alla più alta variabilità nelle risposte nei due gruppi che è sintetizzato dai due valori s1 e s2 . Naturalmente se le medie osservate fossero state x̄1 = 62 e x̄2 = 47 (quindi con una differenza maggiore) e avessimo sempre s1 = 15 e s2 = 16 allora in questo caso il valore della statistica test (si verifichi il conto) sarebbe stato t = 2.49 e avremmo rifiutato anche in questo caso l’ipotesi nulla. Ad ogni modo è evidente che con variabilità alte occorre una differenza in media elevata per poter rifiutare. Esercizio 11.1.1. In uno studio di marketing per valutare la soddisfazione dei clienti che hanno effettuato l’acquisto di umidificatori ad ultrasuoni sono state poste alcune domande ad un gruppo che ha acquistato la marca che ha effettuato la ricerca di mercato e ad un altro gruppo che ha acquistato una marca concorrenti Gli acquirenti della marca che ha 11.2. DIFFERENZA PER DUE PROPORZIONI 145 commissionato lo studio ha dato come risultati del test per valoutare il grado di soddisfazione i seguenti valori: 14.0, 14.3, 12.2, 15.1. Per la seconda marca di umidificatori i risultati al test sono stati 12.1, 13.6, 11.9, 11.2, 12.2. Si può accettare l’ipotesi nulla che la soddisfazione in entrambi i gruppi sia la stessa a livello di significatività 0.05? 11.2 Differenza per due proporzioni Come si è interessati a verificare se c’è una differenza tra le medie di due popolazioni normali si può essere interessati a capire se vi è una differenza tra due proporzioni, ad esempio se vi è differenza tra la percentuale di fumatori tra le donne e gli uomini, se la percentuale di disoccupati è diversa tra sud e nord e tra uomini e donne. Nelle scienze sociali si utilizzano spesso le proporzioni per misurare determinate caratteristiche in diversi gruppi e si capisce come sia importante stabilire se le differenze osservate siano statisticamente significative. Siano quindi π1 e π2 le vere proporzioni di una certa caratteristica di interesse sue due gruppi distinti. Siano n1 e n2 le numerosità campionarie nei due gruppi di interesse e siano k1 e k2 il numero degli individui nei rispettivi gruppi che soddisfano la caratteristica di interesse che si sta studiando (ad esempio i fumatori o i disoccupati). Vogliamo verificare l’ipotesi nulla H0 : π1 = π2 contro l’alternativa HA : π1 6= π2 sulla base dei risultati dell’indagine sui campioni nelle due popolazioni considerate (uomini e donne o residenti al nord e residenti al sud) e del livello di significatività fissato α. La statistica test ha la forma p̂1 − p̂2 z= sp1 −p2 dove p̂1 = k1 , n1 p̂2 = k2 n2 la standard deviation è data da s sp1 −p2 = p∗ (1 e p∗ = − p∗ ) k1 + k2 . n1 + n2 n1 + n2 n1 · n2 146 CAPITOLO 11. CONFRONTO DI MEDIE La regola di decisione consiste nel rifiutare H0 se il valore della statistica test z in valore assoluto è maggiore del valore zα/2 che troviamo sulle tavole della Normale standardizzata. Vediamo il seguente esempio. Da un insieme di 22071 medici volontari vennero formati due gruppi: il gruppo di trattamento e quello di controllo. Gli individui del gruppo di trattamento ricevevano una dose quotidiana di aspirina mentre quelli di controllo un farmaco senza il principio attivo, cioè un placebo. Lo studio venne condotto per un periodo di 5 anni osservando il numero di decessi per infarto. Si ottennero i seguenti risultati: Esito Infartuati Non Infartuati Totali 239 139 378 10795 10898 21693 11034 11037 22071 Farmaco Placebo Aspirina Vogliamo verificare l’ipotesi nulla che la proporzione dei colpiti da infarto sia uguale nei due gruppi (quello trattato col farmaco e quello col placebo) contro l’alternativa che sia diversa. Sia 1 il gruppo di controllo e 2 il gruppo dei trattati. Abbiamo p̂1 = 239 = 0.0217 11034 e p̂2 = 139 = 0.0126 11037 E quindi p∗ = x1 + x2 378 = 0.0171 = n1 + n2 22071 Il valore della statistica z è p̂1 − p̂2 z=r p∗ (1 − p̂∗ ) n11 + 1 n2 0.0217 − 0.0126 =q 1 0.0171 · (1 − 0.0171) 11034 + 1 11037 0.0091 = 0.00175 = 5.2 Confrontiamo z = 5.2 con il valore della tavola della normale z α2 = z0.05 = 1.64. Poiché z > 1.64 il test rifiuta l’ipotesi nulla e gli sperimentatori concluderanno che vi è un effetto protettivo del principio attivo contenuto nell’aspirina rispetto al rischio di infarto cardiaco. 11.3 Il p-value In tutti i test statistici è importante sapere, quando si rifiuta l’ipotesi nulla, quanta convinzione in termini di probabilità c’è in questo rifiuto. Prendiamo i due esempi dei paragrafi precedenti. Nel primo caso per il confornto di due medie da due popolazioni normali abbiamo calcolato la statistica t = 2.15 e abbiamo rifiutato perché il valore soglia è t28 α/2 = 2.048. Sempre nello stesso esempio nell’ultimo caso considerato, abbiamo calcolato la statisitca test che in questo caso vale t = 2.49 e anche in questo caso si rifiuta l’ipotesi nulla perché 11.4. ESERCIZI 147 il valore della statistica è maggiore del valore soglia. Il grado di convinzione della scelta di rifiutare è chiaro che sarà tanto maggiore tanto più è grande il valore della statistica test, rispetto al valore soglia. La misura di questa convinzione ci è data dal p-value. Poichè l’area sotto la curva della distribuzione della statistica test (nel caso considerato una t di Student con 28 gradi di libertà) dal valore soglia a +∞ vale α2 e poichè il valore della statisitca test sta a destra del valore soglia, risulta evidente che l’area sotto la curva della distribuzione della statistica dal valore osservato t a +∞ sarà minore di α2 . Ora tanto più è piccola questa area tanto più il rifiuto dell’ipotesi nulla è fatto con convinzione. Ebbene il valore di quest’area è il p-value. Cioè il p-value è un’area, e rappresenta la probabilità che la statistica test assuma un valore più grande di quello che abbiamo trovato. Se andiamo sullaTavola A.5 della t di student in corrispondenza della riga con 28 per i gradi di libertà dobbiamo trovare i due valori tra cui è compreso il valore calcolato: si osserva che 2.048 < 2.15 < 2.467 quindi il p-value in questo caso è tra 0.025 e 0.01. Nel secondo caso 2.467 < 2.49 < 2.763 quindi il p-value è compreso tra 0.01 e 0.005. I valori esatti del p-value si possono ottenere con un software statistico è sono rispettivamente: 0.02 e 0.009. In entrambi i casi, sono valori più piccoli di α2 , e in entrambi i casi rifiutiamo l’ipotesi nulla, ma nel secondo caso la rifiutiamo con più convinzione rispetto al primo caso. Consideriamo anche il caso nell’esempio sulla verifica dell’uguaglianza tra due proporzioni. La statistica test vale 5.2 e l’area sotto la curva di una distribuzione Normale da 5.2 a +∞ è praticamente 0. In effetti le tavole in appendice calcolano l’area solo fino al valore 3, e 5 è ben oltre il valore 3. Sempre con un software statistico il p-value per questo caso è 9.8 · 10−8 quindi un numero veramente piccolo. In quest’ultimo caso l’evidenza della differenza tra i due gruppi è grandissima. 11.4 Esercizi 1. Si vuole stabilire se le donne sorridono di più degli uomini. Per questo motivo vengono videoregistrati alcuni uomini e alcune donne in situazioni particolari e si contano il numero di sorrisi effettuati. I dati sono riportati nella seguente tabella. Maschi 8 2 11 4 13 Femmine 15 18 13 19 11 148 CAPITOLO 11. CONFRONTO DI MEDIE (a) Calcolare la media e lo scarto quadratico medio nei due gruppi degli uomini e delle donne. (b) Scrivere l’ipotesi nulla per verificare se le medie incognita del numero di sorrisi siano le stesse nei due gruppi. (c) Calcolare il valore della statistica test. (d) Trovare il valore soglia fissato il livello del test α = 0.05. (e) Qual è la decisione a livello α = 0.05. (f) Calcolare il valore approssimato del p-value. 2. Un sociologo è interessato a studiare se esiste qualche differenza dovuta al genere riguardo alla socialità delle persone. Come misura del grado di socialità di una persona viene considerato il numero di amici molto cari che ogni persona possiede. I dati relativi al numero di amici in un gruppo di 8 donne e 7 uomini sono riportati nella seguente tabella: Femmine 5 7 8 3 7 6 8 1 Maschi 5 1 8 1 3 2 2 (a) Calcolare la media e lo scarto quadratico medio nei due gruppi degli uomini e delle donne. (b) Scrivere l’ipotesi nulla per verificare se le medie incognita del numero di amici siano le stesse nei due gruppi. (c) Calcolare il valore della statistica test. (d) Trovare il valore soglia fissato il livello del test α = 0.05. (e) Qual è la decisione a livello α = 0.05. (f) Calcolare il valore approssimato del p-value. 3. È stata svolta un indagine per capire se le persone sopra i 18 anni sono favorevoli ad una maggior restrizione per il possesso di un’arma da fuoco. I risultati divisi per genere sono raccolti nella seguente tabella: 11.4. ESERCIZI 149 Favorevoli Contrari N Maschi 92 74 166 Femmine 120 85 205 (a) Calcolare la proporzione di favorevoli ad una maggiore restrizione nei due gruppi degli uomini e delle donne. (b) Scrivere l’ipotesi nulla per verificare se le proporzioni incognite dei favorevoli ad una maggiore restrizione siano uguali nei due gruppi. (c) Calcolare il valore della statistica test. (d) Trovare il valore soglia fissato il livello del test α = 0.05. (e) Qual è la decisione a livello α = 0.05. (f) Calcolare il valore approssimato del p-value. 150 CAPITOLO 11. CONFRONTO DI MEDIE Appendice A Tavole Statistiche In questa appendice sono riportate le tavole statistiche utilizzate nel testo e che potranno essere utili per risolvere gli esercizi. La Tavola A.1 riporta i valori dell’area sotto la curva Normale da 0 a un qualunque valore z positivo. Quest’area è riportata nella Figura A.1. Si noti come per valori di z maggiori di 3.3 il valore dell’area è approssimato con 0.50 che 0.0 0.1 0.2 0.3 0.4 N(0,1) −3 −2 −1 0 1 z 2 3 z Figura A.1: Area sotto la curva normale standardizzata della regione da 0 fino al generico z score. è invece l’area sotto la curva fino a + infinito. Si ricordi l’osservazione fatta nel Capitolo 6, dove si è sottolineato che la curva Normale è asintotica all’asse delle ascisse, quindi la curva si avvicina all’asse delle ascisse senza mai toccarlo. 151 152 APPENDICE A. TAVOLE STATISTICHE 0.0 0.1 0.2 0.3 0.4 N(0,1) −3 Area z 0.00 0.0 0.000 0.1 0.040 0.2 0.079 0.3 0.118 0.4 0.155 0.5 0.191 0.6 0.226 0.7 0.258 0.8 0.288 0.9 0.316 1.0 0.341 1.1 0.364 1.2 0.385 1.3 0.403 1.4 0.419 1.5 0.433 1.6 0.445 1.7 0.455 1.8 0.464 1.9 0.471 2.0 0.477 2.1 0.482 2.2 0.486 2.3 0.489 2.4 0.492 2.5 0.494 2.6 0.495 2.7 0.497 2.8 0.497 2.9 0.498 3.0 0.499 3.1 0.499 3.2 0.499 3.3 0.500 3.4 0.500 3.5 0.500 −2 −1 0 1 z 2 3 z 0.01 0.004 0.044 0.083 0.122 0.159 0.195 0.229 0.261 0.291 0.319 0.344 0.367 0.387 0.405 0.421 0.434 0.446 0.456 0.465 0.472 0.478 0.483 0.486 0.490 0.492 0.494 0.495 0.497 0.498 0.498 0.499 0.499 0.499 0.500 0.500 0.500 0.02 0.008 0.048 0.087 0.126 0.163 0.198 0.232 0.264 0.294 0.321 0.346 0.369 0.389 0.407 0.422 0.436 0.447 0.457 0.466 0.473 0.478 0.483 0.487 0.490 0.492 0.494 0.496 0.497 0.498 0.498 0.499 0.499 0.499 0.500 0.500 0.500 0.03 0.012 0.052 0.091 0.129 0.166 0.202 0.236 0.267 0.297 0.324 0.348 0.371 0.391 0.408 0.424 0.437 0.448 0.458 0.466 0.473 0.479 0.483 0.487 0.490 0.492 0.494 0.496 0.497 0.498 0.498 0.499 0.499 0.499 0.500 0.500 0.500 0.04 0.016 0.056 0.095 0.133 0.170 0.205 0.239 0.270 0.300 0.326 0.351 0.373 0.393 0.410 0.425 0.438 0.449 0.459 0.467 0.474 0.479 0.484 0.487 0.490 0.493 0.494 0.496 0.497 0.498 0.498 0.499 0.499 0.499 0.500 0.500 0.500 0.05 0.020 0.060 0.099 0.137 0.174 0.209 0.242 0.273 0.302 0.329 0.353 0.375 0.394 0.411 0.426 0.439 0.451 0.460 0.468 0.474 0.480 0.484 0.488 0.491 0.493 0.495 0.496 0.497 0.498 0.498 0.499 0.499 0.499 0.500 0.500 0.500 0.06 0.024 0.064 0.103 0.141 0.177 0.212 0.245 0.276 0.305 0.331 0.355 0.377 0.396 0.413 0.428 0.441 0.452 0.461 0.469 0.475 0.480 0.485 0.488 0.491 0.493 0.495 0.496 0.497 0.498 0.498 0.499 0.499 0.499 0.500 0.500 0.500 0.07 0.028 0.067 0.106 0.144 0.181 0.216 0.249 0.279 0.308 0.334 0.358 0.379 0.398 0.415 0.429 0.442 0.453 0.462 0.469 0.476 0.481 0.485 0.488 0.491 0.493 0.495 0.496 0.497 0.498 0.499 0.499 0.499 0.499 0.500 0.500 0.500 0.08 0.032 0.071 0.110 0.148 0.184 0.219 0.252 0.282 0.311 0.336 0.360 0.381 0.400 0.416 0.431 0.443 0.454 0.462 0.470 0.476 0.481 0.485 0.489 0.491 0.493 0.495 0.496 0.497 0.498 0.499 0.499 0.499 0.499 0.500 0.500 0.500 0.09 0.036 0.075 0.114 0.152 0.188 0.222 0.255 0.285 0.313 0.339 0.362 0.383 0.401 0.418 0.432 0.444 0.454 0.463 0.471 0.477 0.482 0.486 0.489 0.492 0.494 0.495 0.496 0.497 0.498 0.499 0.499 0.499 0.499 0.500 0.500 0.500 Tabella A.1: Tavola della Normale standard. Valori dell’area sotto la curva Normale da z positivo a +∞. Per calcolare l’area sotto la curva per l’intervallo (0, 1.51) si cerca il valore all’incrocio della riga 1.5 e della colonna 0.01, cioè l’area è 0.434. 153 0.0 0.1 0.2 0.3 0.4 N(0,1) −3 Area z 0.00 0.0 0.500 0.1 0.460 0.2 0.421 0.3 0.382 0.4 0.345 0.5 0.309 0.6 0.274 0.7 0.242 0.8 0.212 0.9 0.184 1.0 0.159 1.1 0.136 1.2 0.115 1.3 0.097 1.4 0.081 1.5 0.067 1.6 0.055 1.7 0.045 1.8 0.036 1.9 0.029 2.0 0.023 2.1 0.018 2.2 0.014 2.3 0.011 2.4 0.008 2.5 0.006 2.6 0.005 2.7 0.003 2.8 0.003 2.9 0.002 3.0 0.001 3.1 0.001 3.2 0.001 3.3 0.000 3.4 0.000 3.5 0.000 −2 −1 0 1 z 2 3 z 0.01 0.496 0.456 0.417 0.378 0.341 0.305 0.271 0.239 0.209 0.181 0.156 0.133 0.113 0.095 0.079 0.066 0.054 0.044 0.035 0.028 0.022 0.017 0.014 0.010 0.008 0.006 0.005 0.003 0.002 0.002 0.001 0.001 0.001 0.000 0.000 0.000 0.02 0.492 0.452 0.413 0.374 0.337 0.302 0.268 0.236 0.206 0.179 0.154 0.131 0.111 0.093 0.078 0.064 0.053 0.043 0.034 0.027 0.022 0.017 0.013 0.010 0.008 0.006 0.004 0.003 0.002 0.002 0.001 0.001 0.001 0.000 0.000 0.000 0.03 0.488 0.448 0.409 0.371 0.334 0.298 0.264 0.233 0.203 0.176 0.152 0.129 0.109 0.092 0.076 0.063 0.052 0.042 0.034 0.027 0.021 0.017 0.013 0.010 0.008 0.006 0.004 0.003 0.002 0.002 0.001 0.001 0.001 0.000 0.000 0.000 0.04 0.484 0.444 0.405 0.367 0.330 0.295 0.261 0.230 0.200 0.174 0.149 0.127 0.107 0.090 0.075 0.062 0.051 0.041 0.033 0.026 0.021 0.016 0.013 0.010 0.007 0.006 0.004 0.003 0.002 0.002 0.001 0.001 0.001 0.000 0.000 0.000 0.05 0.480 0.440 0.401 0.363 0.326 0.291 0.258 0.227 0.198 0.171 0.147 0.125 0.106 0.089 0.074 0.061 0.049 0.040 0.032 0.026 0.020 0.016 0.012 0.009 0.007 0.005 0.004 0.003 0.002 0.002 0.001 0.001 0.001 0.000 0.000 0.000 0.06 0.476 0.436 0.397 0.359 0.323 0.288 0.255 0.224 0.195 0.169 0.145 0.123 0.104 0.087 0.072 0.059 0.048 0.039 0.031 0.025 0.020 0.015 0.012 0.009 0.007 0.005 0.004 0.003 0.002 0.002 0.001 0.001 0.001 0.000 0.000 0.000 0.07 0.472 0.433 0.394 0.356 0.319 0.284 0.251 0.221 0.192 0.166 0.142 0.121 0.102 0.085 0.071 0.058 0.047 0.038 0.031 0.024 0.019 0.015 0.012 0.009 0.007 0.005 0.004 0.003 0.002 0.001 0.001 0.001 0.001 0.000 0.000 0.000 0.08 0.468 0.429 0.390 0.352 0.316 0.281 0.248 0.218 0.189 0.164 0.140 0.119 0.100 0.084 0.069 0.057 0.046 0.038 0.030 0.024 0.019 0.015 0.011 0.009 0.007 0.005 0.004 0.003 0.002 0.001 0.001 0.001 0.001 0.000 0.000 0.000 0.09 0.464 0.425 0.386 0.348 0.312 0.278 0.245 0.215 0.187 0.161 0.138 0.117 0.099 0.082 0.068 0.056 0.046 0.037 0.029 0.023 0.018 0.014 0.011 0.008 0.006 0.005 0.004 0.003 0.002 0.001 0.001 0.001 0.001 0.000 0.000 0.000 Tabella A.2: Tavola della Normale standard. Valori dell’area sotto la curva Normale da z positivo a +∞. Per calcolare l’area sotto la curva per l’intervallo (1.51, +∞) si cerca il valore all’incrocio della riga 1.5 e della colonna 0.01, cioè l’area è 0.066. 154 APPENDICE A. TAVOLE STATISTICHE 0.0 0.1 0.2 0.3 0.4 N(0,1) −3 Area z 0.00 0.0 0.000 -0.1 0.040 -0.2 0.079 -0.3 0.118 -0.4 0.155 -0.5 0.191 -0.6 0.226 -0.7 0.258 -0.8 0.288 -0.9 0.316 -1.0 0.341 -1.1 0.364 -1.2 0.385 -1.3 0.403 -1.4 0.419 -1.5 0.433 -1.6 0.445 -1.7 0.455 -1.8 0.464 -1.9 0.471 -2.0 0.477 -2.1 0.482 -2.2 0.486 -2.3 0.489 -2.4 0.492 -2.5 0.494 -2.6 0.495 -2.7 0.497 -2.8 0.497 -2.9 0.498 -3.0 0.499 -3.1 0.499 -3.2 0.499 -3.3 0.500 -3.4 0.500 -3.5 0.500 −2 z −1 0 1 2 3 z -0.01 0.004 0.044 0.083 0.122 0.159 0.195 0.229 0.261 0.291 0.319 0.344 0.367 0.387 0.405 0.421 0.434 0.446 0.456 0.465 0.472 0.478 0.483 0.486 0.490 0.492 0.494 0.495 0.497 0.498 0.498 0.499 0.499 0.499 0.500 0.500 0.500 -0.02 0.008 0.048 0.087 0.126 0.163 0.198 0.232 0.264 0.294 0.321 0.346 0.369 0.389 0.407 0.422 0.436 0.447 0.457 0.466 0.473 0.478 0.483 0.487 0.490 0.492 0.494 0.496 0.497 0.498 0.498 0.499 0.499 0.499 0.500 0.500 0.500 -0.03 0.012 0.052 0.091 0.129 0.166 0.202 0.236 0.267 0.297 0.324 0.348 0.371 0.391 0.408 0.424 0.437 0.448 0.458 0.466 0.473 0.479 0.483 0.487 0.490 0.492 0.494 0.496 0.497 0.498 0.498 0.499 0.499 0.499 0.500 0.500 0.500 -0.04 0.016 0.056 0.095 0.133 0.170 0.205 0.239 0.270 0.300 0.326 0.351 0.373 0.393 0.410 0.425 0.438 0.449 0.459 0.467 0.474 0.479 0.484 0.487 0.490 0.493 0.494 0.496 0.497 0.498 0.498 0.499 0.499 0.499 0.500 0.500 0.500 -0.05 0.020 0.060 0.099 0.137 0.174 0.209 0.242 0.273 0.302 0.329 0.353 0.375 0.394 0.411 0.426 0.439 0.451 0.460 0.468 0.474 0.480 0.484 0.488 0.491 0.493 0.495 0.496 0.497 0.498 0.498 0.499 0.499 0.499 0.500 0.500 0.500 -0.06 0.024 0.064 0.103 0.141 0.177 0.212 0.245 0.276 0.305 0.331 0.355 0.377 0.396 0.413 0.428 0.441 0.452 0.461 0.469 0.475 0.480 0.485 0.488 0.491 0.493 0.495 0.496 0.497 0.498 0.498 0.499 0.499 0.499 0.500 0.500 0.500 -0.07 0.028 0.067 0.106 0.144 0.181 0.216 0.249 0.279 0.308 0.334 0.358 0.379 0.398 0.415 0.429 0.442 0.453 0.462 0.469 0.476 0.481 0.485 0.488 0.491 0.493 0.495 0.496 0.497 0.498 0.499 0.499 0.499 0.499 0.500 0.500 0.500 -0.08 0.032 0.071 0.110 0.148 0.184 0.219 0.252 0.282 0.311 0.336 0.360 0.381 0.400 0.416 0.431 0.443 0.454 0.462 0.470 0.476 0.481 0.485 0.489 0.491 0.493 0.495 0.496 0.497 0.498 0.499 0.499 0.499 0.499 0.500 0.500 0.500 -0.09 0.036 0.075 0.114 0.152 0.188 0.222 0.255 0.285 0.313 0.339 0.362 0.383 0.401 0.418 0.432 0.444 0.454 0.463 0.471 0.477 0.482 0.486 0.489 0.492 0.494 0.495 0.496 0.497 0.498 0.499 0.499 0.499 0.499 0.500 0.500 0.500 Tabella A.3: Tavola della Normale standard. Valori dell’area sotto la curva Normale da z negativo a 0. Per calcolare l’area sotto la curva per l’intervallo (−1.51, 0) si cerca il valore all’incrocio della riga −1.5 e della colonna −0.01, cioè l’area è 0.434. 155 0.0 0.1 0.2 0.3 0.4 N(0,1) −3 Area z 0.00 0.0 0.500 0.1 0.540 0.2 0.579 0.3 0.618 0.4 0.655 0.5 0.691 0.6 0.726 0.7 0.758 0.8 0.788 0.9 0.816 1.0 0.841 1.1 0.864 1.2 0.885 1.3 0.903 1.4 0.919 1.5 0.933 1.6 0.945 1.7 0.955 1.8 0.964 1.9 0.971 2.0 0.977 2.1 0.982 2.2 0.986 2.3 0.989 2.4 0.992 2.5 0.994 2.6 0.995 2.7 0.997 2.8 0.997 2.9 0.998 3.0 0.999 3.1 0.999 3.2 0.999 3.3 1.000 3.4 1.000 3.5 1.000 −2 −1 0 1 z 2 3 z 0.01 0.504 0.544 0.583 0.622 0.659 0.695 0.729 0.761 0.791 0.819 0.844 0.867 0.887 0.905 0.921 0.934 0.946 0.956 0.965 0.972 0.978 0.983 0.986 0.990 0.992 0.994 0.995 0.997 0.998 0.998 0.999 0.999 0.999 1.000 1.000 1.000 0.02 0.508 0.548 0.587 0.626 0.663 0.698 0.732 0.764 0.794 0.821 0.846 0.869 0.889 0.907 0.922 0.936 0.947 0.957 0.966 0.973 0.978 0.983 0.987 0.990 0.992 0.994 0.996 0.997 0.998 0.998 0.999 0.999 0.999 1.000 1.000 1.000 0.03 0.512 0.552 0.591 0.629 0.666 0.702 0.736 0.767 0.797 0.824 0.848 0.871 0.891 0.908 0.924 0.937 0.948 0.958 0.966 0.973 0.979 0.983 0.987 0.990 0.992 0.994 0.996 0.997 0.998 0.998 0.999 0.999 0.999 1.000 1.000 1.000 0.04 0.516 0.556 0.595 0.633 0.670 0.705 0.739 0.770 0.800 0.826 0.851 0.873 0.893 0.910 0.925 0.938 0.949 0.959 0.967 0.974 0.979 0.984 0.987 0.990 0.993 0.994 0.996 0.997 0.998 0.998 0.999 0.999 0.999 1.000 1.000 1.000 0.05 0.520 0.560 0.599 0.637 0.674 0.709 0.742 0.773 0.802 0.829 0.853 0.875 0.894 0.911 0.926 0.939 0.951 0.960 0.968 0.974 0.980 0.984 0.988 0.991 0.993 0.995 0.996 0.997 0.998 0.998 0.999 0.999 0.999 1.000 1.000 1.000 0.06 0.524 0.564 0.603 0.641 0.677 0.712 0.745 0.776 0.805 0.831 0.855 0.877 0.896 0.913 0.928 0.941 0.952 0.961 0.969 0.975 0.980 0.985 0.988 0.991 0.993 0.995 0.996 0.997 0.998 0.998 0.999 0.999 0.999 1.000 1.000 1.000 0.07 0.528 0.567 0.606 0.644 0.681 0.716 0.749 0.779 0.808 0.834 0.858 0.879 0.898 0.915 0.929 0.942 0.953 0.962 0.969 0.976 0.981 0.985 0.988 0.991 0.993 0.995 0.996 0.997 0.998 0.999 0.999 0.999 0.999 1.000 1.000 1.000 0.08 0.532 0.571 0.610 0.648 0.684 0.719 0.752 0.782 0.811 0.836 0.860 0.881 0.900 0.916 0.931 0.943 0.954 0.962 0.970 0.976 0.981 0.985 0.989 0.991 0.993 0.995 0.996 0.997 0.998 0.999 0.999 0.999 0.999 1.000 1.000 1.000 0.09 0.536 0.575 0.614 0.652 0.688 0.722 0.755 0.785 0.813 0.839 0.862 0.883 0.901 0.918 0.932 0.944 0.954 0.963 0.971 0.977 0.982 0.986 0.989 0.992 0.994 0.995 0.996 0.997 0.998 0.999 0.999 0.999 0.999 1.000 1.000 1.000 Tabella A.4: Tavola della Normale standard. Valori dell’area sotto la curva Normale da z positivo a +∞. Per calcolare l’area sotto la curva per l’intervallo (−∞, 1.51) si cerca il valore all’incrocio della riga 1.5 e della colonna 0.01, cioè l’area è 0.934. 156 APPENDICE A. TAVOLE STATISTICHE Area sotto la distribuzione t di Student g −5 Area p g 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞ −3 −1 0 1 tp 3 5 0.75 0.90 0.95 0.975 0.99 0.995 0.9995 1.00000 0.81650 0.76489 0.74070 0.72669 0.71756 0.71114 0.70639 0.70272 0.69981 0.69745 0.69548 0.69383 0.69242 0.69120 0.69013 0.68920 0.68836 0.68762 0.68695 0.68635 0.68581 0.68531 0.68485 0.68443 0.68404 0.68368 0.68335 0.68304 0.68276 0.68067 0.67860 0.67654 0.67449 3.07768 1.88562 1.63775 1.53321 1.47588 1.43976 1.41492 1.39682 1.38303 1.37218 1.36343 1.35622 1.35017 1.34503 1.34061 1.33676 1.33338 1.33039 1.32773 1.32534 1.32319 1.32124 1.31946 1.31784 1.31635 1.31497 1.31370 1.31253 1.31143 1.31042 1.30308 1.29582 1.28865 1.28155 6.31375 2.91999 2.35338 2.13185 2.01505 1.94318 1.89458 1.85955 1.83311 1.81246 1.79588 1.78229 1.77093 1.76131 1.75305 1.74588 1.73961 1.73406 1.72913 1.72472 1.72074 1.71714 1.71387 1.71088 1.70814 1.70562 1.70329 1.70113 1.69913 1.69726 1.68385 1.67065 1.65765 1.64485 12.70620 4.30265 3.18245 2.77645 2.57058 2.44691 2.36462 2.30600 2.26216 2.22814 2.20099 2.17881 2.16037 2.14479 2.13145 2.11991 2.10982 2.10092 2.09302 2.08596 2.07961 2.07387 2.06866 2.06390 2.05954 2.05553 2.05183 2.04841 2.04523 2.04227 2.02108 2.00030 1.97993 1.95996 31.82052 6.96456 4.54070 3.74695 3.36493 3.14267 2.99795 2.89646 2.82144 2.76377 2.71808 2.68100 2.65031 2.62449 2.60248 2.58349 2.56693 2.55238 2.53948 2.52798 2.51765 2.50832 2.49987 2.49216 2.48511 2.47863 2.47266 2.46714 2.46202 2.45726 2.42326 2.39012 2.35782 2.32635 63.65674 9.92484 5.84091 4.60410 4.03216 3.70743 3.49948 3.35539 3.24984 3.16927 3.10581 3.05454 3.01228 2.97684 2.94671 2.92078 2.89823 2.87844 2.86093 2.84534 2.83136 2.81876 2.80734 2.79694 2.78744 2.77871 2.77068 2.76326 2.75639 2.75000 2.70446 2.66028 2.61742 2.57583 636.61925 31.59905 12.92398 8.61030 6.86883 5.95882 5.40790 5.04131 4.78091 4.58689 4.43698 4.31779 4.22083 4.14045 4.07277 4.01500 3.96513 3.92165 3.88341 3.84952 3.81928 3.79213 3.76763 3.74540 3.72514 3.70661 3.68959 3.67391 3.65941 3.64596 3.55097 3.46020 3.37345 3.29053 Tabella A.5: Tavola della t di Student. La tavola restituisce i valori di tgp dove g sono i gradi di libertà. Si tenga sempre conto della relazione tgp = −tg1−p . 157 p g 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0.750 0.900 0.950 0.975 0.990 0.995 0.9995 1.32330 2.77259 4.10834 5.38527 6.62568 7.84080 9.03715 10.21885 11.38875 12.54886 13.70069 14.84540 15.98391 17.11693 18.24509 19.36886 20.48868 21.60489 22.71781 23.82769 24.93478 26.03927 27.14134 28.24115 29.33885 30.43457 31.52841 32.62049 33.71091 34.79974 2.70554 4.60517 6.25139 7.77944 9.23636 10.64464 12.01704 13.36157 14.68366 15.98718 17.27501 18.54935 19.81193 21.06414 22.30713 23.54183 24.76904 25.98942 27.20357 28.41198 29.61509 30.81328 32.00690 33.19624 34.38159 35.56317 36.74122 37.91592 39.08747 40.25602 3.84146 5.99146 7.81473 9.48773 11.07050 12.59159 14.06714 15.50731 16.91898 18.30704 19.67514 21.02607 22.36203 23.68479 24.99579 26.29623 27.58711 28.86930 30.14353 31.41043 32.67057 33.92444 35.17246 36.41503 37.65248 38.88514 40.11327 41.33714 42.55697 43.77297 5.02389 7.37776 9.34840 11.14329 12.83250 14.44938 16.01276 17.53455 19.02277 20.48318 21.92005 23.33666 24.73560 26.11895 27.48839 28.84535 30.19101 31.52638 32.85233 34.16961 35.47888 36.78071 38.07563 39.36408 40.64647 41.92317 43.19451 44.46079 45.72229 46.97924 6.63490 9.21034 11.34487 13.27670 15.08627 16.81189 18.47531 20.09024 21.66599 23.20925 24.72497 26.21697 27.68825 29.14124 30.57791 31.99993 33.40866 34.80531 36.19087 37.56623 38.93217 40.28936 41.63840 42.97982 44.31410 45.64168 46.96294 48.27824 49.58788 50.89218 7.87944 10.59663 12.83816 14.86026 16.74960 18.54758 20.27774 21.95495 23.58935 25.18818 26.75685 28.29952 29.81947 31.31935 32.80132 34.26719 35.71847 37.15645 38.58226 39.99685 41.40106 42.79565 44.18128 45.55851 46.92789 48.28988 49.64492 50.99338 52.33562 53.67196 12.11567 15.20180 17.73000 19.99735 22.10533 24.10280 26.01777 27.86805 29.66581 31.41981 33.13662 34.82127 36.47779 38.10940 39.71876 41.30807 42.87921 44.43377 45.97312 47.49845 49.01081 50.51112 52.00019 53.47875 54.94746 56.40689 57.85759 59.30003 60.73465 62.16185 Tabella A.6: Tavola del χ2 . La tavola restituisce i valori di χgp dove g sono i gradi di libertà. . 158 APPENDICE A. TAVOLE STATISTICHE Appendice B Soluzioni di alcuni esercizi Soluzione dell’Esercizio 2.8.2 1. La Tabella B.1 riporta le frequenze assolute. A solo titolo d’esempio per ottenere i il valore 385 che rappresenta il numero di mamme con lavoro autonomo e alle quali è capitato di lavorare e lo hanno apprezzato, occorre partire dalla percentuale 8% che rappresenta la percentuale di mamme che hanno lavorato e lo hanno apprezzato tra le mamme con lavoro autonomo. La proporzione è la seguente: 8 : 100 = x : 4813 Dove x è il valore che cerchiamo e si ricava come x = 8 ∗ 4813/100, da cui x = 385.04 che arrotondiamo a 385. Allo stesso modo si ottengono le altre frequenze assolute all’interno della tabella. 2. La distribuzione delle frequenze assolute della variabile Stato lavorativo durante la gravidanza la si legge a margine della tabella, nell’ultima colonna. Nella Tabella ?? si riportano le frequenze richieste. Stato lavorativo Si è capitato e l’ho apprezzato Si è capitato ma ne avrei fatto a meno Si è capitato ma ho potuto decidere quando No non è capitato Tipo lavoro Dipendente Autonomo 385 87 530 283 866 348 3032 369 4813 1087 472 813 1214 3401 5900 Tabella B.1: Tabella delle frequenze assolute delle mamme in base al tipo di lavoro (Dipendente o Autonomo) e allo stato lavorativo durante la gravidanza, catalogato con le 4 modalità riportate. Campione di 5900 unità. Dati dal sito corriere.it. 159 160 APPENDICE B. SOLUZIONI DI ALCUNI ESERCIZI Stato lavorativo Si è capitato e l’ho apprezzato Si è capitato ma ne avrei fatto a meno Si è capitato ma ho potuto decidere quando No non è capitato ni 472 813 1214 3401 5900 fi 0.08 0.14 0.20 0.58 1.00 pi 8% 14% 20% 58% 100% Tabella B.2: Tabella delle frequenze assolute relative e percentuali della variabile Stato lavorativo durante la gravidanza, catalogato con le 4 modalità riportate. Campione di 5900 unità. Dati dal sito corriere.it. Bibliografia [1] Bloch, A., (1988) La legge di Murphy, E altri motivi per cui le cose vanno a rovescio, Longanesi. 161