a.a. 2009/10 Laurea triennale in Scienze della Natura Matematica ed Elementi di Statistica Statistica descrittiva Avvertenza Questi sono appunti “informali” delle lezioni, che vengono resi disponibili per comodità degli studenti. Parte del materiale presentato è tratto dai libri di testo consigliati, la cui consultazione è vivamente incoraggiata. – p. 1/2 Terminologia Gli oggetti della nostra indagine prendono il nome di unità statistiche. Le unità statistiche possono essere persone, animali, cose, ma anche gruppi di persone, animali, cose, oppure una stessa persona, animale, cosa osservata più volte. Tutte le unità statistiche costituiscono la popolazione statistica; di solito eseguiamo le osservazioni su un campione. Perché? E come si sceglie il campione? Le caratteristiche che vogliamo osservare prendono il nome di variabili statistiche. Matematicamente parlando, una variabile statistica è una funzione, che a ogni unità statistica in esame associa uno e un solo valore. Le variabili possono essere • non numeriche (qualitative, categoriche, attributi) • numeriche (quantitative, misurabili), discrete o continue Quando si svolge un’indagine statistica occorre specificare: • quali e quante sono le unità statistiche • quali e quante sono le variabili, e in quali unità di misura sono espresse – p. 2/2 Esempio Per gli studenti seduti nelle prime due file possiamo considerare le seguenti variabili: – sesso (maschio, femmina) non numerica – età (anni) numerica discreta – scuola di provenienza (L, IP, IT, altro) non numerica – voto di maturità (centesimi) numerica discreta – altezza (centimetri) numerica continua Esempio Numero di risposte esatte fornite al test di valutazione di settembre 2009 (vedi Foglio 1). – p. 3/2 Distribuzione di una variabile Determinare la distribuzione di una variabile significa stabilire quali “valori” essa assume e le frequenze (assolute, relative, percentuali) con cui li assume. Esempio Determiniamo la distribuzione delle variabili “scuola di provenienza” (L, IP, IT, altro) “altezza” (in centimetri) per gli studenti seduti nelle prime due file. Esempio Determiniamo la distribuzione della variabile “risposte esatte” fornite al test di settembre 2009 (vedi Foglio 2). – p. 4/2 Dati grezzi e dati raggruppati Dati poco numerosi −→ dati grezzi Dati numerosi −→ dati raggruppati • suddivisione dei dati in classi • variabile non numerica: modalità • variabile numerica: gruppi di valori contigui • calcolo delle frequenze (assolute, relative, percentuali) di ogni classe Nella determinazione delle classi per una variabile numerica: • numero “giusto” (regola pratica: ⌊log2 N ⌋ + 1 ) • ampiezza (stessa ampiezza o ampiezze diverse) • estremi (classi non sovrapposte) • rappresentante della classe: valore centrale Esempio: vedi Foglio 3 – p. 5/2 Esempio Nella seguente tabella sono riportate le durate (in giorni) dei ricoveri ospedalieri di 60 pazienti in un certo reparto: 9 6 14 11 7 6 13 12 15 7 6 7 15 8 13 7 3 13 8 9 7 11 10 18 8 8 13 11 5 6 12 13 8 14 13 16 11 20 4 12 13 14 6 7 17 1 10 7 11 6 9 12 9 4 10 7 10 13 14 11 Suddividere opportunamente i dati in classi e costruire la corrispondente tabella delle frequenze. (Vedi Foglio 4) Per esercizio: costruire la tabella delle frequenze (assolute, relative) cumulate. – p. 6/2 Rappresentazione grafica di una variabile categorica • grafici a torta (aerogrammi) (note tutte le categorie) • grafici a barre (per le frequenze assolute o relative) Esempi: vedi Foglio 5 Esercizio I decessi di giovani tra i 15 e i 24 anni avvenuti negli U.S.A. nel 2000 hanno avuto le seguenti cause principali: incidenti d’auto 13 616 omicidi 3 877 tumore 1 688 malattie di cuore 931 difetti congeniti 425 a) Rappresentare i dati con un grafico a barre. b) Si può realizzare un grafico a torta? Spiegare. – p. 7/2 Rappresentazione grafica di una variabile quantitativa Per insiemi di dati non molto numerosi: diagrammi fusto-foglia (stem and leaf) Altrimenti: istogrammi • Passo 1: suddivisione dei dati in classi (gruppi di valori contigui) – uguale ampiezza – numero “giusto” – non sovrapposte • Passo 2: calcolo delle frequenze (assolute o relative) di ogni classe • Passo 3: disegno dell’istogramma, cioè il grafico a barre delle frequenze (assolute o relative) delle classi. – Asse orizzontale: scala della variabile – Asse verticale: scala della frequenza Esempi: vedi Fogli 6 e 7 Classi di ampiezza non costante? – p. 8/2 Cosa possiamo “leggere” su un istogramma? • Forma presenza di picchi distribuzione simmetrica distribuzione asimmetrica (a destra, a sinistra) • Centro (punto che divide a metà l’area dell’istogramma) • Dispersione (intervallo dei dati) • Outlier (valori che si discostano molto da “tutti gli altri”) – p. 9/2 Rappresentazione numerica di una distribuzione Sia X una variabile statistica numerica e siano X1 , X2 , . . . , XN i valori dei dati relativi a un campionamento. Introduciamo delle statistiche, ossia delle grandezze numeriche calcolabili a partire dai dati X1 , . . . , XN , che sintetizzino i dati stessi, mettendo in evidenza alcune proprietà della distribuzione della variabile X . In particolare: • misure del centro: media, mediana, moda • misure della dispersione: varianza, deviazione standard, scarto interquartile – p. 10/2 Media campionaria La media (campionaria) mX è definita dalla formula mX X1 + X2 + · · · + XN := N N X 1 = Xk N k=1 Osservazione La media si calcola agevolmente a partire dalla tabella delle frequenze. Infatti, se x1 , . . . , xn sono i valori distinti assunti dai dati e F1 , . . . , Fk sono le rispettive frequenze assolute, si ha n n n X X 1 X Fi Fi xi = xi = fi xi , mX = N N i=1 i=1 i=1 Fi dove fi := è la frequenza relativa del valore xi . N Esempio Calcoliamo la media delle età degli studenti seduti oggi in prima fila. – p. 11/2 Mediana campionaria La mediana (campionaria) M è definita dal seguente procedimento: • disponiamo gli N dati del campione in ordine crescente; • se N è dispari, M è il valore del dato che corrisponde all’intero successivo a N/2 ; • se N è pari, M è la media aritmetica dei dati in posizione N/2 e N/2 + 1 . Esempio Calcoliamo la mediana delle età degli studenti seduti oggi in prima fila. Osservazioni • la mediana separa in due parti uguali l’insieme dei dati; • (almeno) metà dei dati sono minori o uguali a M e (almeno) metà dei dati sono maggiori o uguali a M ; • anche la mediana si calcola agevolmente a partire dalla tabella delle frequenze. – p. 12/2 Confronto tra media e mediana • Se la distribuzione è esattamente simmetrica, media e mediana coincidono; • se la distribuzione è asimmetrica, la media si trova “più all’esterno sulla coda lunga” rispetto alla mediana; • la media dipende dalle osservazioni “estreme”; • la mediana non dipende dalle osservazioni estreme (è una misura robusta del centro) Esempi: vedi Foglio 8 – p. 13/2 Classi modali e moda Supponiamo che i dati siano espressi mediante la loro appartenenza a diverse classi. La distribuzione si dice unimodale se esiste un’unica classe la cui frequenza è massima. Tale classe è detta classe modale. Se le classi sono individuate da numeri, il numero che individua la classe modale si chiama moda. Osservazioni Si può parlare di classe modale anche per una variabile non numerica. Non tutte le distribuzioni sono unimodali; se esistono più valori con frequenza massima, ciascuno di essi è detto valore modale. Esempi Calcoliamo la moda (o i valori modali) delle età degli studenti seduti oggi in prima fila. Individuiamo la moda (o i valori modali) delle distribuzioni dei Fogli 5 e 7. – p. 14/2 Varianza e deviazione standard campionarie Sia X una variabile statistica numerica e siano X1 , X2 , . . . , XN i valori dei dati relativi a un campionamento. Sia mX la media campionaria. La varianza campionaria s2X è definita dalla formula N s2X 1 X := (Xi − mX )2 N −1 i=1 La deviazione standard campionaria sX è la radice quadrata della varianza: v u N u 1 X (Xi − mX )2 . sX := t N −1 i=1 Media, varianza e deviazione standard della popolazione. . . – p. 15/2 Esempio Calcoliamo media, varianza e deviazione standard campionarie dei due insiemi di dati: A : 3, 4, 6, 7, 10 B : −20, 5, 15, 24 Osservazione L’esempio precedente mostra che due distribuzioni possono avere medie uguali e deviazioni standard diverse. Inoltre, due distribuzioni possono avere stessa media e deviazione standard ma forme molto diverse. Esempio: vedi Foglio 9 Ciò vuol dire che la media mX e la deviazione standard sX da sole non bastano a caratterizzare una distribuzione. – p. 16/2 La disuguaglianza di Chebyshev Sia assegnato un insieme di dati X1 , . . . , XN con media mX e deviazione standard sX > 0 . Per ogni α ≥ 1 sia nα il numero di indici i tali che mX − αsX < Xi < mX + αsX . Risulta: nα 1 > 1 − 2. N α ↑ percentuale dei dati compresi tra mX − αsX e mX + αsX Per esempio, quali che siano i dati, • almeno il 55% di essi è compreso tra mX − 1.5sX e mX + 1.5sX • almeno il 75% di essi è compreso tra mX − 2sX e mX + 2sX • almeno l’88% di essi è compreso tra mX − 3sX e mX + 3sX Esempio: vedi Foglio 10 – p. 17/2 Insiemi di dati approssimativamente normali Diciamo che un insieme di dati è approssimativamente normale se • circa il 68% dei dati è compreso tra mX − sX e mX + sX ; • circa il 95% dei dati è compreso tra mX − 2sX e mX + 2sX ; • circa il 99.7% dei dati è compreso tra mX − 3sX e mX + 3sX . L’istogramma di un insieme di dati approssimativamente normale ha una forma “a campana”. (Torneremo sull’argomento in seguito.) Esempio: vedi Foglio 10 – p. 18/2 Percentili (indici di posizione) Sia k un numero intero con 0 ≤ k ≤ 100 . Assegnato un insieme di dati numerici, vogliamo individuare il dato (o i dati) con la proprietà di essere contemporaneamente maggiore o uguale di almeno il k percento dei dati e minore o uguale di almeno il (100 − k) percento dei dati. Disponiamo gli N dati in ordine crescente X1 ≤ X2 ≤ . . . ≤ XN e poniamo p = k/100 . • Se N p è un numero intero, sia XN p che XN p+1 hanno la proprietà richiesta; in questo caso, definiamo il k -esimo percentile come la media aritmetica di XN p e XN p+1 . • Se N p non è un numero intero, l’unico dato con la proprietà richiesta è X⌊N p⌋+1 ; in questo caso, il k -esimo percentile è, per definizione, proprio X⌊N p⌋+1 . – p. 19/2 Alcuni percentili “speciali”: • il 50-esimo percentile, ossia la mediana M : almeno il 50% dei dati è minore o uguale di M e almeno il 50% dei dati è maggiore o uguale di M ; • il 25-esimo percentile, detto primo quartile e denotato con Q1 : almeno il 25% dei dati è minore o uguale di Q1 e almeno il 75% dei dati è maggiore o uguale di Q1 ; • il 75-esimo percentile, detto terzo quartile e denotato con Q3 : almeno il 75% dei dati è minore o uguale di Q3 e almeno il 25% dei dati è maggiore o uguale di Q3 ; • il decimo percentile, detto primo decile: almeno il 10% dei dati è minore o uguale del primo decile e almeno il 90% dei dati è maggiore o uguale del primo decile; • il 20-esimo percentile, detto secondo decile; • . . . e così via . . . Esempi: vedi Foglio 11 Procedimento alternativo per il calcolo dei percentili. . . – p. 20/2 Misure della dispersione legate agli indici di posizione: • Massimo − Minimo campo di variazione o range • IQR := Q3 − Q1 scarto interquartile Confronto tra deviazione standard, range e scarto interquartile: • la deviazione standard dipende dalle osservazioni “estreme”; • il range dipende dalle osservazioni “estreme”; • lo scarto interquartile non dipende dalle osservazioni “estreme”. Esempio: vedi Foglio 12 Identificazione degli outlier sospetti Un dato viene considerato un possibile outlier se si trova più di 1.5 × IQR al di sotto del primo quartile oppure al di sopra del terzo quartile. Esempio: vedi Foglio 12 – p. 21/2