APPENDICE A Elementi di statistica descrittiva Andrea Sambusetti e-mail: [email protected] URL: http://www.mat.uniroma1.it/people/sambusetti La statistica descrittiva ha lo scopo di analizzare e interpretare delle serie di dati, allo scopo di suggerire tendenze e strategie, fornire test di verosimiglianza e creare modelli probabilistici che aiutino a prevedere (compito che è più specificatamente l’oggetto della statistica inferenziale e del calcolo delle probabilità). 1. Distribuzioni di dati, rappresentazione, frequenze Una distribuzione di dati è descritta, in generale, da una funzione X : Ω → V, dove Ω è l’insieme delle prove, o osservazioni, o popolazione, e V è l’insieme dei valori che una certa osservazione può dare. Ecco alcuni esempi di distribuzioni: • il valore di un carattere in una certa popolazione, come per es. le età degli studenti di una classe: qui Ω è l’insieme degli studenti, V l’insieme delle età; • il risultato di un numero ripetuto di misurazioni, come per es. la temperatura rilevata in un certo sito al variare del tempo: qui Ω è l’insieme dei tempi ai quali si effettua la misurazione, e V è l’insieme delle temperature rilevate. Spesso, quando si tratta di prove o misure ripetute, Ω può essere preso uguale all’insieme {1, ..., n} (dove n è il numero delle prove); in tal caso, conoscere una distribuzione X vuol dire conoscere gli n valori X(i) = xi , dunque X può essere assimilata ad una sequenza ordinata di valori (x1 , ..., xn ) (comunemente abbreviata con (xi )n ). Notiamo che l’insieme dei valori V di una distribuzione può essere numerico o no. Per esempio: la distribuzione che indica il giorno della settimana di massima affluenza in ciascun ufficio postale di una città (in cui l’insieme dei valori V è l’insieme dei giorni della settimana); oppure, la stessa distribuzione delle età in una popolazione, se raccolte per intervalli (in cui l’insieme V è un insieme di intervalli, per es. tra 0 e 10 anni, tra 11 e 20 ecc.), Tra i vari metodi utilizzati per riassumere e visualizzare le distribuzioni ci sono: diagrammi cartesiani per punti, spezzate o grafici. Di seguito, ecco un esempio per ognuno di essi: 1 2 Appendice : elementi di statistica descrittiva Esercizio A.1.1. Per ciascuna delle distribuzioni alle figure 1-2-3-4, specificare l’insieme Ω delle “prove” e l’insieme V dei valori: Figura 1. Distribuzione dell’età in una classe Figura 2. Distribuzione degli intervalli di reddito medio per regione Figura 3. Distribuzione dell’anomalia termometrica media terrestre in ◦ C Un metodo sintetico alternativo per dare una distribuzione consiste nello specificare, per ciascun valore x ∈ V possibile, la sua frequenza: cioè il numero f (x) = #X −1 (x) dei casi per i quali si ottiene il valore x. In questo modo la distribuzione può essere “riassunta” da una tabella riportante per ogni x la relativa frequenza f (x). Per esempio, la tabella associata alla distribuzione delle età nell’esercizio A.1.1, Figura 1, è: x = età 18 19 20 21 22 23 f (x) 7 17 13 7 3 3 A. Sambusetti 3 Si noti che tale tabella non contiene precisamente la stessa quantità di informazione della distribuzione iniziale (si può dedurre da essa quali sono gli studenti che hanno 20 anni?) ma, per molti fini statistici, essa rimpiazza adeguatamente la conoscenza precisa della distribuzione. Si noti inoltre che la somma di tutte le frequenze è sempre uguale al numero di prove n (perché?); i numeri fˆ(x)/n sono detti frequenze relative, e danno quindi sempre somma 1. Esercizio A.1.2. Scrivere le tabelle associate a tutte le distribuzioni dell’esercizio A.1.1. Infine, è bene conoscere un ulteriore metodo di rappresentazione della tabella di una distribuzione: gli istogrammi di frequenze e gli aerogrammi (o diagrammi a torta). Se X = (xi )n è una distribuzione di dati, l’istogramma delle frequenze di X è semplicemente il grafico della funzione-frequenze f (x) in funzione dei valori possibili x, i quali vengono rappresentati su un asse come intervallini. Si noti che le frequenze sono valori numerici pertanto è sempre possibile confrontarli numericamente (al contrario dei valori x della distribuzione X, che possono non essere numerici): l’istogramma permette precisamente un confronto “visivo” immediato dei valori assunti con maggiore frequenza. Per rendere geometricamente più intuitivo tale confronto, i valori possibili x vengono rappresentati con intervallini di uguale ampiezza, in modo che l’area dei rettangolini risultanti sia esattamente proporzionale alle frequenze 1. Un diagramma a torta per X consiste invece in un cerchio, suddiviso in tanti spicchi di area (o arco sotteso) proporzionale alla frequenze f (x); lo spicchio relativo ad un valore x corrisponde dunque ad un angolo al centro α(x) dato dalla proporzione f (x) : n = α(x) : 2π cioè α(x) = ( 2π n )f (x). L’area degli spicchi dà quindi un’idea immediata della proporzione delle frequenze relative fˆ(x), cioè il rapporto tra le varie frequenze ed il numero totale delle osservazioni. Esempio A.1.3. L’istogramma delle frequenze e l’aerogramma della distribuzione delle età nell’Esercizio A.1.1, Figura 1, sono: Esercizio A.1.4. Costruire gli areogrammi delle altre distribuzioni dell’esercizio A.1.1, Figure 2 e 3. 1Qualora i valori x siano intervalli, è buona norma rappresentarli sull’asse con ampiezza proporzionale alla loro misura, in modo che le aree dei vari rettangolini dell’istogramma risulti proporzionale anche a tali ampiezze. 4 Appendice : elementi di statistica descrittiva Infine, già dalla Figura 3 dell’esempio A.1.1, osserviamo che può essere utile prendere per insiemi Ω e V degli insiemi continui; quando, per esempio, l’insieme delle “osservazioni” tenda ad infittirsi in un intervallo reale, o quando la relazione tra osservazioni e valori sia meglio descritta da una legge empirica espressa da una funzione di variabile reale. Qui di seguito (Figura 4) portiamo un esempio in cui la distribuzione esprime la crescita di una coltura di batteri in funzione del tempo, e chiaramente il valore quantità di batteri è misurato più efficacemente come un volume (una quantità continua), piuttosto che dal loro numero (una quantità discreta), ed il tempo è pensato come continuo. Figura 4. Distribuzione della crescita di una coltura batterica: X(t) = v0 2t (cm3 di volume in funzione del tempo, espresso in giorni t ≥ 0) Può essere utile sapere cosa sono le “frequenze” nel caso di una distribuzione continua come in Figura 4. Difatti, se Ω è un insieme infinito, come un intervallo, i numeri f (x) = #X −1 (x) perdono di senso (un valore può essere assunto da un’infinità di “osservazioni”!). Ricordiamo che la proprietà fondamentale delle frequenze è di dare una misura di quante volte un certo valore è assunto rispetto al numero di osservazioni totali; ovvero, il numero di osservazioni che danno un risultato compreso tra x1 e x2 si calcola tramite le frequenze come: X (1.1) #X −1 (x1 , x2 ) = #{i ∈ Ω | X(i) ∈ (x1 , x2 )} = f (x) x∈(x1 ,x2 ) Se desideriamo una nozione di frequenza con una proprietà analoga, nel caso di una distribuzione data da una funzione continua di variabile reale X : Ω = [a, b] → V ⊂ R, si può procedere nel seguente modo: – dobbiamo considerare una misura per sottoinsiemi A ⊂ R (e non più il semplice “numero di punti”), Z che si definisce come `[A] = χA (t)dt R dove χA è la funzione caratteristica dell’insieme A: tale misura è, per un’unione di intervalli, precisamente la somma delle loro ampiezze; – quindi introduciamo la funzione ripartizione F : R → R di X come F (x) = `[X −1 (−∞, x)] la funzione, cioè, che dà la misura del sottoinsieme di Ω su cui X vale meno di x; – infine definiamo la “frequenza” del valore x della distribuzione come f (x) = F 0 (x); solamente, nel contesto continuo, tale funzione frequenza si chiama densità (della distribuzione X, in x). Esempio A.1.5. Nel caso della distribuzione X(t) = v0 e2t in Figura 5, si ottiene: ( ( log2 (x/v0 ), se x ≥ v0 log2 (e/x) se x ≥ v0 F (x) = , f (x) = 0 se x < v0 0 se x < v0 . A. Sambusetti 5 Qualora questo processo risulti possibile (il che dipende dalla bontà della distribuzione iniziale X), la funzione densità f (x) sostituisce egregiamente l’idea di “frequenza del valore x” nel caso continuo; infatti si ha, per il teorema fondamentale del calcolo integrale: Z x2 (1.2) `[X −1 (x1 , x2 )] = `[X −1 (−∞, x2 )]−`[X −1 (−∞, x1 )] = F (x2 )−F (x1 ) = f (x)dx x1 cioè la misura del sottoinsieme di Ω su cui X assume valori compresi tra x1 e x2 è precisamente dato dall’integrale (non più una somma) della funzione f sull’intervallo (x1 , x2 ). La formula (1.2) è allora proprio l’analogo della (1.1) nel caso continuo. In queste note, comunque, ci limiteremo comunque quasi esclusivamente allo studio di distribuzioni discrete, cioè per le quali l’insieme delle osservazioni Ω sia finito. 2 2. Indici di posizione Data una distribuzione di dati , è spesso utile riassumere il suo andamento con dei numeri, o indicatori. Gli indicatori che andremo a definire sono di due tipi: indici di posizione (media, mediana, mode) e indici di dispersione (scarto assoluto e scarto quadratico medio). I primi indicano dei valori “tipici” (in un senso da precisare) della distribuzione, i secondi misurano quanto i valori della distribuzione si discostano da tali valori tipici. Definizione A.2.1. Sia X = (x1 , ..., xn ) una distribuzione n dati. Si definisce: P • media (aritmetica) della distribuzione X il numero M (X) = n1 ni=1 xi ; • mediana di X è il numero ottenuto rinumerando gli (xi ) in ordine crescente, e quindi prendendo “il valore di mezzo”: ( x n+1 se n è dispari 2 M e(X) = 1 n n se n è pari 2 (x 2 + x 2 +1 ) • moda di X il valore M o(X) = {xi | fX (xi ) è massimo} che ha frequenza massima. Si noti subito che: i) la media si può calcolare anche come: M (X) = 1 n Pn xi 6=xj fX (xi )xi . ii) la mediana prova a rispondere al problema di trovare un valore y che divide la popolazione in due classi di ugual numerosità, una composta dalla parte della popolazione su cui la distribuzione vale meno di y, l’altra su cui vale più di y. Me(X) risolve il problema nel caso n pari se i valori “centrali” x n2 , x n2 +1 sono differenti, o nel caso n dispari se il valore centrale x n+1 è assunto una sola volta; altrimenti, può comunque esserci uno squilibrio 2 numerico 3 tra il sottoinsieme della popolazione con valori inferiori a M e(X) e quello con valori superiori a M e(X) (come mostra il prossimo Esempio A.2.2). iii) la moda non è necessariamente unica: se vi è più di un valore di frequenza massima, si sono vari massimi relativi, si parla di mode di X, e di distribuzione plurimodale 4. 2 Il termine “discreto” assume in matematica, per variabili aleatorie e per spazi astratti, un significato più generale di quello utilizzato qui. 3Me(X) minimizza comunque la differenza di numerosità tra due classi della popolazione con la proprietà di avere valori rispettivamente inferiore e superiore a un numero y fissato, cf. Teorema A.3.6(ii). 4Quindi, una distribuzione con due valori di frequenza massima si dirà bimodale; ma si dirà bimodale anche una distribuzione il cui grafico delle frequenze abbia due massimi relativi, non necessariamente uguali. In ogni caso, i valori corrispondenti si chiameranno prima, seconda moda, ecc. cf. Exempio A.3.4. 6 Appendice : elementi di statistica descrittiva Notiamo inoltre che mentre media e mediana hanno senso solo per distribuzioni di dati numerici, la moda può esser presa in considerazione per qualsiasi tipo di dati (p.es., se i valori sono giorni della settimana). Esempio A.2.2. Per la distribuzione dell’esercizio A.1.1, Figura 1, si ha: M (X) = 19.82, M e(X) = 20 e M o(X) = 19. Notare che il numero di studenti di età inferiore a M e(X) è 24 ed il numero di studenti con età superiore è 25! Di seguito vediamo alcuni esempi che ci illustrano il tipico utilizzo di questi indici. Esercizio A.2.3 (♥). Il reddito mensile in una regione d’Italia è distribuito per fasce (in percentuale ad una popolazione di N famiglie) secondo la seguente tabella: Keuro % Pop. < .5 3 .5/1 7 1/1.5 25 1.5/2 28 2/2.5 20 2.5/3 10 3/3.5 3 3.5/4 2 4/4.5 1 4.5/5 1 Sapendo che ogni famiglia spende circa il 10% del suo reddito in beni voluttuari ed il 5% in energia, rispondere ai seguenti problemi: (i) la Electronics Spa vuole produrre dei lettori mp3 da vendere nella regione considerata. Qual è il massimo prezzo di vendita che la Electronics può fissare se desidera che il suo prodotto sia accessibile alla maggioranza delle famiglie? (ii) la Energy Spa ha il monopolio della produzione di energia nella regione. Quanti milioni di euro di energia al massimo la Energy ha interesse a produrre? Soluzione. In questo esempio, i valori sono intervalli [xi , yi ) (cioè abbiamo coppie di valori) mentre la seconda riga dà le frequenze fi , espresse in percentuale (dunque a somma n = 100). Nel caso (i), la Electronics è interessata alle frequenze della distribuzione, e precisamente al valore x al di sotto del quale si trova il (10% del) reddito della maggioranza delle famiglie; pertanto si calcolerà la mediana dei redditi, o più precisamente un “intervallo mediano”, che ha estremi M e((xi )n ) = 1.5 e M e((yi )n ) = 2. La Electronics ha dunque interesse a produrre lettori di prezzo inferiore a 10% · 1.5kA C = 150 euro. Nel caso (ii), la Energy è interessata più al al totale dei redditi che alla distribuzione delle frequenze: essa deve provvedere al fabbisogno minimo di energia, e non superare il massimo vendibile; quindi deve produrre almeno il 5%xi di euro di energia per ogni i-ma fascia di reddito e non più del 5%yi . Sapendo che N è il numero totale di famiglie, segue che la Energy dovrà produrre energia, in euro, compresa tra i valori X X N N x= 5%xi · fi · = 5%N · M ((xi )n ) ed y = 5%yi · fi · = 5%N · M ((yi )n ). 100 100 xi 6=xj yi 6=yj Come si vede, la risposta richiede dunque il calcolo delle medie M ((xi )n ) = 16 e M ((yi )n ) = 20.85, e fornisce x = 45 N e y = 1.0425N . Esercizio A.2.4 (♥). I clienti di una banca si distribuiscono agli sportelli secondo la seguente statistica settimanale Giorno lun mar mer gio ven % Clienti 30 20 30 15 5 (i) Secondo quale indicatore statistico un cliente (intelligente) sceglie il giorno in cui recarsi in banca? (ii) Secondo quale indicatore statistico il direttore misura l’efficienza della propria filiale, e cosa vorrebbe minimizzare? Soluzione. In questo caso, la distribuzione ha come valori i giorni della settimana, ed è un esempio di utilità della moda. Si tratta chiaramente di una distribuzione bimodale, con due valori (il lunedı̀ e il mercoledı̀) che hanno frequenza massima: un cliente accorto tende ad evitare tali giorni i giorni, corrispondenti alle due mode pari al 30%. D’altronde, un direttore respondabile tenderà a influenzare il pubblico in modo che le frequenze fi dei vari giorni della settimana siano circa tutte uguali; poiché il totale delle frequenze (espresse in percentuale) è 100, ed i giorni lavorativi sono 5, il direttore vorrebbe ottenere delle frequenze fi il più possibile vicine a 20, la media delle frequenze (attenzione: non la media deiPvalori, che non sono numerici!). Uno stima di quanto la filiale sia efficiente è dunque dato dal numero i |fi − 20|: più tale numero è vicino a zero, più si è vicini alla situazione “ideale”. A. Sambusetti 7 Esercizio A.2.5. I membri di un’amministrazione locale ha a disposizione i seguenti dati sulla natalità nella propria regione: N. figli 0 1 2 3 4 5 % Famiglie 20 40 30 7 2 1 (i) Dire quale indice statistico studieranno per sapere se la popolazione locale è in aumento o in decremento, e per decidere una conseguente politica demografica; (ii) se vogliono scegliere un contributo minimo da erogare sulla base del numero di figli, assicurandosi la maggior parte dei consensi, quale indicatore sceglieranno e come lo useranno? Esercizio A.2.6. La seguente rappresenta la tabella del tasso di mortalità (percentuale dei decessi per fascia di età, sul totale della popolazione) di una regione italiana nel 2010. età mortalità 0 − 10 0.7% 11 − 20 0.05% 21 − 30 0.1% 31 − 40 0.2% 41 − 50 1% 51 − 60 2% 61 − 70 4% 71 − 80 1% 81 − 90 0.5% 91 − 100 0.2% (i) In una conservatoria dell’anagrafe si vogliono distribuire le pratiche in due stanze di dimensioni più o meno uguali. Quale criterio statistico si seguirà per effettuare la divisione delle pratiche? (ii) L’INPS vuole avere una stima grezza del numero totale di anni di pensione che dovrà pagare alla popolazione attuale della regione, immaginando che tutti vadano in pensione a 70 anni. Quale indicatore statistico studierà e perché? Quanti sono gli anni attesi? Per una persona di età x, il numero M (X) − x è detto aspettativa di vita della persona. Una compagnia assicurativa, per le polizze-vita, chiede un premio che è strettamente correlato (negativamente) all’aspettativa di vita della persona che lo richiede. Vediamo qui un primo esempio in cui le distribuzioni statistiche sono utlizzate per la creazione di modelli probabilistici, il cui studio ci porterebbe molto lontano. L’introduzione e la giustificazione di tali modelli a partire dai dati statistici è oggetto del calcolo delle probabilità. Esistono analoghi indicatori per distribuzioni continue. Se X : [a, b] → V = [m, M ] ha funzione densità f : [m, M ] → R si definiscono, in completa analogia con il caso discreto: Rb RM 1 1 • media della distribuzione X, il numero M (X) = |b−a| X(t)dt = |b−a| xf (x)dx a m (questa ultima formula sarebbe da dimostrare!); • mediana di X, il valore M e(X) = x0 tale che `[X −1 (−∞, x0 )] = `[X −1 (x0 , +∞)], cioè che separa [a, b] in due sottoinsiemi, che danno valori rispettivamente inferiori e superiori a x0 , di ugual misura (se si conosce la funzione di ripartizione F (x), è l’unico valore x0 tale che F (x0 ) = 21 (b − a)); • mode M oi (X), cioè i massimi relativi della funzione densità f (x) (ordinati in ordine decrescente). 3. Indici di dispersione Per stimare, come nell’Esercizio (ii), quanto i valori di una distribuzione siano distanti dal valore medio, si introducono gli indici di dispersione: Definizione A.3.1. Sia X = (x1 , ..., xn ) una distribuzione di n dati. Si definisce: • scarto di un valore x dalla media, il numero x − M (X); analogamente si parlerà di scarto assoluto e scarto quadratico per i numeri |x − M (X)| e (x − M (X))2 ; P • scarto assoluto medio della distribuzione X, il numero M AD(X) = n1 ni=1 |xi −M (X)| (MAD sta per “mean absolute deviation”) ; P • scarto quadratico medio5 o varianza di X, il numero V AR(X) = n1 ni=1 (xi − M (X))2 ; • deviazione standard di X, il numero σ(X) = q P p V AR(X) = n1 ni=1 (xi − M (X))2 . 5In alcuni testi, con abuso di linguaggio, lo scarto quadratico medio è definito differentemente da qui come la radice della media degli scarti quadratici. 8 Appendice : elementi di statistica descrittiva Si noti che: i) per una misura della bontà delle distribuzione di X attorno al valore medio M (X), si prende la media degli scarti assoluti o quadratici, e non semplicemente la media degli scarti; ciò in quanto la media degli scarti dà sempre: P P M ( (xi − M (X))n ) = n1 i (xi − M (X)) = n1 i xi − M (X) = 0 quindi non è significativa! ii) la deviazione standard è un indicatore preferibile rispetto alla varianza in quanto ha la piacevole proprietà di essere dimensionalmente omogeneo con i dati (cioè: se i dati sono in metri, anche la deviazione standard è in metri, mentre la varianza è in m2 ). iii) M AD(X) e σ(X) sono nulli se e solo tutti i valori xi sono uguali al valore medio, e crescono mano mano che ci sono più valori distanti dal valore medio: in questo senso, sono degli stimatori di quanto la distribuzione è prossima o lontana dalla media. Osservazione A.3.2. È importante notare che tutti gli indici sinora introdotti possono essere calcolati a partire dalla tabella della distribuzione, in quanto ottenuti conoscendo i valori xi e le rispettive frequenze fi , tramite le formule equivalenti: M AD(X) = 1 X fi |xi − M (X)| n xi 6=xj V AR(X) = 1 X fi (xi − M (X))2 n xi 6=xj Queste formule sono ottenute semplicemente raggruppando, nella definizione di M AD e V AR, gli fi addendi di ugual valore |xi − M (X)|, (xi − M (X))2 . La conoscenza precisa della funzione distribuzione (cioè X : Ω → V) non è richiesta; anzi, ai fini di una descrizione statistica, la tabella (cioè l’istogramma delle frequenze) risulta sempre più chiara e leggibile, come lo dimostra un tentativo di lettura della Figura 1 rispetto alla Figura 4. Esempio A.3.3. Calcoliamo gli indici di dispersione per la distribuzione dell’esercizio A.1.1, Figura 1. Per non fare errori, è consigliato di sistemare i dati parziali (somma delle frequenze, scarti assoluti, scarti quadratici ecc) in una tabella, quindi fare le somme: Si tratta evidentemente di una distribuzione unimodale con dati distribuiti molto vicino al valore medio: σ(X) è infatti piccola rispetto ai valori delle età. Per distribuzioni con un gran numero di valori e frequenze, come il prossimo esempio, è vivamente consigliato l’uso di un foglio di calcolo... A. Sambusetti 9 Esempio A.3.4. Calcoliamo indici di posizione e indici di dispersione per la distribuzione dell’età dei professori ordinari in Italia: Come si vede dall’istogramma delle frequenze, si tratta di una distribuzione bimodale, e non sembra troppo centrata attorno al valore medio. Eseguiamo i calcoli necessari alla verifica in una tabella: 10 Appendice : elementi di statistica descrittiva Il calcolo degli indici di posizione e di dispersione ci dà due risultati interessanti: – la media, in questo caso, è poco rappresentativa; difatti non è vero che la maggior parte dei docenti abbia età attorno ai 52 anni! Questa è una caratteristica comune delle distribuzioni bimodali, le cui due mode siano relative a valori distanti; in tal caso la media dei due valori più rappresentativi relativi alle due mode (in questo caso: 42 e 62) dà un valore ottenuto con frequenza decisamente piú bassa. – gli indici di dispersione sono piuttosto alti (sempre rispetto ai valori della distribuzione), e questo giustifica numericamente l’impressione di dispersione della distribuzione dal valore medio. Esercizio A.3.5. Calcolare media, mediana, mode, scarto assoluto medio, scarto quadratico medio e deviazione standard, e dire in ciascun caso cosa suggeriscono gli indicatori statistici, per: (i) le distribuzioni nell’ Esercizio A.1.1 (Figure 2 e 3); (ii) la distribuzione nell’Esempio A.2.3; (iii) la distribuzione delle frequenze nell’Esempio 3; (iv) la distribuzione nell’ Esercizio A.2.5; (v) la distribuzione nell’ Esercizio A.2.6. Perché media e mediana si considerano valori caratteristici per una distribuzione di dati? Una ragione, oltre alle varie esposte precedentemente, è la seguente proprietà di questi due indici : Teorema A.3.6. Sia X = (x1 , ..., xn ) una distribuzione discreta di n dati, e sia y un numero fissato. Consideriamo le quantità n X M AD(X, y) = |xi − y|, detta scarto assoluto medio di X da y i=1 V AR(X, y) = n X (xi − y)2 , detta scarto quadratico medio di X da y i=1 Allora: (i) M e(X) è il valore di y per il quale M AD(X, y) è minimo ; (ii) M (X) è il valore di y per il quale V AR(X, y) è minimo. Cioè, se si vuole considerare una nozione di “dispersione”, o “distanza”, di una serie di dati da un valore fissato y (rispetto a misure naturali della dispersione come: somma degli scarti assoluti o quadratici da y), i valori più adeguati per y sono proprio la media e mediana, in quanto minimizzano tale dispersione. Dimostrazione. (i) Sia y0 = M e(X). Per definizione, vi sono tanti valori xi minori (visualmente, “alla sinistra”) di y0 di quanti ve ne sono alla destra di y0 . Supponiamo ora che y = y0 + ∆, con ∆ > 0: allora, per tutti i valori xi a sinistra di y0 , si ha che |xi − y| è uguale a |xi − y0 | aumentato di ∆, mentre per tutti i valori xi alla destra di y0 , si ha |xi − y| = |(xi − y0 ) − ∆| ≥ |xi − y0 | − ∆ (disuguaglianza stretta se tra y0 e y cade qualche xi ); pertanto la somma di tutti i termini |xi − y| risulta superiore o uguale alla somma di tutti i termini |xi − y0 |. Ciò mostra che la funzione M AD(X, y) ha un minimo in y = y0 . (ii) Si ha (svolgendo i calcoli) !2 n n n n X X 1X 1 X 2 2 2 V AR(X, y) = xi − 2y xi + ny = n y − xi + (1 − ) xi n n i=1 i=1 i=1 i=1 P e questa funzione di y è minima quando il termine (y − n1 i xi )2 è minimo; ciò accade quando fa zero, cioè proprio per y = M (X). A. Sambusetti 11 Riassumiamo quanto imparato in questo capitolo dalla teoria e dagli esercizi in uno specchietto riepilogativo: indicatori di posizione M (X) M e(X) M o(X) vantaggi – interessa il totale dei valori – – – – – – minimizza lo scarto quadratico medio descrive la maggioranza dei valori fa (in genere) parte dei valori di X poco sensibile ad errori nei dati minimizza lo scarto assoluto medio utile per distribuzioni non numeriche svantaggi – poco rappresentativa se X è bimodale – non fa (in genere) parte dei valori di X – sensibile ad errori nei dati – X centrata vicino a M (X) sse σ(X) è piccolo – scarsa rappresentazione del totale dei valori – X centrata vicino a M e(X) sse M AD(X) è piccolo – poco interessante se X non ha picchi Gli indici di dispersione di una distribuzione continua X : [a, b] → V = [m, M ] si definiscono in maniera naturale, e si esprimono tramite la funzione densità f : V → R come Z b Z M 1 1 |X(t) − M (X)|dt = |x − M (X)|f (x)dx M AD(X) = b−a a b−a m Z b Z M p 1 1 V AR(X) = (X(t) − M (X))2 dt = [x − M (X)]2 f (x)dx σ(X) = V AR(X). b−a a b−a m 4. Cambi di scala. Una delle operazioni più frequenti in statistica è il cambio di scala. Ciò significa, data una distribuzione X = (xi )n , applicare una trasformazione y = F (x) (biunivoca, monotona) a tutti gli xi , ottenendo una nuova distribuzione Y = (yi )n . I cambiamenti di scala più comuni sono i cambi di scala lineari e logaritmici, corrispondenti cioè a trasformazioni del tipo (4.1) yi = mxi + q (m 6= 0) cambio di scala lineare6 (4.2) yi = Log(pxi ) (pxi > 0) cambio di scala logaritmico I riscalamenti lineari sono utilizzati per trasformare dei dati (xi ) in dati (yi ) in modo che yi − y1 =m xi − x1 cioè tali rapporti siano indipendenti da i. I valori vengono quindi riscalati secondo un criterio di “giustizia”: a differenze uguali tra i valori xi corrispondono differenze uguali tra i dati riscalati yi . Per esempio : Esercizio A.4.1. Sia X = (2, 4, 5, 6, 10, 14, 18, 20) la distribuzione dei punti riportati da otto studenti al primo esonero, su un totale di 20 possibili per il totale degli esercizi. Riscalare linearmente i voti affinché 8 corrisponda al voto di 18 trentesimi e 20 corrisponda a 30 trentesimi. Soluzione. Questo esercizio è importante per capire come procedere con i riscalamenti lineari. Siano xi i voti originali e yi i voti riscalati, da determinare. La formula di riscalamento lineare 4.1 rappresenta l’equazione di una retta nel piano oxy; in tale piano, un punto P rappresenta una coppia (x, y) la cui ascissa è il valore x da riscalare, e la cui ordinata è il valore riscalato y. Per trovare la formula di riscalamento con le proprietà desiderate è allora sufficiente scrivere l’equazione della retta r che passa per i due punti y−18 x−6 P1 = (x1 , y1 ) = (6, 18) e P2 = (x2 , y2 ) = (20, 30) data da r : 30−18 = 20−6 , cioè y = 67 (x + 15). 6Un riscalamento lineare (4.1) si dirà concorde se m > 0 (in tal caso, l’ordine dei dati è conservato). 12 Appendice : elementi di statistica descrittiva Le scale logaritmiche sono utilizzate invece per serie di dati di grandezza molto variabile; è immediato verificare che se gli (yi ) sono ottenuti per riscalamento logaritmico dagli (xi ) secondo la formula (4.2), si ha xi yi − y1 = Log( ) x1 cioè i rapporti uguali tra gli xi corrispondono differenze uguali tra i dati riscalati yi . Per esempio, per i terremoti, in cui l’ampiezza delle onde e dell’energia rilasciata può avere variazioni molto grandi, si usa una scala logaritmica (la scala Richter): ad un’oscillazione x del sismografo a 100km dall’epicentro, si associa il valore y = Log(p · x) nella nuova scala (per una certa costante di calibrazione p): Esercizio A.4.2. La tabella mostra la scala Richter degli eventi a lato indicati: Conoscendo la legge di riscalamento logaritmico della scala Richter sopra descritta y = Log(p · x): (i) calcolare la differenza di ampiezza delle onde sismiche tra quelle registrate per Chernobyl e quelle registrate per Haiti; (ii) trovare il valore delle ampiezze delle onde registrate, a partire dai dati sulla scala Richter (ammettiamo p = 1, per semplicità) e provare a fare un istogramma delle ampiezze. Soluzione. Per entrambi i punti, per recuperare i valori delle ampiezze x a partire dai valori y nella scala Richter, si deve invertire la formula y = Log(px). Per (i), sappiamo che y5 − y3 = 7 − 3.87 = 2.13 = Log(px5 ) − Log(px3 ) = Log( xx35 ) da cui x5 = 102.13 x3 . Cioè le onde, nel caso di Haiti, sono state circa 100 volte più ampie di quelle registrate a Chernobyl. 7 Quanto a (ii), la formula inversa è x = p−1 10y quindi otteniamo (per p = 1) la tabella: scala Richter ampiezza 7 0.2 1.58 1 10 3.87 7413.1 5.5 316227.77 7 107 7.1 1.26E + 008 8.35 2.24E + 008 12.55 3.55E + 012 Notate che non c’è stato bisogno di utilizzare il valore della costante di calibrazione p. A. Sambusetti 13 dove gli ultimi dati sono scritti in notazione scientifica per il gran numero di cifre. Un tentativo di istogramma delle ampiezze darebbe: Questo esempio dovrebbe convincervi del perché si usi una scala logaritmica: altrimenti l’istogramma risulta illeggibile! La seguente proposizione mostra come cambiano gli indici di posizione e di dispersione quando si esegue un cambiamento di scala lineare: Proposizione A.4.3. Sia Y = (yi )n la distribuzione ottenuta riscalando linarmente la distribuzione X = (xi )n , secondo la formula yi = mxi + q. Allora si ha: (i) M (Y ) = mM (X) + q; (ii) M e(Y ) = mM e(X) + q; (ii) M o(Y ) = mM o(X) + q; (iii) M AD(Y ) = |m|M AD(X); (iv) V AR(Y ) = m2 V AR(X); (v) σ(Y ) = |m|σ(X). In particolare, ogni distribuzione X = (xi )n può essere trasformata in una nuova distribuzione X̂ = (x̂i )n avente M (X̂) = 0 e σ(X̂) = 1, applicando il riscalamento lineare 1 x̂i = (xi − M (X)) σ(X) Questo riscalamento riveste una particolare importanza, come vedremo nel prossimo paragrafo, ed è detto riscalamento normale o standard di X. Dimostrazione. Se i dati X = (xi )n sono ordinati in ordine crescente, un riscalamento lineare preserva l’ordine se m > 0, o lo inverte se m < 0; in ogni caso, il valore mediano viene conservato, quindi la nuova mediana è il valore della vecchia mediana, riscalato secondo la stessa legge. Discorso analogo per le mode: la nuova distribuzione ha per valori yi di frequenza massima (assoluti o relativi) quelli corrispondenti agli xi di frequenza massima della vecchia distribuzione. Ciò dimostra (i) e (iii). Verifichiamo ora le altre formule: P P P M (Y ) = n1 ni=1 yi = n1 ni=1 (mxi + q) = m · n1 ni=1 xi + n1 · nq = mM (X) + q e dunque P P M AD(Y ) = n1 ni=1 |yi − M (Y )| = n1 ni=1 |mxi + q − mM (X) − q| = |m|M AD(X) P P V ARY ) = n1 ni=1 (yi − M (Y ))2 = n1 ni=1 (mxi + q − mM (X) − q)2 = m2 V AR(X) da cui segue anche la formula per la deviazione standard. 14 Appendice : elementi di statistica descrittiva 5. Correlazione. Immaginiamo di avere due distribuzioni numeriche discrete di dati X = (xi )n ed Y = (yi )n , che non ci sembrino del tutto indipendenti l’una dall’altra. Potrebbe essere il caso, per esempio, per il numero di automobili che transitano vicino ad un certo sito archeologico, e l’indice di annerimento dei monumenti in quel sito. Viene spontaneo il problema di definire un indicatore statistico che misuri quanto i due dati siano effettivamente legati tra loro: questo problema è oggetto della teoria della correlazione, di cui di seguito riportiamo i primi elementi. Due distribuzioni numeriche di n dati X = (xi )n ed Y = (yi )n possono essere visualizzate contemporaneamente come un insieme di punti Pi = (xi , yi ) nel piano cartesiano oxy. Esse appariranno a priori come una nuvola disordinata di punti: nel caso invece in cui tale “nuvola” approssimi l’andamento del grafico di una funzione y = f (x) è naturale supporre l’esistenza di una legge (rilevata dalla statistica) che lega i dati yi ai dati xi . Esempio A.5.1. Guardiamo i dati dell’Esercizio A.1.1, Figura 1: sull’asse delle ascisse abbiamo i numeri di matricola X = (xi ) degli studenti, e sull’asse delle ordinate le rispettive età Y = (yi ). Le due distribuzioni di dati X, Y , visualizzate come punti (xi , yi ) formano un insieme disordinato di punti nel piano oxy, e non suggeriscono alcuna relazione tra essi: d’altronde, sarebbe ben strano che ci fosse un legame tra il numero di matricola e l’età di uno studente in una classe! 8 Esempio A.5.2. Guardiamo invece i dati dell’Esercizio A.1.1, Figura 3, limitandoci alle temperature nella seconda metà del secolo: Figura 5. Anomalia termometrica nella seconda metà del secolo L’andamento negli anni dell’anomalia termometrica (dati in rosso) sembra approssimabile grossolanamente all’andamento di una retta (disegnata in blu): questo suggerisce una correlazione lineare positiva tra il tempo e l’innalzamento della temperatura terrestre. 8 Sarebbe altrimenti se, per esempio, la tabella riportasse le distribuzioni delle età e dei numeri di matricola di tutti gli studenti di un’università: in tal caso, probabilmente, i numeri di matricola più bassi corrisponderebbero a studenti immatricolati anni prima, e dunque meno giovani, e dal grafico si riscontrerebbe una correlazione negativa: al crescere della matricola, l’età dovrebbe man mano scendere. A. Sambusetti 15 Esempio A.5.3. Il volume X(t) di una coltura batterica, misurato ad intervalli di tempo regolari, fornisce i valori in rosso nella Figura 7. L’andamento suggerisce una legge esponenziale nel tempo, del tipo f (t) = 12 et , rappresentata in blu. In tal caso, si parla di correlazione esponenziale tra il tempo e la crescita della coltura. Figura 6. Volume di una coltura batterica in funzione del tempo Come mostrato nel precedente esempio, due distribuzioni di dati Y = (yi ), X = (xi ) possono suggerire un legame tra loro di tipo lineare (cioè approssimabile con una legge di lineare del tipo y = f (x) = mx + q), ed in tal caso si parlerà di correlazione lineare; oppure una relazione di tipo esponenziale, come y = ax (si parla in tal caso di correlazione esponenziale); oppure polinomiale, come per es. y = xa (correlazione polinomiale), ecc. Nel seguito, noi ci interesseremo esclusivamente alla teoria della correlazione lineare: essa fornisce degli indicatori numerici precisi che misurano quanto sia corretto parlare di legame lineare tra due distribuzioni. Definizione A.5.4. Sia S = {(xi , yi )}, i = 1, .., n un insieme di punti nel piano oxy, ed r : y = mx + q una retta. La distanza lineare dell’insieme S dalla retta r è definita come n X ∆(S, r) = |yi − (mxi + q)| i=1 e corrisponde a sommare tutte le distanze tra i punti (xi , yi ) e i punti su r di uguali ascisse. La distanza lineare è una misura di quanto l’insieme S approssimi una retta (ovvero di quanto i valori yi dipendano linearmente dai valori xi ); essa è nulla chiaramente se e solo se S ⊂ r, cioè se esistono m, q tali che yi = mxi + q per ogni i = 1, ..., n. Teorema A.5.5. Siano X = (xi )n , Y = (yi )n due distribuzioni di n dati, ed S = {(xi , yi )} l’insieme dei punti corrispondenti nel piano oxy; supponiamo inoltre che esistano almeno x1 , x2 con x1 6= x2 (altrimenti i punti di S giacciono su una retta verticale). Definiamo covarianza delle due distribuzioni il numero n 1X [xi − M (X)] · [yi − M (Y )] COV AR(X, Y ) = n i=1 Allora, la retta r0 : y = m0 x + q0 con m0 = COV AR(X, Y ) V AR(X) q0 = M (Y ) − m0 M (X) minimizza la distanza lineare da S, cioè ∆(S, r0 ) ≤ ∆(S, r) per ogni altra retta r del piano. 16 Appendice : elementi di statistica descrittiva La retta r0 del teorema è detta retta di regressione di Y rispetto a X; essa è la retta che meglio “approssima” l’insieme S dei punti (xi , yi ) definiti dalle due distribuzioni (nel senso spiegato dal teorema). Più i punti Pi tendono ad essere allineati, più la distanza ∆(S, r0 ) dalla retta di regressione diminuisce. Come caso limite, se ∆(S, r0 ) = 0 allora si deduce che tutti i punti sono sulla retta di regressione, ovvero esiste una relazione lineare yi = m0 xi + q0 tra i dati; in tal caso i dati (xi ), (yi ) di dicono perfettamente correlati. Quando m0 > 0, i dati si dicono correlati positivamente (in quanto al crescere degli xi , gli yi tendono a crescere); se invece m0 < 0, i dati si dicono correlati negativamente (in quanto al crescere degli xi , gli yi tendono a diminuire). È chiaro infine che, maggiore è m0 (in modulo), maggiore è la variazione dei valori yi al crescere degli xi , in quanto maggiore è la pendenza della retta di regressione. Attenzione: la retta di regressione per le distribuzioni X, Y dipende da quale dei due insiemi di dati è pensato come (possibilmente) dipendente dall’altro. Difatti, il coefficiente angolare m0 della retta di regressione ha al denominatore V AR(X), se si pensa ad una relazione di dipendenza del tipo yi = f (xi ), mentre avrebbe V AR(Y ) se si pensa che gli xi dipendano dagli yi . Per questo, nel calcolo della retta di regressione, va sempre specificato quale distribuzione di dati è pensata dipendente dall’altra. Dimostrazione. Sia r : y = mx + q una retta qualsiasi. Si ha: n X ∆(S, r) = (mxi + q − yi )2 = ∆(m, q) i=1 Per ogni m fissato, ∆(m, q) è un polinomio di grado due in q, con termine di grado massimo uguale a nq 2 , dunque una parabola Pm con concavità rivolta verso l’alto. Senza fare troppi calcoli, il vertice di tale Pn parabola, cioè il minimo di ∆(m, q) per m fissato, si trova imponendo ∂q ∆(m, q) = 2 i=1 (mxi +q −yi ) = 0 (dove ∂q indica la derivata rispetto a q, per m fissato), cioè ! n n X X (5.1) n·q+ xi · m = yi . i=1 i=1 Analogamente, per ogni q fissato, P ∆(m, q) è un polinomio di grado due in m, con termine di grado massimo uguale a ( ni=1 x2i )m2 , e rappresenta una parabola Pq con concavità rivolta verso l’alto. Il vertice di tale Pn parabola, cioè il minimo di ∆(m, q) per q fissato, si trova imponendo ∂m ∆(m, q) = 2 i=1 (mxi + q − yi )xi = 0 (dove ∂m indica ora la derivata rispetto a m, per q fissato), cioè (5.2) n X i=1 ! xi ·q+ n X i=1 ! x2i ·m= n X xi yi i=1 Si noti che il sistema in (m, q) ottenuto P dalle due equazioni (5.1) e (5.2) ha matrice dei coefficienti il cui determinante vale n1 i x2i − M (X)2 = V AR(X), ed è non nullo poiché esistono per ipotesi due valori x1 6= x2 . Il minimo di ∆(m, q) è allora ottenuto dall’unica coppia (m0 , q0 ) che risolve tale sistema: infatti, per ogni altro m, q si ha ∆(m, q) ≥ ∆(m, q0 ) ≥ ∆(m0 , q0 ). A. Sambusetti 17 Risolvendo con Cramer il sistema composto da (5.1) e (5.2) si trova l’unica soluzione P n y i i P P 1 P COV AR(X, Y ) i xi i x i yi i xi yi − M (X)M (Y ) n = m0 = = P 1 P 2 2 V AR(X) i xi − M (X) n n i xi P 2 P i xi i xi P Pn n x y i=1 i i=1 i Pn Pn P 2 1 P 2 xi · M (Y ) − n1 i xi yi · M (X) i=1 xi i=1 xi yi i n = q0 = = Pn 1 P 2 2 n i xi − M (X) n i=1 xi Pn Pn 2 i=1 xi i=1 xi P − M (X)2 M (Y ) + M (X)2 M (Y ) − n1 i xi yi · M (X) = = 1 P 2 2 i xi − M (X) n ! 1 P i xi yi − M (X)M (Y ) n = M (Y ) − M (X) = M (Y ) − m0 M (X). 1 P 2 2 i xi − M (X) n 1 P 2 i xi n Facciamo qualche esempio. Esercizio A.5.6 (♥). Sei reclute hanno ottenuto i seguenti voti V = (vi ) nelle prove fisiche; per ognuno di essi, indichiamo anche altezza H = (hi ) e peso P = (pi ): voto V altezza H peso P 12 168 72 25 176 90 10 170 70 20 178 94 20 167 85 18 175 90 (i) Calcolare media e deviazione standard delle distribuzioni V, H, P ; (ii) calcolare coefficiente angolare m0 ed intercetta q0 delle rette di regressione della distribuzione V in dipendenza da H, e della distribuzione V in dipendenza da P ; (iii) che tipo di correlazione c’è tra i dati? Soluzione. Chiaramente, è ragionevole pensare che ci sia una relazione di dipendenza dei risultati ottenuti nelle prove fisiche dalle caratteristiche fisiche (altezza, peso) delle reclute, e non certo il viceversa. Questo spiega perché V è pensata dipendente da H e P . I calcoli diretti danno: V H P M 17.83 172.33 83.5 V AR 28.14 17.56 85.25 σ 5.3 4.19 9.23 COV AR(V, −) m0 (V, −) q0 (V, −) 10.06 41.58 0.57 0.49 −80.88 −22.9 Essendo m0 ∼ 0.5 in entrambi i casi, i calcoli sembrano dunque mostrare una leggera correlazione positiva di V con H e con P (le rette di regressione relative alle coppie (V, H) e (V, P ) hanno inclinazione α = arctan m0 ∼ 30◦ ). Questa conclusione andrà rivista più in là, quando parleremo di retta di regressione dei dati normalizzati. 18 Appendice : elementi di statistica descrittiva Esercizio A.5.7 (♥). Una ditta di aspirapolvere pubblicizza i suoi prodotti tramite rappresentanti inviati porta a porta. Nella seguente tabella riportiamo i profitti p (in migliaia di euro) ottenuti e il numero c di clienti visitati da sei rappresentanti: Rappresentante p c 1 6 70 2 4, 5 40 3 3, 5 20 4 2, 5 10 5 4 35 6 5, 5 65 (i) Calcolare medie e deviazioni standard di ciascuna distribuzione; (ii) calcolare i coefficienti m0 , q0 della retta di regressione, prendendo p dipendente da c; (iii) che tipo di correlazione c’e’ tra i dati? Soluzione. I calcoli diretti danno in questo caso: p c M 4.33 40 V AR 1.39 475 σ 1.18 21.79 COV AR(p, −) m0 (p, −) q0 (p, −) 25.42 0.05 4.33 Essendo m0 = 0.05 ∼ 0, i calcoli sembrano mostrare una correlazione positiva dei profitti con il numero di clienti visitati, ma bassissima: la retta di regressione relativa alle coppie (p, s) è infatti quasi orizzontale, dunque ad un aumento anche consistente di c corrisponde un aumento piccolissimo di p.... Anche in questo caso, la conclusione andrà rivista fra breve. I risultati ottenuti nei due esempi precedenti (soprattutto nel secondo) dovrebbero sollevare qualche obiezione nel lettore attento. La prima obiezione è che la teoria della correlazione ha un senso per insiemi abbastanza numerosi di dati: si pensi al fatto che, se le distribuzioni avessero solo due dati, esisterebbe sempre una retta che contiene i due punti corrispondenti! Sei dati, come nei nostri esempi, sono certamente in numero insufficiente per dedurre una qualsiasi legge empirica che leghi due serie di dati (negli esempi, si è scelto n = 6 solo per facilità di calcolo!). La seconda obiezione, più seria, è che le impressioni (grafiche e numeriche) di prossimità di una nuvola di punti alla retta di regressione, e di pendenza di tale retta (cioè quanto fortemente gli yi siano influenzati da una variazione negli xi ) dipendono dalle scale scelte per misurare i dati! Se, per esempio, in ?? i profitti fossero misurati in euro, invece di migliaia di euro, la retta di regressione risulterebbe quasi verticale, indicando una correlazione fortissima tra numero di clienti visitati e profitti! Analogamente, il coefficiente angolare delle rette di regressione nell’Esercizio A.5.6 cambierebbe drasticamente se le misure delle reclute fossero prese in metri, grammi ecc. A. Sambusetti 19 Si potrebbe pensare di ovviare a questo problema scegliendo, per ciascun tipo di dato possibile, una scala universalmente riconosciuta (per le lunghezze: i metri, per il denaro: gli euro, ecc.) ma questa è solo una soluzione apparente. Come confronteremmo, infatti, l’influenza di due serie di dati X, X 0 non omogenee su una distribuzione Y ? Si pensi, per esempio, a misurare l’influenza di altezze e peso sui risultati nelle prove fisiche delle reclute: la pendenza delle rette di regressione risulterebbe comunque dipendente dalla nostra arbitraria scelta di scala. Facciamo un esempio ancora più concreto: immaginiamo di essere chiamati a eseguire uno studio delle cause dell’annerimento dei monumenti in certi siti, al fine di stabilire una politica di preservazione: è chiara la necessità di una misura asettica dell’influenza di un dato (traffico, precipitazioni...) sull’annerimento: Esercizio A.5.8 (♥). In cinque siti differenti si sono rilevati i seguenti dati, relativi all’anno 2008, sull’ indice di annerimento 9 A dei monumenti presenti, sul numero medio giornaliero N di automobili in transito in prossimità dei sito, e sulla quantità P di precipitazioni annue (espresse in mm): sito torre asinelli (BO) palazzo Pitti (FI) S.Ambrogio (MI) S.Chiara (NA) S.Domenico (PA) colosseo (RM) A N P 6 7200 720 6 5000 600 10 8300 990 8 7100 670 4 4200 680 15 12000 690 (i) calcolare media e deviazione standard delle distribuzioni A, N e P ; (ii) calcolare coefficiente angolare m0 ed intercetta q0 delle rette di regressione della variabile A in dipendenza da N ed in dipendenza da P ; (iii) che tipo di correlazione c’e’ tra i dati? I risultati nella scala sopra utilizzata sono addirittura paradossali (svolgere l’esercizio...). Qual è dunque la “scala giusta” per misurare la correlazione tra due serie di dati? Il seguente risultato risolve i nostri dubbi, spiegando che la scala giusta è quella normale: Teorema A.5.9. Siano X = (xi )n , Y = (yi )n due distribuzioni di n dati (con almeno due valori x1 6= x2 ) e siano X̂ = (x̂i )n , Ŷ = (ŷi )n i riscalamenti normali delle due distribuzioni. La retta di regressione r̂ di Ŷ rispetto a X̂ ha le seguenti proprietà: (i) non dipende dalla scala lineare (purché concorde) scelta per misurare i dati (xi ), (yi ); (ii) ha equazione r̂ : y = Cx , dove Pn (xi − M (X))(yi − M (Y )) X̂ · Ŷ COV AR(X̂, Ŷ ) pPn C= = = pPn i=1 2 2 V AR(X̂) |X̂| |Ŷ | i=1 (xi − M (X)) i=1 (yi − M (Y )) (iii) il coefficiente angolare C appartiene all’intervallo [−1, 1], e • vale C = 1 se e solo se X̂ = Ŷ , cioè i punti (x̂i , ŷi ) giacciono sulla bisettrice del I quadrante, ed i punti originali (xi , yi ) sono allineati (rispettivamente C = −1 ses X̂ = −Ŷ , gli (x̂i , ŷi ) giacciono sulla bisettrice del IV quadrante, e i punti originali sono allineati); √ • se |C − 1| < allora |ŷi − x̂i | < 2n, cioè più C è vicino ad 1 più la differenza√ tra tutti i valori ŷi e x̂i è piccola (rispettivamente se |C − (−1)| < allora |ŷi − (−x̂i )| < 2n). 9 La brillanza B di un insieme di monumenti è la percentuale di superficie bianca sul totale (ad un certo momento T ), e può essere misurata con appositi strumenti; l’annerimento è la percentuale restante. L’indice di annerimento A(∆T ) è la quantità di annerimento (ovvero di brillanza persa) in un certo periodo di tempo ∆T fissato. 20 Appendice : elementi di statistica descrittiva Il coefficiente angolare C delle distribuzioni riscalate in modo normale è dunque la giusta misura di correlazione tra le due serie di dati; questo importante coefficiente è noto come indice di correlazione di Pearson. Attenzione: il puntino tra X̂ ed Ŷ nella formula (ii) per C denota il prodotto scalare tra i vettori (n-dimensionali) X̂, Ŷ e non va confuso con l’usuale prodotto di due numeri! Dimostrazione. Per mostrare (i), supponiamo che X 0 = aX + b e Y 0 = cY + d siano due riscalamenti lineari concordi di X e Y (per es.: gli xi misurati in cm, e x0i in metri, oppure gli yi in gradi Celsius e gli yi0 in gradi Farhenheit...). Poiché a > 0, dalle formule (ii) e (v) della Proposizione A.4.3, si deduce xb0i = 1 1 1 (x0i − M (X 0 )) = (axi + b − aM (X) − b) = (xi − M (X)) = x̂i 0 σ(X ) aσ(X) σ(X) b 0 , Yb 0 sono le stesse. ed analogamente ybi0 = ŷi . Pertanto le rette di regressione di X̂, Ŷ e di X Quindi, calcoliamo la covarianza delle distribuzioni X, Y riscalate normalmente: n n 1X 1X X̂ · Ŷ (x̂i − M (X̂))(ŷi − M (Ŷ )) = x̂i ŷi = COV AR(X̂, Ŷ ) = n n |X̂| |Ŷ | i=1 i=1 qP √ √ 2 in quanto M (X̂) = M (Ŷ ) = 0 e |X̂| = nσ(X̂) = n, ed analogamente |Ŷ | = n. i x̂i = Pertanto il coefficiente angolare m̂0 della retta di regressione di X̂, Ŷ è m̂0 = COV AR(X̂, Ŷ ) V AR(X̂) = X̂ · Ŷ |X̂| |Ŷ | n = (y − M (Y )) 1X (x − M (X)) q Pi q Pi n n n 1 1 2 2 i=1 i=1 (xi − M (X)) i=1 (yi − M (Y )) n n che dà la formula annunciata in (ii). Il fatto poi che |m̂0 | ≤ 1 segue dalla disuguaglianza di Cauchy-Schwarz: essa implica |X̂ · Ŷ | ≤ |X̂| |Ŷ | e dice che vale l’uguaglianza X̂ · Ŷ = |X̂| |Ŷ | (rispettivamente, X̂ · Ŷ = −|X̂| |Ŷ |) se e solo se Ŷ = λX̂ per qualche λ > 0 (risp. per λ < 0); ma essendo Ŷ , X̂ vettori di ugual norma, √ uguale a n, questa condizione significa precisamente Ŷ = X̂ (risp. Ŷ = −X̂). Pertanto, m̂0 = ±1 se e solo se, rispettivamente, Ŷ = ±X̂, cioè i punti riscalati (x̂i , ŷi ) sono allineati sulla bisettrice del I o IV quadrante. Inoltre, poiché un riscalamento lineare dei due assi del piano oxy trasforma rette in rette, ciò accade se e solo se i punti originali (xi , yi ) erano a loro volta tutti allineati. X̂·Ŷ Supponiamo infine che |m̂0 − 1| < ; allora |X| |Y | > 1 − e si calcola: √ √ |X̂ − Ŷ |2 = |X̂|2 + |Ŷ |2 − 2X̂ · Ŷ < |X̂|2 + |Ŷ |2 − 2(1 − )|X̂||Ŷ | = 2n − 2 n n + 2n √ il che prova che |yi − xi | < 2n e dimostra l’ultima asserzione in (iii). Ripetere i calcoli degli Esercizi A.5.6 e A.5.7 e A.5.8, prendendo come dati le distribuzioni normalizzate e calcolando l’indice di correlazione di Pearson. Reinterpretare quindi correttamente i risultati trovati. A. Sambusetti 21 Esercizio A.5.10 (♥). Nelle seguenti città si sono registrati, nel 2010, i seguenti dati di affluenza nei musei, espressi in termini di numero di biglietti B = (bi ): Roma 950.000, Madrid 500.000, Parigi 750.000, Londra 800.000, Berlino 550.000. Il numero di abitanti di queste città (indicata con A = (ai )) è riportata in tabella, espressa in milioni di abitanti: (i) Calcolare medie e varianze della popolazione A ed del numero di biglietti B (espressi nella scala più comoda) nelle cinque città; (ii) calcolare la covarianza dei due insiemi di dati, indicando quale dei due ha senso considerare come variabile dipendente; (iii) calcolare l’indice di correlazione di Pearson C e l’angolo ϑ che la retta di regressione dei dati normalizzati forma con l’asse x; (iv) cosa si può dedurre dall’analisi statistica di tali dati? Esercizio A.5.11 (♥). La tabella riporta, il numero A di automobili immatricolate (per migliaio di abitanti) ed il tempo medio H del tragitto da casa a lavoro (per abitante, espresso in minuti), nelle principali capitali europee: A H Roma 45 720 Madrid 32 430 Parigi 30 100 Londra 25 330 Berlino 25 300 (i) Calcolare medie e varianze delle due distribuzioni; (ii) calcolare la covarianza dei due insiemi di dati, indicando quale dei due ha senso considerare come variabile dipendente; (iii) calcolare l’indice di correlazione di Pearson, l’equazione della retta di regressione dei dati normalizzati e l’angolo che essa forma con l’asse x; (iv) descrivere il tipo di correlazione lineare che sussiste tra i due insiemi di dati. (Costruire una tabella come quella dell’esercizio precedente). Esercizio A.5.12 (♥). I dati seguenti sono relativi al numero di decessi, in una determinata popolazione, dovuti a problemi cardiocircolatori e a tumori in 10 anni. anno (ai ) n. decessi n. decessi per malattie cardiache n. decessi per tumori 2001 500 250 160 2002 500 251 165 2003 520 266 180 2004 530 243 175 2005 540 245 190 2006 545 250 195 2007 570 255 200 2008 580 260 195 2009 590 270 198 2010 600 255 200 Si calcolino: (i) le percentuali C = (ci %) e T = (ti %) delle due differenti cause di decesso sul totale dei decessi, in ciascun anno A = (ai ); (ii) le distribuzioni Â, Ĉ, T̂ riscalate in modo normale; (iii) media e deviazione standard delle distribuzioni A, Â, C, Ĉ, T, T̂ ; (iv) coefficienti angolari delle rette di regressione delle distribuzioni C, T in dipendenza dal tempo A; calcolare gli stessi coefficienti per le distribuzioni normalizzate Ĉ, T̂ in dipendenza da  (cioè gli indici di correlazione di Pearson); (v) che tipo di correlazione c’e’ tra i dati? E’ possibile dire che una delle due malattie ha seguito un evidente incremento/decremento lineare nel tempo? (Costruire una tabella come quella dell’esercizio precedente). 22 Appendice : elementi di statistica descrittiva Soluzioni Soluzione corretta dell’Esercizio A.5.6. Le rette di regressione dei dati normalizzati mostrano una correlazione decisamente più forte tra voti e peso (C(V, P ) = 0.85), piuttosto che tra voti e altezza (C(V, H) = 0.45), correlazione che non è evidente dalle rette di regressione dei dati non normalizzati. Soluzione corretta dell’Esercizio A.5.7. In questo esempio la differenza tra coefficiente angolare della retta di regressione rispetto ai dati iniziali e rispetto ai dati normalizzati è ancora più evidente. Chiaramente, la retta di regressione rispetto ai dati iniziali risulta molto schiacciata sull’asse x (m = 0.05) a causa della notevole differenza di scala utilizzata per studi e profitti. Il coefficiente di Pearson rivela invece una fortissima correlazione positva tra i due dati, quasi perfetta (C = 0.99). Soluzione dell’Esercizio A.5.8. Anche in questo caso, i calcoli mostrano una correlazione positiva quasi perfetta tra indice di annerimento e numero di auto in transito, mentre la correlazione tra annerimento e precipitazioni è positiva ma debole. Questa differenza non era evidenziata dai dati prima della normalizzazione (a causa della differenza notevole di scala tra i dati N, P ed A). A. Sambusetti 23 Soluzione dell’Esercizio A.5.10. Si è scelto di riportare i dati di affluenza in in decine di migliaia di biglietti (non dipendendo il risultato dell’analisi dalla scala lineare scelta). Il coefficiente di Pearson mostra che c’è una correlazione positiva debolissima tra numero di abitanti e numero di biglietti venduti C = 0.15). L’affluenza ai musei dipende quindi da altri fattori che non semplicemente la numerosità della popolazione (pubblicità, livello di educazione medio ecc.) Soluzione dell’Esercizio A.5.11. Il calcolo di C dimostra una correlazione positiva tra numero di auto immatricolate e tempo di percorrenza: l’angolo della retta di regressione è infatti 38.3◦ , prossimo al massimo di 45◦ . (I dati sono veritieri) Soluzione dell’Esercizio A.5.12. L’indice di Pearson dimostra una correlazione negativa notevole tra tempo e numero di decessi per malattie cardiocircolatorie (cioè i casi di decesso per tali cause sono diminuiti linearmente in modo consistente anno per anno), essendo C ∼ −1. Non si può dire uguale per il numero di decessi per malattie tumorali, che mostra una correlazione positiva, benché debole (C = 0.27), con il tempo. Si noti il riscalamento comodo (e ininfluente sul coefficiente di Pearson) degli anni tra 1 e 10.