STATISTICA CLEF — A.A. 2014/2015 Paola Bortot Dipartimento di Scienze Statistiche Via Belle Arti, 41, I piano [email protected] ORGANIZZAZIONE DEL CORSO: - Il corso è diviso in due moduli: Modulo 1 di 52 ore (docente Paola Bortot), che terminerà alla fine di aprile, e Modulo 2 di 23 ore (docente Silvia Cagnone) per il periodo restante. - L’esame è unico. - I libri di testo e la pagina web di riferimento per materiale e informazioni rimangono gli stessi per entrambi i moduli. RICEVIMENTO: Per il Modulo 1: Giovedı̀ dalle 15:00 alle 16:00 (Verificare eventuali variazioni dell’orario alla pagina istituzionale del docente.) MODALITÀ D’ESAME: - L’esame è scritto. - È possibile consultare durante lo scritto un formulario che deve essere un foglio A4 (fronte e retro) preparato dallo studente con le formule che ritiene utili. Non è permesso tenere nessun altro materiale. - In seguito allo scritto, può essere previsto un colloquio orale a discrezione del docente. - Il voto dello scritto non può essere rifiutato. MATERIALE PER IL CORSO: • TEORIA: Borra, S. e Di Ciaccio, A. (2008). Statistica. Metodologie per le Scienze Economiche e Sociali. McGraw– Hill, Milano, Seconda Edizione. Dispense scaricabili alla pagina http://www2.stat.unibo.it/bortot/statclef.html Per approfondimenti: Cicchitelli, G. (2012). Statistica: principi e metodi. Pearson, Seconda Edizione. • ESERCIZI: Esercizi e testi di esami passati scaricabili alla pagina http://www2.stat.unibo.it/bortot/statclef.html SUDDIVISIONE SCHEMATICA DELLE FASI DI UNA INDAGINE STATISTICA ⋄ IMPOSTARE LA RICERCA • Definire scopi e risorse • Definire la popolazione di interesse e le variabili da rilevare ⋄ RACCOGLIERE I DATI • • • • Definire il piano di osservazione Predisporre gli strumenti di rilevazione Organizzare la rilevazione Codificare i dati (eventualmente con supporti informatici) ⋄ PRESENTARE E DESCRIVERE I DATI • Costruire tabelle • Presentare graficamente i dati • Determinare indici sintetici ⋄ TRARRE CONCLUSIONI DAI DATI • Costruire modelli interpretativi • Stimare grandezze relative alla popolazione • Definire ipotesi statistiche e affrontare problemi di verifica di ipotesi • Prendere delle decisioni 1 CONTENUTI DEL CORSO STATISTICA Insieme di concetti e strumenti utili per evidenziare gli aspetti salienti dei dati e per interpretare i suggerimenti che da essi possono essere tratti. STATISTICA DESCRITTIVA Si occupa prevalentemente della presentazione e descrizione dei dati. A seconda che l’analisi riguardi una o più variabili si parla di STATISTICA DESCRITTIVA UNIVARIATA o MULTIVARIATA. STATISTICA INFERENZIALE E’ l’insieme dei metodi che ci permettono di trarre delle conclusioni di carattere generale a partire dai dati osservati. A partire da caratteristiche osservate su un campione scelto con opportuni criteri, si traggono delle informazioni sull’intera popolazione o si fa inferenza sui modelli teorici di descrizione della realtà. CALCOLO DELLE PROBABILITÀ Per passare dalla Statistica Descrittiva alla Statistica Inferenziale è necessario conoscere alcuni strumenti del Calcolo delle Probabilità che si occupa di formulare delle valutazioni numeriche della possibilità di verificarsi di eventi casuali. 2 INGREDIENTI DELL’ANALISI STATISTICA ⋄ POPOLAZIONE ⋄ UNITA’ STATISTICHE ←→ elementi che costituiscono la popolazione ⋄ VARIABILI ←→ caratteristiche osservate su ciascuna unità; al variare dell’unità su cui sono rilevate, possono assumere una pluralità di valori (almeno due) ⋄ MODALITA’ ←→ i valori (distinti) che possono essere assunti da una variabile CLASSIFICAZIONE DELLE VARIABILI ⎧ ⎪ DISCRETE ⎪ ⎪ ⎪ ⎪ (numero finito o infinità numerabile ⎪ ⎪ ⎪ ⎨ di modalità) QUANTITATIVE− ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ CONTINUE ⎪ ⎪ ⎩ (infinità non numerabile di modalità) le modalità sono espresse in forma numerica ⎧ ⎪ SCONNESSE ⎪ ⎪ ⎪ ⎨ (non ordinabili) QUALITATIVE − ⎪ ⎪ ⎪ ⎪ ⎩ ORDINALI le modalità sono espresse in forma verbale 3 LA MATRICE DEI DATI UNITÀ STATISTICHE (righe) −→ ANASC. 1973 1981 1981 1981 1982 1982 1982 1982 1982 1982 1983 1983 1983 1983 1983 1983 1983 1983 1983 1983 1984 1984 1984 1984 1984 1984 1984 1984 1984 1984 1984 1984 1984 1985 1985 1984 1984 1984 1984 1984 1984 1984 1984 1984 SESSO M F F M F M F M M M F F F M M F F F M M M M F M F F F F F M F M F M F M M M M F F F F F VARIABILI (colonne) ↓ SCUOLA ITI LC LS ITC LS ITC ITC LS ITC ITC LS ITC LS ITI ITC ITC ITC ITC LS ITC LS ITC ITC LC LS ITC LS ITC ITC LC ITC LS LS ITC LC ITC LS LS LS LC ITC LS LS LS DIPLOMA 93 70 60 83 100 73 100 64 98 77 66 83 89 100 65 100 100 100 68 95 88 100 100 70 94 100 75 90 100 72 100 100 96 80 100 100 84 68 61 69 100 100 80 76 4 LAUREA 106 110 98 102 102 85 94 86 90 85 89 91 100 88 111 95 102 97 94 102 92 111 111 105 111 90 97 104 111 111 106 105 100 85 91 99 92 92 100 97 107 94 96 79 TEST 44 46 36 42 42 48 38 36 42 38 38 42 38 38 52 38 42 38 36 42 42 48 48 42 46 42 42 40 44 42 42 42 40 16 26 28 32 32 32 14 30 30 32 26 AMMISSIONE 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 continua... ANASC. 1984 1983 1983 1983 1983 1983 1983 1983 1983 1983 1983 1983 1982 1982 1982 1982 1982 1982 1982 1982 1982 1982 1981 1981 1981 1981 1981 1981 1981 1980 1980 1980 1980 1980 1979 1979 1979 1978 1978 1978 1978 1975 1974 1969 1982 SESSO F M M M F M M M F M F F M M M M F M M M M F M M M M M F M M F M M M F F M F M M F F F M F SCUOLA ITC ITI LS LS ITC LC LC ITC ITC ITI ITC LS LS ITC ITI LC ITC LC ITC ITC ITC ITC ITC ITG ITC ITC ITC LS ITG ITC ITC LS ITC LS LS LS LS LS LS LS ITC ITC ITC ITC ITC DIPLOMA 92 76 90 67 100 95 100 88 75 75 100 94 76 69 86 72 86 80 70 70 95 60 71 63 87 65 84 71 89 73 89 64 70 66 60 100 67 63 60 77 83 87 97 70 64 LAUREA 84 90 95 87 104 102 96 91 94 90 83 94 85 82 81 80 97 86 100 102 103 99 80 89 95 87 89 90 85 80 84 87 92 89 83 97 87 87 84 81 82 96 92 90 92 5 TEST 34 26 20 30 32 32 30 30 32 34 28 28 26 24 12 18 32 32 24 26 32 24 26 32 34 26 28 26 22 30 26 20 34 32 34 30 28 24 28 32 18 30 26 30 32 AMMISSIONE 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Si tratta di dati in forma grezza riguardanti 89 studenti che hanno partecipato al test di ammissione alla Laurea Magistrale in Economia e Professione dell’Università di Bologna nel settembre 2006. I valori delle variabili corrispondenti a ciascun candidato compaiono per riga. Su ogni candidato sono state rilevate 7 variabili di seguito descritte. Legenda: ANASC.: SESSO: Anno di nascita M - Maschio F - Femmina SCUOLA: DIPLOMA: LAUREA: TEST: LC - Liceo Classico LS - Liceo Scientifico ITI - Ist. Tec. Industriale ITC - Ist. Tec. Commerciale/Aziendale ITG - Ist. Tec. Geometra Voto conseguito alla maturità (in centesimi) Voto di laurea (111 per lode) Punteggio al test di ammissione AMMISSIONE: 1 - Ammesso (punteggio minimo 36) 0 - Non Ammesso 6 Tabella Paesi UE Paese Popola- Super- Anno di zione ficie ingresso nell’UE 7 Austria Belgio Danimarca Finlandia Francia Germania Grecia Irlanda Italia Lussemb.o Paesi Bassi Portogallo Regno Unito Spagna Svezia 7,712 9,950 5,140 4,986 56,600 79,479 10,123 3,503 56,800 381 14,833 10,251 55,487 36,950 8,559 84 30 43 338 543 357 131 70 301 3 42 91 244 489 450 1995 1957 1973 1995 1957 1957 1981 1973 1957 1957 1957 1986 1973 1986 1995 Temp. media gennaio (capitale) Forma di Governo 1.8 3.5 1.7 -2.2 5 1.8 11.7 3.8 9.7 1.9 3.1 12.5 3.7 6.5 -1.2 Repubblica Monarchia Monarchia Repubblica Repubblica Repubblica Repubblica Repubblica Repubblica Monarchia Monarchia Repubblica Monarchia Monarchia Monarchia Confessione Rate di Spese prevalente S& P R& S cattolica cattolica protestante protestante cattolica protestante ortodossa cattolica cattolica cattolica protestante cattolica protestante cattolica protestante AA+ AA AAA AA+ AA AAA B A BBBAAA AA+ BB AAA BBB AAA 1.8 1.6 2.1 2.9 2.2 2.3 0.5 1.5 1.1 2 2 0,6 1.8 0.9 3.8 DISTRIBUZIONI DI FREQUENZA FREQUENZA ASSOLUTA: Numero di unità statistiche, tra quelle osservate, che presentano una determinata modalità NOTAZIONE USATA X, Y variabili xi, yi (i = 1, . . . , N ) valore assunto dalle variabili X e Y sulla i–esima unità statistica N numerosità campionaria (numero di unità statistiche osservate) xj , yj (j = 1, . . . , r) modalità delle variabili X e Y r numero complessivo di modalità (r ≤ N ) nj (j = 1, . . . , r) frequenza assoluta della j–esima modalità fj = nj /N (j = 1, . . . , r) FREQUENZA RELATIVA della j–esima modalità 8 Variabile X con modalità x1 , x2 , . . . , xr Distribuzione delle frequenze assolute di X n1 , n2 , . . . , nr Distribuzione delle frequenze relative di X f1, f2 , . . . , fr %r %r j=1 nj = N N.B.: FREQ. ASSOLUTE ⇓ Consentono di avere informazioni sulla dimensione di un fenomeno j=1 fj ⇐⇒ =1 FREQ. RELATIVE ⇓ Consentono di fare confronti e di analizzare la distribuzione indipendentemente dalla numerosità dei dati 9 TABELLA DI FREQUENZA Presenta congiuntamente l’informazione modalità con la frequenza relativa (o assoluta) ad essa associata. TABELLA DI FREQUENZA PER UNA VARIABILE QUALITATIVA O QUANTITATIVA DISCRETA (con “poche” modalità) Variabile X Frequenze assolute Frequenze relative x1 x2 · · · xr n1 n2 · · · nr f1 f2 · · · fr %r j=1 nj =N 1 Se qualitativa ordinale o quantitativa discreta conviene ordinare le modalità nella prima colonna 10 VARIABILE: SCUOLA VARIABILE QUALITATIVA X Freq. ass. Freq. rel. ITC 43 0,483 ITG 2 0,022 ITI 5 0,056 LC 9 0,101 LS 30 0,337 totale 89 1 N.B.: La somma delle frequenze relative in questo esempio non è esattamente 1, ma 0,999, a causa di arrotondamenti VARIABILE: ANNO DI NASCITA VARIABILE QUANTITATIVA DISCRETA X Freq. ass. Freq. rel. 1969 1 0,011 1973 1 0,011 1974 1 0,011 1975 1 0,011 1978 4 0,045 1979 3 0,034 1980 5 0,056 1981 10 0,112 1982 17 0,191 1983 21 0,236 1984 23 0,258 1985 2 0,022 11 VARIABILE: SESSO VARIABILE QUALITATIVA (DICOTOMICA) X Freq. ass. Freq. rel. maschio 49 0,551 femmina 40 0,449 totale 89 1 12 TABELLA DI FREQUENZA PER UNA VARIABILE QUANTITATIVA DISCRETA (con “molte” modalità) O CONTINUA Variabile Frequenze Frequenze X assolute relative x0 ⊢ x1 x1 ⊢ x2 · · · xr−1 ⊢ xr n1 n2 · · · nr f1 f2 · · · fr N 1 Occorre definire delle classi, ossia dei sottoinsiemi disgiunti di valori che possono essere assunti dalla variabile quantitativa. Ciò consente un’operazione di conteggio analoga a quella che si attua per una variabile qualitativa. Quindi n1 è il risultato del conteggio del numero di unità che presentano un valore compreso nell’intervallo x0 ⊢ x1, n2 è il numero di unità con valore nell’intervallo x1 ⊢ x2 e cosı̀ via. UNA CONVENZIONE: La notazione xj ⊢ xj+1 significa che il valore xj è incluso nell’intervallo, mentre xj+1 è escluso. 13 ATTENZIONE: L’operazione di suddivisione in classi comporta una perdita di informazioni. E’ il prezzo che occorre pagare per poter “leggere” i dati. 1. COME SCEGLIERE LE CLASSI? QUANTE CONSIDERARNE? 2. COME COMPORTARSI CON LE CLASSI FINALI? 3. QUALE AMPIEZZA SCEGLIERE? DISTRIBUZIONE DI FREQUENZA CUMULATA Nel caso di variabili QUANTITATIVE è possibile definire anche le seguenti quantità. Dopo aver ordinato le modalità in ordine crescente: Nj = %j s=1 ns Fj = Frequenze assolute cumulate %j s=1 fs = Nj N Frequenze relative cumulate Con riferimento all’ultima modalità, si noti che Nr = N Fr = 1 14 Var. Freq. Freq. X ass. rel. x1 x2 · · · xr n1 n2 · · · nr f1 f2 · · · fr N 1 Freq. ass. cumulate Freq. rel. cumulate N1 = n 1 F1 = f1 N2 = n 1 + n 2 F2 = f 1 + f 2 · · · · · · Nr = N Fr = 1 Nj è il numero di unità statistiche con un valore della variabile X minore o uguale a xj ; Fj è la corrispondente frazione SUDDIVISIONE IN CLASSI Var. X x0 ⊢ x1 x1 ⊢ x2 · · · xr−1 ⊢ xr Freq. Freq. ass. rel. n1 n2 · · · nr f1 f2 · · · fr N 1 Freq. ass. cumulate Freq. rel. cumulate N1 = n 1 F1 = f1 N 2 = n 1 + n 2 F2 = f 1 + f 2 · · · · · · Nr = N Fr = 1 Nj è il numero di unità statistiche con un valore della variabile X minore di xj (minore o uguale se gli estremi superiori degli intervalli fossero inclusi: ⊣) 15 VARIABILE: VOTO ALLA MATURITÀ VARIABILE QUANTITATIVA DISCRETA xj ⊢⊣ xj+1 60 ⊢⊣ 65 66 ⊢⊣ 71 72 ⊢⊣ 77 78 ⊢⊣ 83 84 ⊢⊣ 89 90 ⊢⊣ 95 96 ⊢⊣ 100 96 ⊢⊣ 99 100 totale nj 12 16 12 6 11 9 23 3 20 89 fj 0,135 0,180 0,135 0,067 0,124 0,101 0,258 0,033 0,225 1 Nj 12 28 40 46 57 66 89 69 89 Fj 0,135 0,315 0,450 0,517 0,641 0,742 1 0,775 1 Le classi sono chiuse sia a destra che a sinistra (60 e 65 sono entrambi inclusi nella prima classe). 16 Reddito delle persone fisiche (in migliaia di euro) nell’anno di imposta 2007 (Fonte: Dipartimento delle Finanze). Classi di Reddito (migliaia di euro) Frequenze assolute percentuali 0 ⊢ 10 10 ⊢ 20 20 ⊢ 30 30 ⊢ 40 40 ⊢ 50 50 ⊢ 300 14.016.837 13.422.444 7.578.912 3.257.737 1.017.189 1.773.469 34,1 32,7 18,5 7,9 2,5 4,3 Totale 41.066.588 100,0 Frequenze cumulate assolute percentuali 14.016.837 27.439.281 35.018.193 38.275.930 39.293.119 41.066.588 34,1 66,8 85,3 93,2 95,7 100,0 VARIABILE QUANTITATIVA CONTINUA 17 LA DENSITÀ DI FREQUENZA Per variabili quantitative che sono state raggruppate in classi, introduciamo una nuova quantità che risulterà molto utile tra breve: la densità di frequenza. Guardando la tabella precedente (Reddito delle persone fisiche nel 2007), saremmo tentati di dire che la classe 50 ⊢ 300 (migliaia di euro) è più frequente della classe 40 ⊢ 50 (migliaia di euro) (1.773.469 persone contro 1.017.189). È vero, ma non è un confronto equo, perché non si tiene conto del fatto che le due classi hanno ampiezze diverse. Per un confronto corretto dovremmo rapportare la frequenza all’ampiezza della classe, vale a dire 1017189 1773469 = 7093, 9 e = 101718, 9. (300 − 50) (50 − 40) Il primo rapporto ci indica il grado di addensamento delle unità statistiche nella classe 50 ⊢ 300, mentre il secondo rapporto ci indica il grado di addensamento nella classe 40 ⊢ 50. Dal confronto dei due valori possiamo dedurre che, benché la classe 40 ⊢ 50 sia meno frequente della classe 50 ⊢ 300, essa è più “densamente popolata”. Infatti, nella classe 50 ⊢ 300 troviamo 7093,9 unità statistiche per unità di misura, ossia per migliaia di euro, contro 101718,9 unità statistiche per migliaia di euro della classe 40 ⊢ 50. 18 Il rapporto tra frequenza di una classe e l’ampiezza della classe stessa viene chiamato densità di frequenza assoluta. In formule, nella classe xj−1 ⊣ xj con frequenza assoluta nj e ampiezza ωj = xj − xj−1, la densità di frequenza assoluta è nj ωj Essa ci dice quante unità statistiche troviamo per unità di misura nella classe xj−1 ⊣ xj , nell’ipotesi che le unità si distribuiscano uniformemente all’interno della classe. (Analogia con il concetto di densità di popolazione.) Cosı̀ come abbiamo definito la densità di frequenza assoluta possiamo definire la densità di frequenza relativa. È il rapporto tra frequenza relativa della classe e l’ampiezza della classe: fj ωj Ha un’interpretazione analoga alla densità di frequenza assoluta: invece di darci il numero di unità statistiche per unità di misura ci dà la frequenza relativa per unità di misura nella classe considerata. Ad esempio, per la classe 0 ⊢ 10 (migliaia di euro) abbiamo 0, 341 = 0, 0341 (10 − 0) ossia nella classe 0 ⊢ 10 la percentuale di persone fisiche per migliaia di euro è 3,4%. 19 RAPPRESENTAZIONI GRAFICHE DEI DATI ! VARIABILI QUALITATIVE • Diagrammi circolari • Diagrammi a rettangoli separati DIAGRAMMA CIRCOLARE (GRAFICO A TORTA) Italia Settentrionale Area proporzionale alla frequenza Italia Centrale Italia Insulare Italia Meridionale Popolazione italiana Regione Italia Italia Italia Italia Settentrionale Centrale Meridionale Insulare Totale Occorre calcolare il valore dell’angolo al centro del settore corrispondente ad ogni modalità. nj (in migliaia) 20.003 13.600 12.794 6.291 αj = 360 · fj α1 = 360 · 20003 ≃ 137o 52688 13600 ≃ 93o α2 = 360 · 52688 ... 52.688 20 0.0 0.1 0.2 fj 0.3 0.4 0.5 DIAGRAMMA A RETTANGOLI SEPARATI Esempio: SCUOLA DI PROVENIENZA ITC ITG ITI LC LS 1.0 0.5 È anche possibile fare dei confronti tra distribuzioni (attenzione, solo in termini di frequenze relative). Per esempio, 0.6 fj 0.4 0.2 0.0 0.0 0.1 0.2 fj 0.3 0.8 2007 2006 0.4 2006 2007 ITC ITG ITI LC LS ITC Affiancando i rettangoli ITG ITI LC LS Sovrapponendo i rettangoli 21 ! VARIABILI QUANTITATIVE DISCRETE DIAGRAMMA A BASTONCINI fj 0.2 0.1 0 1 4 5 3 2 Numero di stanze 6 7 Anche in questo caso sono possibili confronti con altre distribuzioni, ad esempio, affiancando i bastoncini. 22 ! VARIABILI QUANTITATIVE CONTINUE O DISCRETE CON MOLTE MODALITÀ GLI ISTOGRAMMI Il punto di partenza è la distribuzione di frequenza di una variabile QUANTITATIVA opportunamente raggruppata in classi. ESEMPIO: Distribuzione delle famiglie americane per reddito Classi di Reddito ($) Freq. relative 0 ⊢ 1000 1000 ⊢ 2000 2000 ⊢ 3000 3000 ⊢ 4000 4000 ⊢ 5000 5000 ⊢ 6000 6000 ⊢ 7000 7000 ⊢ 10000 10000 ⊢ 15000 15000 ⊢ 25000 25000 ⊢ 50000 50000 e oltre 0,01 0,02 0,03 0,04 0,05 0,05 0,05 0,15 0,26 0,26 0,08 0,01 N.B.: Se si prova a fare la somma delle frequenze relative questa non risulta pari a 1 (come dovrebbe). Ciò può accadere a causa di arrotondamenti. 23 Distribuzione delle famiglie americane per reddito (scala orizzontale: migliaia di dollari) 0 5 10 15 20 25 30 Reddito (migliaia di $) 35 40 45 • Il diagramma è composto da rettangoli uniti. • La base di ciascun rettangolo rappresenta un intervallo della suddivisione in classi della variabile quantitativa. • Il grafico è tale che l’area di ciascun rettangolo è proporzionale alla frequenza relativa delle unità comprese nell’intervallo. UN ISTOGRAMMA RAPPRESENTA LA DISTRIBUZIONE DI FREQUENZA PER MEZZO DELLE AREE, NON DELLE ALTEZZE. 24 50 COSTRUZIONE DI UN ISTOGRAMMA I passo: Disegnare l’asse orizzontale Usiamo come unità di misura 1 migliaio di dollari. Bisogna tener presente che le diverse ampiezze delle classi vanno rappresentate correttamente. Quindi evitare, NO!! 0 1 2 3 4 5 6 7 15 25 50 È corretto invece 0 1 2 3 4 5 6 7 15 25 50 È opportuno anche indicare il nome della variabile a cui ci si riferisce e l’unità di misura. II passo: Costruire i rettangoli La tentazione è di costruire i rettangoli con altezza pari alla frequenza della classe. È l’errore più comune e dà luogo ad interpretazioni sbagliate. 25 0.00 0.05 0.10 0.15 0.20 0.25 0.30 Ad esempio, 0 5 10 15 25 50 Quello che ci dice la figura errata è, ad esempio, che ci sono più famiglie con reddito superiore a 25.000$ che famiglie con meno di 7000$ (lo si ricava osservando le relative aree). L’unico caso in cui questa procedura (altezza=frequenza) è corretta è quello in cui le classi sono di uguale ampiezza. Infatti il problema sorge perché le classi hanno ampiezza diversa. 26 Nel caso di classi di ampiezza diversa, per costruire l’istogramma: L’ALTEZZA DEI RETTANGOLI SI OTTIENE DIVIDENDO LA FREQUENZA RELATIVA (O ASSOLUTA) PER L’AMPIEZZA DELLA CLASSE. In altri termini, l’altezza di ciascun rettangolo è data dalla densità di frequenza relativa (o assoluta) della classe. In tal modo otteniamo che l’area di ogni rettangolo è pari alla frequenza relativa (o assoluta) che insiste sull’intervallo. L’area sotto l’istogramma corrisponde al totale delle frequenze relative, ossia a 1 (o al totale delle frequenze assolute, ossia la numerosità campionaria N , se l’istogramma è costruito usando la densità di frequenza assoluta delle classi) IPOTESI DI UNIFORMITA’ Non abbiamo informazioni sulla distribuzione delle unità all’interno di ciascuna classe. E’ possibile fare delle ipotesi semplificatrici. Di solito si utilizza una delle seguenti due convenzioni: 1. le unità nella classe si concentrano su un unico valore, ad esempio il valore centrale 2. le unità si distribuiscono nella classe in modo uniforme L’istogramma è basato sull’ipotesi 2). 27 ESEMPIO: Costruzione di un istogramma Tabella 2: Distribuzione delle aziende agricole per classi di superficie (in ettari) X 0 ⊢ 0, 5 0, 5 ⊢ 1 1⊢2 2⊢3 3⊢5 5 ⊢ 10 10 ⊢ 20 20 ⊢ 30 30 ⊢ 50 50 ⊢ 100 100 e oltre Freq. ass. Freq. rel. Freq. rel. amp. densità di cum. (ω) freq. rel. (f /ω) 524.040 510.900 644.730 371.080 417.870 400.790 218.210 67.289 49.360 31.140 23.510 0,1608 0,1568 0,1978 0,1139 0,1282 0,1230 0,067 0,0206 0,0151 0,0096 0,0072 0,1608 0,3176 0,5154 0,6293 0,7575 0,8805 0,9475 0,9681 0,9832 0,9928 1 0,5 0,5 1 1 2 5 10 10 20 50 400 0,3216 0,3136 0,1978 0,1139 0,0641 0,0246 0,0067 0,0021 0,0008 0,0002 0,00 N.B.: Implicitamente la classe “100 e oltre” è stata chiusa a 500, operazione necessaria per la costruzione dell’istogramma. 28 densità di frequenza relativa: fj ωj 0,3 0,2 0,1 0,0 0 1 2 3 5 10 20 Superficie (ettari) Dati tratti da Tab.2 N.B. Nel disegnare l’istogramma, per chiarezza, sono state escluse le classi estreme. 29 USO DELL’ISTOGRAMMA PER IL CALCOLO DI FREQUENZE Abbiamo visto che, se l’istogramma è costruito mettendo in altezza la densità di frequenza relativa, allora l’area di ciascun rettangolo è pari alla frequenza relativa che insiste sulla classe. Questo ragionamento può essere esteso. L’altezza di ciascun rettangolo esprime, per ciascuna classe, la frequenza relativa per unità di misura (sotto ipotesi di distribuzione uniforme). Pertanto, l’area sottesa all’istogramma tra due punti generici s1 e s2 ci darà la frequenza relativa compresa tra s1 e s2 (sempre sotto l’ipotesi di distribuzioni uniforme all’interno delle classi). 30 Esempio: Quale è la percentuale di aziende agricole con superficie compresa tra 2 e 8 ettari? 0,3 0,2 0,1139 0,1282 0,1 0,0246*3 0,0246 0,0 0 1 2 3 5 8 10 20 Superficie (ettari) Ossia, 0, 1139 + 0, 1282 + 0, 0246 · (8 − 5) = 0, 3159 & ' fj fj di 2 ⊢ 3 + fj di 3 ⊢ 5 + di 5 ⊢ 10 · 3 = 0, 3159 ωj =⇒ 31, 59% " IPOTESI DI DISTRIBUZIONE UNIFORME 31 Esempio: Quale è quel valore di superficie agraria oltre il quale trovo il 30% delle aziende agricole? (Equivalentemente, quale è quel valore di superficie al di sotto del quale vi è il 70% delle aziende?) 0,3 0,2 0,7−0,6293 0,1 0,0641 62,93% 0,0 0 1 2 3 x 5 10 20 Superficie (ettari) Guardando ai valori delle frequenze cumulate, troviamo che al di sotto di 3 ettari vi sono il 62,93% delle aziende. Il valore cercato x è quindi compreso tra 3 e 5 (al di sotto di 5 vi sono il 75,75% delle aziende). Pertanto, x sarà tale che l’area sottesa all’istogramma da 0 a x sia pari a 0,7, ossia 0, 6293 + 0, 0641 · (x − 3) = 0, 7 Risolvendo rispetto a x si ottiene, 0, 7 − 0, 6293 x= + 3 = 4, 1 ettari 0, 0641 32 FUNZIONE DI FREQUENZA RELATIVA CUMULATA (O FUNZIONE DI RIPARTIZIONE EMPIRICA) F (x)= frequenza relativa delle unità con valore della variabile ≤ x = numero di unita’ con valore della variabile ≤ x N 33 COME È FATTA F (x)? ! PER VARIABILI QUANTITATIVE DISCRETE È una funzione a gradini. Esempio: F(x) Num. freq. freq. rel. cum. figli rel. 0 1 2 3 4 5 0,27 0,32 0,20 0,10 0,09 0,02 0,27 0,59 0,79 0,89 0,98 1 1.0 0.79 0.59 0.27 0.0 0 1 2 3 4 N. figli 5 Risponde al quesito “quale è la percentuale di famiglie con meno di x figli”. Struttura generale di ⎧ ⎪ ⎪ ⎨0 F (x) = Fj ⎪ ⎪ ⎩1 F (x) per X discreta: per x < x1 per xj ≤ x < xj+1 per xr ≤ x 34 x ! PER VARIABILI QUANTITATIVE CONTINUE È una spezzata. Si parte ancora una volta dai dati espressi da una tabella di frequenza con i valori della variabile opportunamente raggruppati in classi. Ad esempio, possiamo partire dalla tabella sulle superfici agricole (Tabella 2) F(x) 1.0 0.9475 0.8805 0.7575 0.6293 0.5154 0.3176 0.1608 0.0 0 1 2 3 5 10 Superficie agricola (ettari) 20 N.B.: Per chiarezza nel grafico sono state ignorate le classi più estreme. In altre parole, questo è un ingrandimento di una parte del grafico della pagina seguente. 35 1.0 0.8 0.6 0.0 0.2 0.4 F(x) 0 100 200 300 400 500 600 Superficie (ettari) F (x) = ⎧ ⎪ ⎪ ⎨0 Struttura generale: ⎧ ⎪ per x < x0 ⎪ ⎨0 F (x) = area dell’istogramma tra x0 e x per x0 ≤ x < xr ⎪ ⎪ ⎩1 per x ≥ xr Fj + ⎪ ⎪ ⎩1 per x < x0 fj+1 (x xj+1 −xj − xj ) = Fj + Fj+1 −Fj (x xj+1 −xj 36 − xj ) per xj ≤ x < xj+1 per x ≥ xr Le informazioni della tabella ci consentono di ricavare i punti indicati nel grafico. Le linee rette tracciate congiungono i punti e sono coerenti con l’ipotesi di uniforme distribuzione. La retta sarà tanto più inclinata quanto maggiore è la densità di frequenza dell’intervallo considerato. Possiamo quindi rispondere a quesiti del tipo “quale percentuale di unità risulta inferiore ad un valore x”. La risposta a tale quesito è non approssimata se x coincide con uno degli estremi della classe. E’ possibile rispondere a tale quesito anche per valori di x diversi, ma in tal caso la risposta è condizionata alla validità dell’ipotesi di uniforme distribuzione. Ad esempio: la percentuale di aziende con superficie minore di 2 ettari è F (2) = 51, 54% (dalla Tabella 2 direttamente) la percentuale di aziende con superficie minore di 8 ettari è 12, 3 × (8 − 5) = 83, 13% F (8) = 75, 75% + (10 − 5) ⇓ ⇓ F (5) densità di frequenza classe 5 ⊢ 10 37 F(x) 1.0 0.8313 0.7 0.5154 0.3 0.1 0.0 0 1 2 3 5 8 10 Superficie (ettari) 20 Quale è la percentuale di aziende con superficie compresa tra 2 e 8 ettari? Riposta: F (8) − F (2)=83,13%-51,54%=31,59%. 38 F(x) 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 1 2 3 4.1 5 10 Superficie (ettari) 20 Quale è il valore oltre il quale trovo il 30% delle aziende? Si raggiunge il 70% delle aziende nella classe 3 ⊢ 5. In tale classe 0, 1282 F (x) = F (3) + (x − 3) 5−3 Poniamo F (x) = 0, 70 e risolviamo l’equazione rispetto a x: 0, 70 = 0, 6293 + 0, 0641 · (x − 3) 0, 70 − 0, 6293 = 1, 1 =⇒ x = 4, 1 ettari x−3= 0, 0641 39 La funzione di frequenza cumulata F (x) serve anche per fare confronti tra le distribuzioni di frequenza di due variabili omogenee (ad esempio, i redditi di due regioni, i pesi di due gruppi di persone). In particolare, si dice che che una variabile è STATISTICAMENTE (o STOCASTICAMENTE) minore di un’altra se ha il grafico di F (x) superiore. Possiamo allora dire, con riferimento all’esempio della pagina successiva, che Napoli è statisticamente più giovane di Perugia. 40 Perugia Età Freq. Freq. ass. Freq. rel. ass. cum. cum. 67126 79549 76689 75968 78412 83735 87727 31782 67126 146675 223364 299322 377734 461469 549146 580978 0,116 0,254 0,384 0,515 0,650 0,794 0,945 1,000 Freq. ass. Freq. ass. Freq. rel. cum. cum. 552471 598262 461233 383322 323248 296876 265173 81997 552471 1150733 1611966 1995288 2318536 2615412 2880585 2962582 0.2 0.4 F(x) 0.6 0.8 1.0 0 – 10 10 – 20 20 – 30 30 – 40 40 – 50 50 – 60 60 – 75 75 – 100 Napoli 0.0 Perugia Napoli 0 20 40 60 eta’ 41 80 100 0,186 0,388 0,544 0,673 0,783 0,883 0,971 1,000 RIASSUNTI NUMERICI DELLE CARATTERISTICHE DI UN INSIEME DI DATI Un’attenta osservazione della distribuzione di frequenza di una variabile statistica permette di trarre informazioni su gran parte delle caratteristiche dell’insieme di dati. In particolare, possiamo: 1. cogliere informazioni sui valori tipici della distribuzione 2. avere informazioni sulla dispersione dei valori Già tracciando un istogramma si attua un riassunto delle caratteristiche salienti di un insieme di dati. L’obiettivo ora è quello di avere riassunti ancora più sintetici delle caratteristiche principali. 42 INDICI DI TENDENZA CENTRALE Occorre, come sempre, tener conto della natura delle variabili (quantitative, qualitative). Iniziamo ad affrontare il caso di maggiore interesse relativo alle variabili QUANTITATIVE. L’idea di fondo è quella di cercare un valore attorno al quale è concentrata l’intera distribuzione di valori: un valore “tipico” che riassuma l’intero fenomeno con riferimento al suo ordine di grandezza. COME SCEGLIERE TALE VALORE? Le possibili soluzioni sono numerose: Ad esempio, ! il valore intermedio tra il valore più piccolo e il valore più grande fra quelli osservati ! il valore osservato con maggiore frequenza ! un opportuno riassunto di alcuni valori compresi nel corpo centrale della distribuzione 43 LA MEDIANA Una prima idea è quella di scegliere quale valore tipico, indice di tendenza centrale, quel valore che è al centro della sequenza dei dati ordinati. ESEMPIO: Altezze rilevate su un insieme di 15 donne (in cm) 159, 156, 162, 154, 142, 166, 161, 163, 158, 164, 159, 164, 170, 168, 152 ⇓ mettiamo i valori in ordine crescente 1o 2o 3o 4o 5o 6o 7o 8o 9o 10o 11o 142, 152, 154, 156, 158, 159, 159, 161, 162, 163, 164 12o 13o 14o 15o ↓ 164, 166, 168, 170 MEDIANA Il valore che occupa l’ottavo posto nella graduatoria è al centro della sequenza. La mediana è cioè pari a 161 cm. N.B.: Di solito i valori ordinati della sequenza sono indicati con x(i). Quindi, x(1) = 142, x(2) = 152, . . ., x(15) = 170. 44 In generale, la mediana è quel valore che separa la distribuzione in due parti in modo tale che metà dei valori sono inferiori alla mediana e metà sono superiori ad essa. Se abbiamo un insieme di dati relativo a N unità e N è dispari, la mediana è il valore che occupa la posizione N +1 2 nella sequenza ordinata delle osservazioni, ossia Me = x( N +1 ) 2 Cosa facciamo se N è pari? Esempio: Altezze relative a 8 maschi (in centimetri) 188, 178, 172, 164, 171, 188, 174, 179 riordino i valori 1o 2o 3o 4o 5o 6o 7o 8o 164, 171, 172, 174, 178, 179, 186, 188 ⇑ — 45 Se ci chiediamo quale dei valori osservati ha la proprietà di separare in due la distribuzione osserviamo che questo non accade per nessuno di essi. Infatti, 174 cm, ad esempio, ha 4 osservazioni più grandi e solo 3 più piccole. Non è centrale. Per il valore 178 cm, vi sono 3 osservazioni più grandi e 4 osservazioni più piccole. Qualsiasi valore numerico compreso tra 174 cm e 178 cm ha invece la proprietà desiderata. Si può quindi convenire di scegliere quale valore mediano la semisomma dei due valore 174 e 178, ossia 176. Quindi, se N è pari, la mediana è qualsiasi valore compreso tra i 2 valori che nella sequenza ordinata occupano le posizioni N 2 N +1 2 e Usualmente si pone Me = x( N ) + x( N +1) 2 2 2 46 Cosa fare quando i dati sono già accorpati in una tabella di frequenza? Se si tratta di una variabile quantitativa discreta (con “poche” modalità) è presumibile che alcuni dei valori siano ripetuti, ossia in corrispondenza di ogni modalità vi è una frequenza osservata. Esempio: Numero di stanze di un campione di abitazioni Num. Freq. Freq. Freq. ass. Freq. rel. stanze ass. rel. cum. cum. 1 40 0,1 2 80 0,2 3 100 0,25 4 90 0,225 5 40 0,1 6 30 0,075 7 o più 20 0,05 40 120 220 310 350 380 400 0,1 0,3 0,55 0,775 0,875 0,95 1 ⇐= Me N = 400 La mediana è quel valore che lascia alla sua sinistra il 50% delle unità, ossia tale che F (Me) = 0, 5 Allora, costruiamo la funzione di frequenza cumulata e vediamo in corrispondenza di quale valore essa risulta pari a 0,5 47 1.0 0.50 0.0 0 1 2 3 4 N. Stanze 5 6 7 La mediana è pari a 3. Se, invece, i dati fossero tali che 1.0 0.50 0.0 0 1 2 3 4 5 6 7 N. Stanze qualunque valore compreso tra 3 e 4 potrebbe essere la nostra mediana. Tipicamente si prende il valore intermedio (3+4)/2=3,5. 48 Possiamo da questi grafici derivare una semplice regola per determinare la mediana per dati discreti organizzati in una tabella di frequenza Me è la più piccola tra le modalità a cui corrisponde Fj > 0, 5. Se per una modalità xj si ha Fj = 0, 5, allora la mediana Me è qualunque valore compreso tra xj e xj+1 (la modalità immediatamente più grande di xj ). Ad esempio, possiamo prendere Me = xj + xj+1 2 49 CALCOLO DELLA MEDIANA PER VARIABILI (CONTINUE O DISCRETE) RAGGRUPPATE IN CLASSI Si tratta di determinare quel valore di X tale che il 50% delle osservazioni risultino inferiori ad esso. Sotto ipotesi di distribuzione uniforme all’interno delle classi: Classi Freq. rel. cum. xo ⊢ x1 F1 ... ... xj−1 ⊢ xj Fj < 0, 5 xj ⊢ xj+1 Fj+1 > 0, 5 ⇐= CLASSE MEDIANA ... ... xr−1 ⊢ xr 1 E’ noto che per x nella classe xj ⊢ xj+1 F (x) = Fj + e quindi 0, 5 = Fj + (x − xj ) × (Fj+1 − Fj ) (xj+1 − xj ) (Me − xj ) × (Fj+1 − Fj ) (xj+1 − xj ) Risolvendo la precedente equazione rispetto a Me si ottiene (0, 5 − Fj ) ×(xj+1 − xj ) Me = xj + (Fj+1 − Fj ) ( )* + frazione ampiezza classe mediana 50 Esempio: Superfici delle aziende agricole (Tabella 2) X ... 0, 5 ⊢ 1 1⊢2 ... Fj ... 0,3176 0,5154 ... Me = 1 + ⇐= CLASSE MEDIANA (0, 5 − 0, 3176) × (2 − 1) = 1, 92 ettari (0, 5154 − 0, 3176) 51 F(x) 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 1 2 3 5 Me 10 Superficie (ettari) Me=1,92 ettari 52 20 PROPRIETA’ DELLA MEDIANA Per ogni unità statistica possiamo calcolare xi − Me i = 1, . . . , N ossia lo scarto dalla mediana. La mediana è quel valore tale che N , i=1 |xi − Me| = min La somma degli scarti dalla mediana presi in valore assoluto (trascurando il segno) è la più piccola possibile. Se invece della mediana prendessimo un valore riassuntivo diverso, avremmo un valore più alto della somma degli scarti assoluti. 53 LA MEDIA ARITMETICA E’ senza dubbio l’indice di tendenza centrale più noto e più frequentemente utilizzato. Nel seguito verrà indicata alternativamente con i seguenti simboli: x̄ o M. Media aritmetica semplice (per dati in forma grezza) x̄ = %N i=1 xi N PROPRIETA’ DELLA MEDIA ARITMETICA Considerando per ogni osservazione lo scarto dalla media: xi − x̄ si ha i = 1, . . . , N N , (xi − x̄)2 = min i=1 ovvero la somma degli scarti al quadrato dalla media ha il valore più piccolo. Se considerassimo la stessa somma, per gli scarti da un valore diverso da x̄ (ad esempio, Me) otterremmo un valore più elevato. 54 Inoltre, la somma degli scarti dalla media è nulla: %N N N N , , , xi xi − N x̄ = xi − ̸ N i=1 (xi − x̄) = ̸N i=1 i=1 i=1 = N , i=1 xi − N , xi = 0 i=1 La media attua un bilanciamento tra scarti positivi e scarti negativi. In tal senso, la media è una sorta di baricentro della distribuzione. 55 RICHIAMI DELLE PROPRIETÀ DELLE SOMMATORIE N , axi = a (xi + a) = i=1 N1 , N2 , xi i=1 i=1 N , N , N , xi + N a i=1 xi yj = i=1 j=1 N1 , i=1 56 xi N2 , j=1 yj MEDIA ARITMETICA PONDERATA Talvolta occorre tenere conto del fatto che non tutti i valori osservati dei quali si vuole calcolare la media aritmetica hanno la stessa importanza. L’esempio di maggiore interesse è dato dal calcolo della media per dati riassunti in una tabella di frequenza. Distribuzione di un campione di studenti del II anno per numero di esami sostenuti X=Num. esami Freq. ass. Freq. rel. 0 1 2 3 4 12 24 60 12 12 0,1 0,2 0,5 0,1 0,1 TOT N = 120 1 I dati in forma grezza sarebbero del tipo: 0, 0, 0, 0, . . . , 0, 1, 1, . . . , 1, 2, 2, . . . , 2, 3, 3, . . . , 3, 4, 4, . . . , 4 Vi sono nella sequenza 12 zeri, 24 valori pari a 1, ecc. 120 1 , 1 x̄ = (0 + . . . + 0 + 1 + . . . + 1 + 2 + . . . + 2 + xi = 120 i=1 120 ( )* + ( )* + ( )* + 12 volte 24 volte + 3( + .)* . . + 3+ + 4( + .)* . . + 4+) 12 volte = 60 volte 12 volte 1 (0 × 12 + 1 × 24 + 2 × 60 + 3 × 12 + 4 × 12) 120 57 ossia ogni singola modalità viene pesata in base al numero di volte che essa è stata osservata, la corrispondente frequenza assoluta. Per calcolare la media dei valori nella tabella non sarebbe corretto considerare solo i singoli valori, ma occorre tener conto delle frequenze. Quindi, (0 + 1 + 2 + 3 + 4) 5 mentre E’ SBAGLIATO (0 × 12 + 1 × 24 + 2 × 60 + 3 × 12 + 4 × 12) 120 E’ CORRETTO In formule, M= r , xj nj j=1 r = Num. di modalità N Si ricordi che fj = nj /N , per cui si può scrivere anche M= r , xj fj j=1 Più in generale, se per ogni osservazione xi è definito un peso pi (i = 1, . . . , N ), la media aritmetica ponderata è %N xi p i %i=1 N i=1 pi 58 Se abbiamo i dati da una tabella di frequenza relativa ad una variabile quantitativa raggruppata in classi e non si dispone più dei valori originali, per calcolare la media occorre ricorrere a qualche ipotesi semplificatrice. Di solito si assume come valore rappresentativo di tutte le osservazioni presenti nella classe il valore centrale della classe stessa. Si calcolano i valori xj−1 + xj x∗j = , j = 1, . . . , r 2 dove xj−1, xj sono gli estremi della classe. Quindi si calcola la media, ponderata con le frequenze, dei nuovi valori x∗j . L’uso di x∗j come valore medio della classe è coerente con l’ipotesi di distribuzione uniforme. N.B.: Il valore della media calcolato in questo modo può differire da quello calcolato sui valori originali. 59 Abbiamo introdotto due candidati al ruolo di indice di tendenza centrale: mediana e media. Quale preferire tra i due? La mediana è meno influenzata da valori anomali, mentre la media ne risente maggiormente. Esempio: Lo studente A ha conseguito le seguenti votazioni negli esami sostenuti. Un indice di tendenza centrale può suggerire sinteticamente il grado di riuscita. Voti: 26, 27, 28, 28, 18 Me=27 e M=25,4 La media è molto sensibile al 18, la mediana ne è influenzata molto meno. Se abbiamo il sospetto che fra i dati ve ne siano alcuni che sono affetti da errori, bisogna tener presente che tali errori, se sono tali da collocare il dato al di fuori del “normale” insieme di valori, influenzano in modo più pesante la media. Il motivo di questo è la tendenza della media a bilanciare valori più alti con valori bassi (ricordate che la somma degli scarti è uguale a 0). 60 La mediana è più “robusta” rispetto a valori anomali e quindi a possibili errori nei dati. D’altra parte se i dati non sono soggetti ad errori, occorre considerare che la media usa una quantità maggiore di informazioni della mediana (che dipende dalla posizione d’ordine dei valori e meno dalla loro grandezza). La media inoltre gode di proprietà molto buone quando viene utilizzata in ambito inferenziale (come si vedrà più avanti). 61 LA MODA Un altro possibile indice di tendenza centrale è la MODA. Si tratta della modalità a cui corrisponde la frequenza più elevata. E’ l’unico indice di tendenza centrale che ha senso valutare per variabili qualitative. Esempio: Num. stanze Freq. ass. moda ⇒ 1 2 3 4 5 6 o più 11 49 81 86 38 20 ⇐ freq. più elevata Per variabili quantitative raggruppate in classi si identifica la classe modale non guardando alla frequenza, ma alla densità di frequenza (frequenza/ampiezza). La classe modale è quella a cui corrisponde la densità di frequenza più alta, ossia il rettangolo più alto dell’istogramma. 62 DISTRIBUZIONE UNIMODALE ⇑ CLASSE MODALE DISTRIBUZIONE BIMODALE 63 LA SIMMETRIA M ≈ Me Distribuzione simmetrica Me M M Me Distribuzione asimmetrica con asimmetria a destra Distribuzione asimmetrica con asimmetria a sinistra Se la distribuzione è tendenzialmente simmetrica ⇒ M≈ Me Se la distribuzione è tendenzialmente simmetrica e unimodale ⇒ M≈ Me ≈ Moda Se la distribuzione è asimmetrica con asimmetria positiva⇒ M> Me Se la distribuzione è asimmetrica con asimmetria negativa ⇒ M< Me 64 I QUANTILI Il quantile α (xα ) è quel valore tale che la frequenza relativa di unità che risultano inferiori ad esso è pari ad α. La mediana è quindi il quantile con α pari a 0,5. Alcuni quantili notevoli sono quelli relativi a α = 0, 25, α = 0, 5 e α = 0, 75 che corrispondono, rispettivamente, al I, II (o mediana) e III quartile. Dividono la distribuzione in 4 parti ciascuna con frequenza relativa pari a 0,25. Per determinare il quantile α si segue una strada analoga a quella descritta per la mediana, cercando quel valore che lascia alla sua sinistra l’α × 100% delle unità (in sostituzione al 50% della mediana). Per variabili quantitative discrete riassunte in una tabella di frequenza e non raggruppate in classi xα = la più piccola tra le modalità distinte a cui corrisponde Fj > α. Se per una qualche modalità xj si ha Fj = α, allora xα è qualunque valore compreso tra xj e xj+1 (la modalità immediatamente più grande di xj ). Ad esempio, possiamo prendere xj + xj+1 xα = 2 65 F(x) 0.0 α 0.5 1.0 xα 66 x Per variabili raggruppate in classi si può procedere nel modo seguente: Fj+1 α Fj 0.0 F(x) 1.0 Determinare il primo (in ordine crescente) intervallo per cui la cumulata supera α. Quindi xα è compreso tra gli estremi della classe individuata. Sotto l’ipotesi di distribuzione uniforme all’interno della classe (α − Fj ) (xj+1 − xj ) xα = xj + (Fj+1 − Fj ) xj = estremo inferiore della classe xj+1= estremo superiore della classe Fj+1= frequenza relativa cumulata di xj+1 Fj =frequenza relativa cumulata di xj . xj xα xj+1 x 67 INDICI DI DISPERSIONE Siamo interessati a riassumere con un indice sintetico la tendenza dei dati ad essere più o meno dispersi, più o meno differenti l’uno dall’altro. È ovvio che un indice di posizione preso isolatamente è di scarso aiuto. Infatti, potremmo avere: A 0.0 10.0 B 0.0 10.0 Le due distribuzioni A e B hanno la stessa media (e la stessa mediana). Sintetizzare una distribuzione solo con riferimento alla sua posizione è quindi insufficiente. Le due distribuzioni differiscono soprattutto in quanto hanno una differente variabilità (B è più variabile di A). 68 Come per gli indici di tendenza centrale, i candidati a misurare la dispersione (o variabilità) possono essere molti e possono derivare da criteri diversi • Potrei semplicemente considerare la differenza tra il valore massimo e il valore minimo osservati (xmax − xmin) • o considerare le differenze tra tutti i valori osservati • oppure considerare la dispersione delle osservazioni attorno ad un indice di tendenza centrale. IL CAMPO DI VARIAZIONE (“RANGE”) campo di variazione=xmax − xmin = x(N) − x(1) Dipende solo da due valori, che fra l’altro sono quelli più estremi, di solito maggiormente soggetti ad errori di misura. LO SCARTO INTERQUARTILE Q3=III quartile, Q1=I quartile SI=Q3 -Q1 Interpretazione: ci dice quanto ampio è l’intervallo nel quale è contenuto il 50% delle osservazioni al centro della distribuzione. E’ poco influenzato dai valori estremi e tiene conto di tutti i valori (anche se solo in relazione alla loro posizione nella graduatoria ordinata). 69 LA VARIANZA Abbiamo già introdotto gli scarti dalla media xi − M = ri i = 1, . . . , N E’ ovvio che tali scarti saranno più elevati se i dati sono più dispersi attorno alla media, ossia se c’è maggiore variabilità. Si può quindi pensare di costruire una misura di variabilità sintetizzando l’ordine di grandezza degli ri . Tuttavia, poiché N , ri = 0 i=1 un eventuale sintesi degli ri deve prescindere dal loro segno (a valori ri > 0 corrispondono valori ri < 0 e questi nel complesso si bilanciano). Possiamo agire in due modi: considerando |ri | oppure ri2, liberandoci quindi del segno e concentrandoci sugli ordini di grandezza degli scarti (addirittura esaltando gli scarti come nel caso ri2). Possiamo allora calcolare la media dei valori |ri | o ri2, ottenendo i due indici N N , , |ri | ri2 e N N i=1 i=1 Il primo indice è detto SCARTO MEDIO ASSOLUTO. Il secondo indice è la VARIANZA (indicata di solito con s2 o V o Var). Dei due indici è il secondo quello che ha più largo impiego. 70 La varianza è la media degli scarti elevati al quadrato. Trattandosi di una media aritmetica può essere opportunamente ponderata. In particolare, è necessario usare la ponderazione quando vogliamo calcolare la varianza a partire da dati riassunti in una tabella di frequenza. Esempio: Num. Freq. Freq. scarto scarto2 esami ass. rel. r = (x − M) r2 0 1 2 3 4 12 24 60 12 12 0,1 0,2 0,5 0,1 0,1 -1,9 -0,9 0,1 1,1 2,1 3,61 0,81 0,01 1,21 4,41 La media è M=1,9 Nell’intera sequenza di dati osserviamo 5 modalità distinte. Vi sono quindi 5 scarti e la media dei quadrati degli scarti si ottiene considerando che ciascuno scarto è osservato con la frequenza indicata. Quindi, 1 V = (3, 61×12+0, 81×24+0, 01×60+1, 21×12+4, 41×12) 120 = 3, 61×0, 1+0, 81×0, 2+0, 01×0, 5+1, 21×0, 1+4, 41×0, 1 = 1, 09 ATTENZIONE: Per variabili raggruppate in classi gli scarti rj si ottengono come differenza tra il valore centrale della classe e la media: (x +x ) rj = x∗j − M = j−12 j − M. 71 UN METODO ALTERNATIVO PER CALCOLARE LA VARIANZA V = N , (xi − x̄)2 i=1 N = N , (x2 + x̄2 − 2xix̄) i i=1 N N N 1 , 2 ̸ N x̄2 2x̄ , = x + − xi N i=1 i ̸N N i=1 N 1 , 2 = xi + x̄2 − 2x̄2 N i=1 N 1 , 2 xi − x̄2 = N i=1 Quindi, la varianza è pari alla differenza tra la media dei valori al quadrato (anche nota con il nome di momento secondo) e la media al quadrato (o momento primo al quadrato). In aggiunta a x̄, occorre solo calcolare il quadrato dei singoli valori e calcolare la media di questi ultimi. Operazione più semplice della precedente. 72 LO SCARTO QUADRATICO MEDIO Non è facile dare un significato fisico alla varianza. Il motivo principale è che essa considera i valori degli scarti al quadrato ed è quindi un indice espresso in una unità di misura diversa da quella originaria (se i nostri dati riguardano altezze in cm, la varianza è misurata in cm2). Un modo semplice per ricondurre l’indice all’unità di misura originaria è considerare la radice quadrata. Questa operazione conduce ad un altro indice: lo scarto quadratico medio √ sqm = varianza spesso indicato con s. L’indice è espresso con l’unità di misura della variabile originaria; è quindi più facile interpretarlo. Nonostante questa operazione, è più agevole interpretare un indice come SI che non sqm. Inoltre, poiché nel calcolare la varianza abbiamo elevato al quadrato gli scarti, questa ultima (e quindi anche sqm) risulta molto influenzata dalla presenza di valori molto alti o molto bassi. Lo scarto interquartile è meno sensibile, più robusto ai valori estremi. Tuttavia, sqm (e quindi la varianza) è l’indice più importante di dispersione, soprattutto per il ruolo fondamentale che ha nell’ambito dell’inferenza statistica. 73 I DIAGRAMMI A SCATOLA (BOXPLOT) I valori dei 3 quartili (Q1, Me, e Q3) contengono informazioni riassuntive sulla • tendenza centrale (Me) • dispersione (Q3-Q1) • simmetria Una rappresentazione grafica che sintetizzi l’intera distribuzione può essere quindi basata sui 3 indici. Il difetto legato all’uso dei 3 indici è che non danno informazioni sulle code della distribuzione. Queste potrebbero essere riassunte attraverso i 2 valori estremi: xmax = x(N) e xmin = x(1) Il diagramma a scatola è basato sulle 5 quantità (xmin , Q1, Me, Q3, xmax) come di seguito riportato. 74 X xmax baffo Q3 Me Q1 baffo xmin 1. La scatola si può pensare come il contenitore del 50% delle osservazioni che cadono nella parte centrale della distribuzione (il “grosso” della distribuzione). La lunghezza della scatola dà indicazioni sulla dispersione. 2. La posizione della scatola dà un’idea dei valori caratteristici del fenomeno. In particolare, il segmento che la divide è un indice di posizione. 3. La posizione del segmento rispetto agli estremi della scatola (assieme alla lunghezza dei baffi) è un indice della simmetria. 4. I baffi danno un’idea della lunghezza delle code. 75 Esempio: Precipitazioni nel mese di marzo (in pollici) 0,77 1,43 0,52 3,00 1,87 0,47 2,10 2,81 1,31 1,87 1,51 0,81 0,96 1,18 1,95 0,59 2,28 1,20 0,80 0,32 4,75 0,81 2,20 1,20 1,35 1,74 3,37 1,62 3,09 2,05 La mediana è tra il 15o e il 16o posto (nella graduatoria crescente delle osservazioni), ossia tra 1,43 e 1,51. Quindi Me=1,47 pollici. Costruendo la funzione di frequenza relativa cumulata, si vede che Q1=0,81 pollici e Q3=2,10 pollici. Inoltre, 2 3 Coda destra lunga (frequenza relativamente alta di forti precipitazioni). 1 Asimmetria a destra. 0 precipitazioni 4 5 xmin = 0, 32 e xmax = 4, 75 76 I boxplot sono molto utili per il confronto tra distribuzioni di frequenza di due o più variabili omogenee: basterà affiancare i relativi boxplot mantenendo la stessa scala per l’asse delle y. 3 1 2 precipitazioni 4 5 Si supponga, ad esempio, di disporre delle osservazioni sulle precipitazioni del mese di aprile. Volendo confrontare le distribuzioni delle precipitazioni di marzo e di aprile, possiamo ricorre ai seguenti boxplot affiancati. MARZO APRILE Dal confronto dei due boxplot possiamo concludere che le precipitazioni di aprile sono statisticamente superiori alle precipitazioni di marzo. Infatti, qualunque sia il quantile che si considera la distribuzione delle precipitazioni di aprile presenta un valore del quantile stesso superiore rispetto a quello di marzo. Questo ragionamento può essere esteso. Se il boxplot della variabile X si trova “al di sopra” del boxplot della variabile Y (per ciascun quantile), allora X è statisticamente maggiore di Y . 77 TRASFORMAZIONI DEI DATI I dati grezzi raccolti in una rilevazione possono essere opportunamente trasformati, ad esempio, per adottare un’unità di misura più idonea a rappresentare il fenomeno, o per rendere meno complicata l’analisi. Le trasformazioni più semplici sono: 1. Cambio di origine Si ottiene aggiungendo o togliendo una costante. Dalla variabile X con osservazioni x1, x2, . . . , xN si ottiene una nuova variabile Y = X + a (a ∈ IR) con osservazioni y1 = x1 + a, y2 = x2 + a, . . . , yN = xN + a. Cosa succede a media e varianza in seguito ad un cambio di origine? M (Y ) = M (X + a) = M (X) + a (subisce lo stesso tipo di trasformazione) V (Y ) = V (X + a) = V (X) (non subisce alcun cambiamento) Esempio: X rappresenta la variabile salario lordo mensile (in euro) osservata su un campione di 100 individui. Si sa che M (X) = 1300 euro e V (X) = 10000. Se tutti i 100 individui ottengono un aumento del salario mensile pari a 100 euro, allora la variabile Y 78 che descrive il nuovo salario lordo mensile è Y = X + 100 con M (Y ) = M (X + 100) = 1300 + 100 = 1400 euro V (Y ) = V (X + 100) = 10000. 2. Cambio di scala Si ottiene moltiplicando o dividendo per una costante. Dalla variabile X con osservazioni x1, x2, . . . , xN si ottiene una nuova variabile Y = b · X (b ∈ IR+) con osservazioni y1 = b · x1, y2 = b · x2, . . . , yN = b · xN . Cosa succede a media e varianza in seguito ad un cambio di scala? M (Y ) = M (b · X) = b · M (X) (subisce lo stesso tipo di trasformazione) V (Y ) = V (b · X) = b2 · V (X) (la costante moltiplicativa deve essere elevata al quadrato) Esempio: Sia X la variabile definita nell’esempio precedente. Se indichiamo con Y la variabile salario lordo mensile in lire, allora Y = 1936, 27 · X. La media e la varianza del salario lordo mensile dei 100 individui in lire saranno, allora, M (Y ) = M (1936, 27 · X) = 1936, 27 · 1300 lire V (Y ) = V (1936, 27 · X) = 1936, 272 · 10000. 79 3. Cambio di origine e di scala (trasformazione lineare dei dati) Combiniamo i due tipi di trasformazione appena visti. Dalla variabile X con osservazioni x1, x2, . . . , xN si ottiene una nuova variabile Y = a + b · X (a ∈ IR, b ∈ IR+) con osservazioni y1 = a + b · x1, y2 = a + b · x2, . . . , yN = a + b · xN . Cosa succede a media e varianza in seguito ad un cambio di origine e di scala? M (Y ) = M (a + b · X) = a + b · M (X) (subisce lo stesso tipo di trasformazione) V (Y ) = V (a + b · X) = b2 · V (X) (la costante moltiplicativa deve essere elevata al quadrato e si perde la costante additiva) LA STANDARDIZZAZIONE La standardizzazione è un particolare tipo di trasformazione lineare (cambio sia di origine che di scala). Consiste nel sottrarre a ciascuna osservazione di una variabile X la media M (X) e dividere il tutto per lo scarto quadratico medio s: X − M (X) Z= s 80 Calcoliamo la media e la varianza della nuova variabile standardizzata Z. Si noti che la trasformazione applicata equivale ad una trasformazione di tipo 3 con b = 1/S e a = −M (X)/S. Allora, ' & M (X) 1 M (X) 1 + X =− + M (X) = 0 M (Z) = M − s s s s & ' M (X) 1 1 V (Z) = V − + X = 2 V (X) = 1 s s s In sintesi, una variabile standardizzata ha media 0, varianza 1 ed è adimensionale (non ha unità di misura). Esempio: Se prendiamo le osservazioni xi (i = 1, . . . , 100) sul salario lordo mensile (in euro) dei 100 individui e le trasformiamo tramite xi − 1300 i = 1, . . . , 100 zi = √ 10000 otteniamo delle osservazioni adimensionali, di media nulla e varianza unitaria. L’utilità dell’operazione di standardizzazione risulterà più chiara nel prosieguo delle lezioni. 81 INDICI DI DISPERSIONE RELATIVI Abbiamo visto che lo scarto quadratico medio, come anche la varianza, è un indice di variabilità che dipende dall’unità di misura. Non possiamo pertanto utilizzare tale indice per confrontare la variabilità di fenomeni espressi in diverse unità di misura, come ad esempio centimetri e metri. In realtà lo scarto quadratico medio, come la varianza, ha anche una altra importante limitazione: risente dell’ordine di grandezza dei dati. Non è quindi corretto confrontare tramite lo scarto quadratico medio (o la varianza) la variabilità di due fenomeni, che pur essendo espressi nella stessa unità di misura, hanno valori medi molto diversi, ad esempio il peso dei bambini e il peso degli adulti, anche se espressi entrambi in kg, oppure il reddito di paesi con diverso grado di povertà, anche se espressi nella stessa valuta. E’ opportuno allora introdurre delle misure di variabilità rapportate alla grandezza della variabile studiata: gli indici di dispersione relativi. Il più noto di questi indici è il coefficiente di variazione (CV) definito come s CV = x̄ Poiché x̄ e s hanno la stessa unità di misura, CV è un numero puro (adimensionale). 82 Esempio: Peso dei maschi e delle femmine (in kg) x̄M = 72, 6 kg x̄F = 53, 3 kg sM = 2, 6 kg sF = 2, 1 kg Maggiore variabilità assoluta per i maschi che per le femmine. Tuttavia, CVM = 0, 036 CVF = 0, 039 La variabilità percentuale del peso dei maschi è 3,6%; delle femmine è 3,9%. Il peso dei maschi risulta meno variabile di quello delle femmine (anche se di poco) su scala percentuale. 83 DIPENDENZA E ASSOCIAZIONE DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI Sinora abbiamo considerato l’analisi di un’unica variabile per volta. Tuttavia, le rilevazioni su un’unità statistica sono in generale relative ad un insieme di variabili (confronto con la matrice di dati vista nella prima lezione). Ci limiteremo a considerare il caso di due variabili. Siano X e Y due variabili che possono essere entrambe qualitative, entrambe quantitative, oppure una di un tipo e una di un altro. Distribuzioni doppie unitarie (dati bivariati in forma grezza) Unità (X, Y ) 1 2 ... i ... N (x1, y1) (x2, y2) ... (xi , yi) ... (xN , yN ) Coppia di modalità osservate su ciascuna unità statistica In questo caso su ogni unità statistica rileviamo una coppia di modalità, quella di X e quella di Y . Esempi: Per ogni persona, sesso e età; per ogni azienda, settore e fatturato; per ogni nucleo familiare, reddito e consumo mensile. 84 Alcuni dati sul Titanic Dopo il disastro, una commissione d’inchiesta del British Board of Trade ha compilato una lista di tutti i 1316 passeggeri con alcune informazioni aggiuntive riguardanti: l’esito (salvato, non salvato), la classe (I,II, III) in cui viaggiavano, il sesso, l’età, ecc.. Ci limitiamo a considerare le informazioni sull’esito e la classe. I dati bivariati in forma grezza saranno del tipo Passeggero Classe Esito nome 1 II salvato nome 2 III non salvato nome 3 I non salvato ... ... nome 1316 III salvato 85 Una prima sintesi che possiamo operare consiste nel costruire una tabella del tipo Esito Classe I II III Totale Salvato 203 118 178 Non Salvato 122 167 528 Totale 325 285 706 499 817 1316 chiamata Tabella a doppia entrata o Tabella di contingenza. Ci dice, ad esempio, che 203 è il numero di passeggeri che viaggiavano in I classe e sono sopravvissuti. Analogamente, 528 è il numero di passeggeri che viaggiavano in III classe e non sono sopravvissuti. Ci dice ancora che 499 è il numero complessivo di passeggeri che sono sopravvissuti, a prescindere dalla classe, e, similmente, che 285 è il numero di passeggeri che viaggiavano in II classe, a prescindere dall’esito del disastro. 86 Una tabella di contingenza contiene diverse informazioni. Parte centrale della tabella: Distribuzione di frequenza assoluta congiunta delle due variabili Esito Classe I II III Salvato 203 118 178 Non Salvato 122 167 528 Totale 325 285 706 Totale 499 817 1316 I bordi della tabella: Distribuzione di frequenza assoluta marginale (di una sola variabile) Esito Classe I II III Salvato 203 118 178 Non Salvato 122 167 528 Totale Totale 499 817 325 285 706 1316 Distribuzione marginale della variabile Esito, a prescindere dalla variabile Classe. 87 Esito Classe I II III Salvato 203 Non Salvato 122 Totale 118 167 178 528 Totale 499 817 325 285 706 1316 Distribuzione marginale della variabile Classe, a prescindere dalla variabile Esito. Una sola riga (o colonna): Distribuzione di frequenza assoluta di una variabile condizionata ad una modalità dell’altra variabile Esito Classe I II III Totale Salvato 203 118 178 499 Non Salvato 122 Totale 325 167 528 817 285 706 1316 Distribuzione della variabile Classe condizionata alla modalità “Salvato” della variabile Esito: guardiamo alla distribuzione delle frequenze assolute della variabile Classe limitando l’attenzione ai sopravvissuti. 88 Esito I Classe II III 118 167 178 528 499 817 325 285 706 1316 Salvato 203 Non Salvato 122 Totale Totale Distribuzione della variabile Esito condizionata alla modalità “II classe” della variabile Classe: guardiamo alla distribuzione delle frequenze assolute della variabile Esito limitando l’attenzione ai viaggiatori della II classe. N. B.: Le distribuzioni marginali e condizionate sono distribuzioni univariate, per le quali valgono tutte le considerazioni fatte nella prima parte del corso. 89 STRUTTURA GENERALE DI UNA TABELLA A DOPPIA ENTRATA Variabile X con modalità x1, x2, . . . , xr Variabile Y con modalità y1 , y2, . . . , ys X y1 y2 Y . . . yj . . . ys Totale x1 x2 ... xi ... xr n11 n21 ... ni1 ... nr1 n12 n22 ... ni2 ... nr2 ... ... ... ... ... ... n1j n2j ... nij ... nrj ... ... ... ... ... ... n1s n2s ... nis ... nrs n1· n2· ... ni· ... nr· Totale n·1 n·2 . . . n·j . . . n·s N Quando una o entrambe le variabili sono continue o discrete con molte modalità, le righe e/o le colonne possono anche corrispondere alle classi di suddivisione della variabile. 90 Distribuzione di frequenza assoluta congiunta (parte centrale della tabella) X y1 y2 Y . . . yj . . . ys x1 x2 ... xi ... xr n11 n21 ... ni1 ... nr1 n12 n22 ... ni2 ... nr2 ... ... ... ... ... ... n1j n2j ... nij ... nrj ... ... ... ... ... ... n1s n2s ... nis ... nrs N nij = numero di unità con la modalità i–esima di X e j–esima di Y = frequenza assoluta congiunta della coppia (xi, yj ). %r %s i=1 j=1 nij =N 91 Distribuzioni di frequenza assoluta marginali (bordi della tabella) X Freq. ass. marg. x1 x2 ... xi ... xr n1· n2· ... ni· ... nr· Totale N ni· =numero di unità che hanno il valore xi della variabile X senza tener conto del valore della Y = frequenza assoluta marginale di xi % ni· = sj=1 nij Y Freq. ass. marg. y1 y2 ... yj ... ys n·1 n·2 ... n·j ... n·s Totale N n·j =numero di unità che hanno il valore yj della variabile Y senza tener conto del valore della X= frequenza assoluta marginale di yj % n·j = ri=1 nij 92 Distribuzione di frequenza assoluta di X condizionata alla modalità yj di Y (colonna j–esima della tabella) Si denota con X|Y = yj o X|yj X Freq. ass. cond. a yj x1 x2 ... xi ... xr n1j n2j ... nij ... nrj Totale n·j È una distribuzione univariata. Una tabella a doppia entrata contiene s distribuzioni condizionate di X. Distribuzione di frequenza assoluta di Y condizionata alla modalità xi di X (riga i–esima della tabella) Si denota con Y |X = xi o Y |xi Y Freq. ass. cond. a xi y1 y2 ... yj ... ys ni1 ni2 ... nij ... nis Totale ni· È una distribuzione univariata. Una tabella a doppia entrata contiene r distribuzioni condizionate di Y . 93 DISTRIBUZIONI DI FREQUENZA RELATIVA X y1 y2 Y . . . yj . . . ys ToT x1 x2 ... xi ... xr f11 f21 ... fi1 ... fr1 f12 f22 ... fi2 ... fr2 ... ... ... ... ... ... f1j f2j ... fij ... frj ... ... ... ... ... ... f1s f2s ... fis ... frs f1· f2· ... fi· ... fr· frequenze ⇐ relative marginali di X ToT f·1 f·2 . . . f·j . . . f·s 1 ⇑ frequenze relative marginali di Y n fij =frequenza relativa congiunta della coppia (xi, yj )= Nij %r %s i=1 j=1 fij = 1 % fi· =frequenza relativa marginale di xi = nNi· = sj=1 fij % n f·j =frequenza relativa marginale di yj = N·j = ri=1 fij Esempio TITANIC Esito Classe I II III Salvato 0,15 0,09 0,14 Non Salvato 0,09 0,13 0,40 Totale 0,25 0,22 0,54 94 Totale 0,38 0,62 1 Distribuzione di frequenza relativa di X condizionata alla modalità yj di Y X Freq. ass. cond. a yj X Freq. rel. cond. a yj x1 x2 ... xi ... xr n1j n2j ... nij ... nrj x1 x2 ... xi ... xr n1j /n·j n2j /n·j ... nij /n·j ... nrj /n·j Totale n·j Totale 1 ATTENZIONE: Le frequenze relative congiunte fij NON sono le frequenze relative condizionate!! Si noti che nij /n·j = fij /f·j . Esempio TITANIC Classe Esito I II III Salvato 203 118 178 Non Salvato 122 167 528 Totale 325 285 706 95 Esito Classe I II III Salvato 0,62 0,41 0,25 Non Salvato 0,38 0,59 0,75 Totale 1 1 1 Distribuzione di frequenza relativa di Y condizionata alla modalità xi di X Y Freq. ass. cond. a xi Y Freq. rel. cond. a xi y1 y2 ... yj ... ys ni1 ni2 ... nij ... nis y1 y2 ... yj ... ys ni1/ni· ni2/ni· ... nij /ni· ... nis /ni· Totale ni· Totale 1 Si noti che nij /ni· = fij /fi· Esempio TITANIC Esito Classe I II III Totale Salvato 203 118 178 Non Salvato 122 167 528 Esito Classe I II III Salvato 0,41 0,24 0,36 Non Salvato 0,15 0,20 0,65 96 499 817 Totale 1 1 Medie e varianze marginali e condizionate Si consideri il caso in cui X è quantitativa. Poiché le distribuzioni marginali e condizionate di X sono univariate, possiamo calcolare medie e varianze marginali e condizionate. Marginali % % M (X) = N1 ri=1 xi · ni· = ri=1 xi · fi· % V (X) = N1 ri=1 x2i · ni· − M 2(X) Condizionate % M (X|Y = yj ) = n1·j ri=1 xinij % V (X|Y = yj ) = n1·j ri=1 xinij − M 2(X|Y = yj ) calcolabili per ogni j = 1, . . . , s Analogo ragionamento per Y , se è quantitativa. Esempio Voto all’esame Sesso 26 28 30 Totale M 4 2 4 10 F 1 8 1 10 Totale 5 10 5 20 M(Voto)= 26·5+28·10+30·5 =28 20 2 2 2 V(Voto)= 26 ·5+2820·10+30 ·5 − 282=2 M(Voto|Sesso=M)= 26·4+28·2+30·4 = 28 10 26·1+28·8+30·1 = 28 M(Voto|Sesso=F)= 10 2 2 2 V(Voto|Sesso=M)= 26 ·4+2810·2+30 ·4 − 282 = 3, 2 2 2 2 V(Voto|Sesso=F)= 26 ·1+2810·8+30 ·1 − 282 = 0, 8 97 DIPENDENZA E INDIPENDENZA STATISTICA (IN DISTRIBUZIONE) TRA DUE VARIABILI Spesso due caratteri vengono osservati insieme per vedere se vi è tra loro dipendenza. Si vuole, allora, usare i dati della tabella a doppia entrata per stabilire se tra X e Y c’è dipendenza o se sono tra loro indipendenti. Riprendiamo l’esempio del TITANIC. Le distribuzioni di frequenza relativa della variabile Esito condizionate alle tre modalità della variabile Classe sono: Classe Esito I II III freq. rel. marg. di Esito Salvato 0,62 0,41 0,25 0,38 0,62 Non Salvato 0,38 0,59 0,75 Totale 1 1 1 È evidente che l’Esito dipende dalla Classe. Si noti, infatti, che in I classe si è salvato il 62% dei passeggeri, mentre in III classe solo il 25% dei passeggeri è sopravvissuto (viene da pensare che i viaggiatori della I classe abbiano avuto un trattamento preferenziale). N.B.: Il confronto tra le tre distribuzioni condizionate ha senso solo in termini di frequenze relative; non ha senso in termini di frequenze assolute, poiché le marginali della Classe sono diverse. Ad esempio, è sbagliato dire che si sono salvate più persone nella III classe rispetto alla II classe (178 contro 118), dato che 178 rappresenta solo il 25% del numero complessivo di passeggeri della 98 III classe, mentre 118 rappresenta ben il 41% del numero complessivo di passeggeri della II classe. Se l’Esito e la Classe fossero indipendenti, ci aspetteremmo di osservare delle distribuzioni di frequenza relativa condizionate fatte in questo modo: Classe Esito I II III freq. rel. marg. di Esito Salvato 0,38 0,38 0,38 0,38 0,62 Non Salvato 0,62 0,62 0,62 Totale 1 1 1 ossia 1. tutte uguali tra loro 2. uguali alla distribuzione di frequenza relativa marginale di Esito, dato che questa non tiene conto della suddivisione in classi. Questo ragionamento intuitivo si formalizza nella definizione di indipendenza statistica (o in distribuzione). DEFINIZIONE: X è statisticamente indipendente da Y se le s distribuzioni di frequenza relativa di X condizionate alle modalità di Y sono uguali alla distribuzione di frequenza relativa marginale di X: nij ni· = per ogni i = 1, . . . , r e per ogni j = 1, . . . , s n·j N 99 L’indipendenza è un concetto simmetrico. Vale, infatti, la seguente proposizione. PROPOSIZIONE: Se X è indipendente da Y , allora Y è indipendente da X e viceversa. DIMOSTRAZIONE: X indipendente da Y equivale a nij ni· = i = 1, . . . , r j = 1, . . . , s n·j N da cui nij n·j = i = 1, . . . , r j = 1, . . . , s ni· N ossia le r distribuzioni di frequenza relativa di Y condizionate alle modalità di X sono tutte uguali alla distribuzione di frequenza relativa marginale di Y e quindi Y è statisticamente indipendente da X. Analogamente, Y indipendente da X equivale a nij n·j = i = 1, . . . , r j = 1, . . . , s ni· N da cui nij ni· = i = 1, . . . , r j = 1, . . . , s n·j N ossia le s distribuzioni di frequenza relativa di X condizionate alle modalità di Y sono tutte uguali alla distribuzione di frequenza relativa marginale di X e quindi X è statisticamente indipendente da Y . In base a questa proposizione possiamo tranquillamente parlare di indipendenza di X e Y senza specificare la “direzione”. 100 In sintesi, X e Y sono indipendenti se le distribuzioni di frequenza relativa di X|Y sono uguali alla distribuzione di frequenza relativa marginale di X e se le distribuzioni di frequenza relativa di Y |X sono uguali alla distribuzione di frequenza relativa marginale di Y . Dalla definizione di indipendenza, dire che X e Y sono statisticamente indipendenti equivale a ni· × n·j N ossia ogni frequenza assoluta congiunta nij è pari al prodotto del totale della riga i e il totale della colonna j diviso per il numero complessivo di unità. nij = 101 DIPENDENZA Abbiamo visto cosa significa indipendenza tra X e Y . Se X e Y non sono indipendenti, allora vi è dipendenza. Casi estremi di dipendenza: MASSIMA ASSOCIAZIONE (DIPENDENZA PERFETTA): Y dipende perfettamente da X se in corrispondenza ad ogni modalità di X si verifica una sola modalità di Y (ossia, per ogni i si ha un solo j tale che nij ̸= 0). INTERDIPENDENZA PERFETTA: se ciascuna variabile dipende perfettamente dall’altra. Esempio X x1 x2 x3 x4 y1 0 13 0 0 Y y2 4 0 15 0 y3 0 0 0 7 Y dipende perfettamente da X, ma X non dipende perfettamente da Y . L’interdipendenza perfetta è possibile solo in tabelle .... La dipendenza perfetta è rara, si osserva esclusivamente quando tra le due variabili esiste una dipendenza deterministica (una delle due variabile è funzione dell’altra). 102 MISURA DI ASSOCIAZIONE IN UNA TABELLA A DOPPIA ENTRATA: L’INDICE CHI–QUADRATO Come valutiamo se una tabella doppia osservata è vicina o lontana dalla situazione di indipendenza? Possiamo calcolare i valori teorici delle frequenze assolute congiunte che si avrebbero nel caso in cui X e Y fossero indipendenti: ni·n·j n∗ij = N e confrontarli con le frequenze assolute congiunte effettivamente osservate nij . Se rileviamo delle differenze notevoli tra le due frequenze abbiamo l’indicazione che tra le due variabili non c’è indipendenza. Potremmo pensare di costruire le differenze cij = nij − n∗ij e ottenere una misura dell’associazione nella tabella osservata dall’indice r , s , cij i=1 j=1 Il problema è che questo indice è sempre identicamente uguale a 0, dato che r , r , s s , , nij = N = n∗ij i=1 j=1 Infatti, r , s , i=1 j=1 n∗ij = i=1 j=1 r , s , ni· n·j i=1 j=1 N s r 1 , , N2 = =N n·j = ni· N i=1 N j=1 103 Possiamo ovviare a questo problema usando c2ij al posto di cij . Il principale indice utilizzato per misurare l’associazione in una tabella è l’indice chi–quadrato: r , s s r , , , (nij − n∗ij )2 c2ij χ = ∗ = n n∗ij i=1 j=1 i=1 j=1 ij 2 Caratteristiche dell’indice chi–quadrato 1. χ2 ≥ 0 2. χ2 = 0 nel caso di indipendenza tra X e Y 3. χ2 è tanto più grande quanto più ci allontaniamo dal caso di indipendenza 4. può essere calcolato anche attraverso la formula r , s , n2ij − 1) χ = N( n n i=1 j=1 i· ·j 2 5. è un indice di dipendenza simmetrico: non tiene conto della direzione della dipendenza (causa–effetto) e rimane invariato se scambiamo il ruolo di X e Y . 104 Il valore dell’indice chi–quadrato dipende anche da N e dalla dimensione della tabella (r e s). Per facilitarne l’interpretazione, si ricorre spesso a indici normalizzati (compresi tra 0 e 1) derivati da χ2. In particolare, è frequente l’uso di √ χ2 e V = T T = N · min(r − 1, s − 1) Sono entrambi compresi tra 0 e 1. Entrambi sono pari a 1 in caso di interdipendenza perfetta. T tende a sottovalutare il livello di dipendenza, questo problema è un pò attenuato con l’uso di V . Esempi di calcolo dell’indice chi–quadrato 1. IL TITINIC Classe I II III Totale Esito Salvato 203 118 178 Non Salvato 122 167 528 Totale 325 285 706 499 817 1316 La tabella delle frequenze teoriche sotto l’ipotesi di indipendenza, n∗ij = ni· n·j /N , è Esito Classe II I III Totale Salvato 499·325 1316 = 123, 2 108,1 499·706 1316 = 267, 7 499 Non Salvato 817·325 1316 = 201, 8 176,9 817·706 1316 = 438, 3 817 Totale 325 285 105 706 1316 Il confronto tra frequenze teoriche e frequenze osservate è istruttivo. Ad esempio, ci indica che, senza la preferenza accordata ai passeggeri di I classe, si sarebbero salvati un centinaio di passeggeri di III classe in più. (203 − 123, 2)2 (118 − 108, 1)2 (528 − 438, 3)2 χ = + +. . .+ = 133, 05 123, 2 108, 1 438, 3 133, 05 V = = 0, 32 1316 · min(3 − 1, 2 − 1) 2 che indica un certo grado di associazione tra Classe ed Esito. 2. ATTEGGIAMENTO RIGUARDO L’IMMIGRAZIONE DI EXTRA–COMUNITARI Area di provenienza Atteggiamento Nord Centro Sud Isole Totale Favorevoli Contrari 80 286 103 187 182 238 16 74 381 785 Totale 366 290 420 90 1166 Costruiamo le 4 distribuzioni di frequenza relativa dell’Atteggiamento condizionate all’Area di provenienza 106 Area di provenienza freq. rel. marg. Atteggiamento Nord Centro Sud Isole di Atteggiamento Favorevoli Contrari 0,219 0,781 0,355 0,645 Totale 1 1 0,433 0,178 0,567 0,822 1 1 0,327 0,633 1 Da cui notiamo, ad esempio, che la percentuale di favorevoli al Sud è superiore sia rispetto al Nord che rispetto al Centro. Questo ci fa pensare che ci sia una qualche forma di associazione tra le due variabili. Ricordiamo che, se le due variabili fossero indipendenti, le distribuzioni di frequenza relativa dell’Atteggiamento condizionate all’Area di provenienza dovrebbero essere uguali alla distribuzione di frequenza relativa marginale dell’Atteggiamento, ossia, si dovrebbe avere una tabella del tipo Area di provenienza freq. rel. marg. Atteggiamento Nord Centro Sud Isole di Atteggiamento Favorevoli Contrari 0,327 0,633 0,327 0,633 Totale 1 1 0,327 0,327 0,633 0,633 1 1 0,327 0,633 1 Per valutare il grado di associazione all’interno della tabella osservata, costruiamo l’indice chi–quadrato, partendo dalla tabella delle frequenze teoriche sotto l’ipotesi di indipendenza che risulta essere 107 Area di provenienza Atteggiamento Nord Centro Sud Isole Totale Favorevoli Contrari 119,6 246,4 94,8 195,2 Totale 366 290 137,2 29,4 282,8 60,6 420 90 381 785 1166 Possiamo calcolare l’indice chi–quadrato: (80 − 119, 6)2 (103 − 94, 8)2 (74 − 60, 6)2 χ = + +. . .+ = 51, 3 199, 6 94, 8 60, 6 2 e da questo V = - 51, 3 = 0, 22 1166 · min(2 − 1, 4 − 1) che indica una forma di associazione tra le due variabili, seppure non molto forte. 108 Talvolta sono possibili associazioni spurie, ossia la presenza di un legame statistico empirico tra due variabili logicamente indipendenti. Spesso sono dovute ad una variabile latente. Esempio -R=reddito basso, +R=reddito medio-alto <165=statura< 165 cm, ≥165=statura ≥ 165cm Maschi -R +R <165 9 61 ≥ 165 42 293 V=0,004 Femmine -R +R <165 36 34 ≥ 165 13 12 V=0,005 Totale -R +R <165 45 95 ≥ 165 55 305 V=0,19 Si provi a calcolare l’indice chi–quadrato tra Sesso e Reddito. 109 Esercizi Si usino i dati del TITANIC. 1. Potrebbe venire il dubbio che la preferenza accordata alla I classe sia dipesa dal fatto che in I classe viaggiava un numero più elevato di donne e di bambini (associazione spuria) e quindi che quello che abbiamo osservato era semplicemente una manifestazione di una “politica di salvataggio” del tipo “prima le donne e i bambini”. La seguente tabella si riferisce solo alle donne e ai bimbi. Esito I Classe II III Salvato 146 105 103 Non Salvato 4 13 141 Lo studenti commenti questa nuova tabella e calcoli • la distribuzione di frequenza relativa congiunta; • le distribuzioni di frequenza relativa marginale di entrambe le variabili; • le distribuzioni di frequenza relativa dell’Esito condizionate alla Classe; • l’indice chi–quadrato. 2. Lo studente ricostruisca dai dati forniti la distribuzione congiunta di Esito e Classe riferita solo ai maschi e la analizzi con le tecniche studiate. 110 DIPENDENZA DI UNA VARIABILE QUANTITATIVA DA UNA QUALITATIVA Spesso si osserva una variabile quantitativa Y classificata secondo le modalità di una variabile qualitativa X e l’interesse principale riguarda l’analisi del comportamento di quella quantitativa. Più precisamente, si vuole verificare se l’analisi di Y può essere approfondita quando, invece di analizzare l’intero insieme delle sue osservazioni indistintamente, si considerano queste suddivise in classi identificate dalle modalità della variabile qualitativa. Ad esempio, la distribuzione del reddito pro–capite (Y ) per provincia italiana (X), oppure il peso (Y ) per uomini/donne (X). In questi contesti, i dati sono organizzati per gruppi distinti: X x1 y11 ... ... ... ... yn1 ,1 x2 x3 y12 y13 ... ... ... ... ... ... ... ... ... ... ... y n3 ,3 yn2 ,3 111 ... xr . . . y1r . . . ... . . . ... . . . ... . . . ... . . . ... . . . ynr ,r Si noti che le y della tabella non sono frequenze, ma le osservazioni della variabile. Ciascuna colonna della tabella ci dà la distribuzione di Y condizionata a ciascuna delle modalità di X: Y |X = xi. Per verificare quanto è utile la suddivisione in gruppi, bisogna sapere se queste distribuzioni condizionate sono simili oppore no. Vogliamo quindi rappresentare in modo sintentico ciascuna distribuzione Y |X = xi. Due delle soluzioni possibili sono: 1. Costruzione di una tabella a doppia entrata Possiamo raggruppare la variabile Y in s classi. In tal modo, otteniamo una tabella a doppia entrata per la quale possiamo verificare se c’è indipendenza guardando al valore dell’indice chi–quadrato. La tabella avrà la seguente forma Y y1 — y2 . . . ys−1 — ys Totale X y0 — y1 x1 x2 ... xr n11 n21 ... nr1 n12 n22 ... nr2 ... ... ... ... n1s n2s ... nrs n1· n2· ... nr· Totale n·1 n·2 ... n·s N 112 2. Rappresentazione grafica di ciascuna distribuzione condizionata Possiamo rappresentare graficamente ciascuna distribuzione condizionata Y |X = xi, ad esempio tramite istogramma, e confrontare i diversi istogrammi. Se tutti gli istogrammi sono uguali, allora le distribuzioni condizionate sono uguali e non vi è dipendenza statistica tra Y e X. Tuttavia, il confronto degli istogrammi potrebbe essere laborioso e di difficile interpretazione. Può risultare più agevole un confronto dei boxplot. Ancora, se tutti i boxplot sono uguali, Y e X sono indipendenti. 113 25 20 15 Numero di insetti 10 5 0 A B C D E F Tipo di Spray Esempio di confronto mediante boxplot: distribuzione del numero di insetti rilevati su unità agricole trattate con 6 differenti tipi di insetticida (A, B, C, D, E e F). Non solo dal confonto possiamo concludere che c’è dipendenza del numero di insetti Y dal tipo di insetticida adottato X, ma possiamo anche notare che alcuni insetticidi (C, D e E) hanno un’efficacia nettamente superiore agli altri. 114 ANALISI DELL’INTERDIPENDENZA DI DUE VARIABILI QUANTITATIVE Siamo interessati a studiare la relazione tra due variabili quantitative X e Y . Supponiamo che i dati relativi alla coppia di variabili (Y, X) abbia la seguente struttura: Y y1 y2 y3 ... yN X x1 x2 x3 ... xN Possiamo rappresentare queste osservazioni attraverso un diagramma di dispersione di Y rispetto a X, ossia attraverso il grafico dei punti (xi, yi ), i = 1, . . . , N . 115 Esempio Y = consumi delle famiglie (dal 1970 al 1980) X=reddito nazionale netto in centinaia di migliaia di miliardi di lire Y X 35,82 48,60 43,92 59,44 64,51 66,45 106,82 123,27 159,81 178,91 210,36 51,91 56,90 63,12 75,21 91,23 103,92 128,73 155,01 182,77 225,17 278,72 50 100 Consumo 150 200 Diagramma di dispersione 50 100 150 Reddito 116 200 250 ANALISI DELL’INTERDIPENDENZA TRA DUE VARIABILI QUANTITATIVE: LA COVARIANZA E IL COEFFICIENTE DI CORRELAZIONE LINEARE Se l’interesse è valutare l’associazione tra X e Y , senza ipotizzare nessun ordine causale tra le stesse, possiamo ricorrere ad una misura di interdipendenza chiamata COVARIANZA di X e Y . E’ definita nel modo seguente: COV(X, Y ) = M [(X − M (X))(Y − M (Y ))] Poste x̄ e ȳ le due medie COV(X, Y ) = M [(X − x̄)(Y − ȳ)] ossia la media dei prodotti degli scarti dalle medie. Se i dati sono in forma grezza Y y1 y2 .. yi .. yN X x1 x2 .. xi .. xN la covarianza è n 1 , (xi − x̄)(yi − ȳ) COV(X, Y ) = N i=1 117 CHE COSA MISURA LA COVARIANZA? + − xi − M(X) yi − M(Y) M(Y) − + M(X) 118 La covarianza può essere positiva o negativa a seconda che prevalgano coppie di scarti con segni concordi o discordi, rispettivamente. Una prevalenza di punti nei quadranti contrassegnati con + condurrà a una covarianza positiva. Una prevalenza di punti nei quadranti contrassegnati con - condurrà a una covarianza negativa. La covarianza è tanto maggiore quanto maggiore è la tendenza dei valori della Y a crescere al crescere dei valori della X e viceversa (covarianza positiva). E’ tanto minore quanto maggiore è la tendenza dei valori della Y a diminuire al crescere dei valori della X e viceversa (covarianza negativa). La covarianza è una misura di dipendenza lineare tra X e Y : è tanto maggiore in valore assoluto quanto maggiore è la tendenza dei punti (xi, yi ) a disporsi lungo una retta (la covarianza è positiva se la retta ha inclinazione positiva, è negativa se la retta ha inclinazione negativa). La covarianza è nulla se non c’è dipendenza lineare tra X e Y. 119 COV(X,Y)<0 COV(X,Y)>0 Y Y X X COV(X,Y)=0 COV(X,Y)=0 Y M(Y) M(X) X 120 50 M(Y) Consumo 150 200 Riprendiamo l’esempio Reddito–Consumo in Italia dal 1970 al 1980. 50 100 M(X) 150 200 250 Reddito Per la disposizione dei punti, possiamo subito concludere che la covarianza tra Reddito e Consumo è positiva. Inoltre, i punti presentano una forte tendenza a disporsi lungo una retta con inclinazione positiva; pertanto, la covarianza assumerà un valore piuttosto elevato. 121 Si può verificare che COV(X, Y ) = M (X·Y )−M (X)·M (Y ) = M (XY )−x̄ȳ ossia, è la media del prodotto meno il prodotto delle medie. Per dimostrare il risultato dobbiamo sapere che M (X + Y ) = M (X) + M (Y ) M (X + Y + Z) = M (X) + M (Y ) + M (Z) ecc.. Allora, COV(X, Y ) = = = = = M [(X − x̄)(Y − ȳ)] M [XY − x̄Y − X ȳ + x̄ȳ] M (XY ) − x̄M (Y ) − M (X)ȳ + x̄ȳ M (XY ) − x̄ȳ − x̄ȳ + x̄ȳ M (XY ) − x̄ȳ Nel caso di una distribuzione bivariata in forma grezza, il calcolo della covarianza è N 1 , COV(X, Y ) = xiyi − x̄ȳ. N i=1 Nel caso di una distribuzione bivariata riassunta in una tabella a doppia entrata, il calcolo diviene r s 1 ,, COV(X, Y ) = xiyj nij − x̄ȳ. N i=1 j=1 122 Si noti che se X e Y sono indipendenti, allora nij = ni· × n·j N e la covarianza diventa s r 1 ,, COV(X, Y ) = xiyj ni·n·j − x̄ȳ N 2 i=1 j=1 ⎞ /⎛ . r s 1 , 1 , xini· ⎝ yj n·j ⎠ − x̄ȳ = 0 = N i=1 N j=1 In sintesi, se X e Y sono indipendenti, allora COV(X, Y ) = 0, ma non vale il viceversa, ossia se COV(X, Y ) = 0 non necessariamente X e Y sono indipendenti. Quando COV(X, Y ) = 0 si dice che X e Y sono INCORRELATE. 123 LA CORRELAZIONE L’ordine di grandezza della covarianza dipende dall’unità di misura con cui sono espresse le variabili. Per eliminare questo effetto possiamo standardizzare le due variabili: X∗ : X − x̄ sX Y∗ : Y − ȳ sY Il coefficiente di correlazione lineare r è pari alla covarianza calcolata sulle variabili standardizzate X ∗ e Y ∗. Piché M (X ∗) = 0 e M (Y ∗) = 0 ' & (Y − ȳ) (X − x̄) = · r = M (X ∗Y ∗) = M sX sY & ' (X − x̄) · (Y − ȳ) COV(X, Y ) =M = sX sY sX sY COV(X, Y ) =4 V (X)V (Y ) Calcolo esplicito: Per una distribuzione bivariata in forma grezza: %N 1 xiyi − x̄ȳ r = N i=1 sX sY Per una distribuzione bivariata riassunta in una tabella a doppia entrata: %r %s 1 j=1 xi yj nij − x̄ȳ i=1 N r= sX sY 124 Si dimostra che −1 ≤ r ≤ 1 r = −1 oppure +1 dipendenza lineare perfetta Con r = −1 i punti si dispongono perfettamente lungo una retta con inclinazione negativa. Con r = +1 i punti si dispongono perfettamente lungo una retta con inclinazione positiva. r = 0 se e solo se COV(X, Y )=0 nessuna dipendenza lineare (le variabili sono incorrelate). Se X e Y sono indipendenti, allora COV(X, Y )=0 e r = 0, ma se COV(X, Y )=0 e r = 0 non necessariamente X e Y sono indipendenti. 125 r=0.4 r=0 r=0.6 r=0.8 r=0.9 r=0.95 126 r=−0.3 r=−0.5 r=−0.9 r=−0.7 r=−0.99 r=−0.95 127 Esempio I seguenti dati rappresentano il consumo medio di burro (in grammi per persona per settimana) e il prezzo medio del burro (in euro per 10 kilogrammi) in 10 anni consecutivi. Consumo Prezzo 98,7 100,4 102,9 108,6 116,5 122,8 115,7 115,7 106,6 116,2 33,0 31,5 28,8 25,9 23,7 21,9 22,1 24,2 24,9 21,6 1. Si rappresentino graficamente i dati della tabella e si commenti. 2. Si calcoli il coefficiente di correlazione tra le due variabili considerate. 128 Soluzione 110 105 100 Consumo 115 120 1. Uno strumento grafico adatto per rappresentare i dati della tabella è il diagramma di dispersione. La teoria economica suggerisce di studiare il consumo in funzione del prezzo, pertanto nelle ascisse viene messo il prezzo e nelle ordinate il consumo. Il grafico indica un aumento del consumo al diminuire del prezzo. Più precisamente, pare esserci una forte dipendenza lineare di segno negativo tra le due variabii. 22 24 26 28 Prezzo 129 30 32 2. Indichiamo con P la variabile prezzo e con C la variabile consumo. Gli ingredienti necessari per calcolare il coefficiente di correlazione tra le due variabili sono: M(P), M(C), M(C·P), M(C2) e M(P2). 98.7 + 100.4 + . . . + 116.2 = 110, 41 grammi 10 33.0 + 31.5 + . . . + 21.6 = 25, 76 euro M(P) = 10 98.7 · 33.0 + 100.4 · 31.5 + . . . + 116.2 · 21.6 = M(P·C) = 10 = 2816, 75 33.02 + 31.52 + . . . + 21.62 2 M(P ) = = 678, 34 10 98.72 + 100.42 + . . . + 116.22 2 = 12249, 53 M(C ) = 10 Da cui, M(C) = V(P) = 678, 34 − 25, 762 = 14, 76 e V(C) = 12249, 53 − 110, 412 = 59, 16 Cov(C, P ) = 2816, 75 − 25, 76 · 110, 41 = −27, 41 Segue che il coefficiente di correlazione r è Cov(C, P ) r=4 = −0, 928 V(P) · V(C) Il valore ottenuto conferma quanto già rilevato dal grafico di dispersione, ossia una forte dipendenza lineare di segno negativo tra le due variabili. 130 Esempio di calcolo del coefficiente di correlazione in una tabella a doppia entrata Data la seguente distribuzione doppia ottenuta rilevando per 100 famiglie con casa di proprietà il valore di questa in migliaia di euro (Y ) e il reddito familiare annuo in migliaia di euro (X): Valore della casa Reddito familiare (in migliaia) Totale (in migliaia) 100–300 300–500 30–50 50–70 70–100 15 20 20 0 32 13 15 52 33 Totale 55 45 100 si calcoli il coefficiente di correlazione r. Senza fare calcoli, ci aspettiamo che al crescere del reddito familiare cresca anche il valore della casa e quindi un coefficiente di correlazione (e una covarianza) di segno positivo. Calcoliamo innanzitutto la covarianza: 40 · 15 + 60 · 52 + 85 · 33 M (X) = x̄ = = 65, 25 100 200 · 55 + 400 · 45 M (Y ) = ȳ = = 290 100 40 · 200 · 15 + 40 · 400 · 0 + 60 · 200 · 20 + 100 60 · 400 · 32 + 85 · 200 · 20 + 85 · 400 · 13 + = 19100 100 M (X · Y ) = 131 COV(X, Y ) = M (X · Y ) − M (X) · M (Y ) = = 19100 − 290 · 65, 25 = 177, 5 Per il coefficiente di correlazione, in aggiunta, abbiamo bisogno di V (X) e V (Y ): 402 · 15 + 602 · 52 + 852 · 33 V (X) = − 65, 252 = 238, 69 100 2002 · 55 + 4002 · 45 − 2902 = 9900 V (Y ) = 100 COV(X, Y ) r=4 = 0, 115 V (X)V (Y ) che conferma le considerazioni iniziali. 132