STATISTICA DESCRITTIVA Mariantonietta Ruggieri Dipartimento di Scienze statistiche e matematiche “S.Vianelli” Università degli studi di Palermo Prefazione Questa dispensa è stata creata per gli studenti della Facoltà di Economia di Palermo dei corsi di laurea in: - AMMINISTRAZIONE ED ECONOMIA DELLE IMPRESE; - ECONOMIA E VALUTAZIONE DELLE POLITICHE PUBBLICHE E TERRITORIALI; - ECONOMIA E FINANZA; - STATISTICA E INFORMATICA PER LA GESTIONE E L’ANALISI DEI DATI. Gli esercizi riportati sono stati svolti in aula, con l’ausilio del foglio elettronico Excel, durante le esercitazioni. 2 INDICE 1 Cos’è la Statistica 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 5 Cenni storici Fonti di dati La Statistica come disciplina ausiliaria Fenomeni ripetibili, parzialmente ripetibili, non ripetibili Scale di misura e classificazione delle variabili statistiche Gli errori nei dati I dati statistici Popolazioni e campioni di dati 2 La sintesi dei dati 15 2.1 Serie di dati e distribuzioni di frequenze 2.2 Rappresentazioni grafiche 2.3 Esempi 3 Le medie 3.1 3.2 3.3 3.4 5 6 7 8 9 13 13 14 15 17 18 29 Medie secondo il Chisini Medie di posizione Medie decisionali Proprietà della media aritmetica 4 La variabilità 30 36 43 47 51 4.1 Gli indici di variabilità assoluta 4.1.1 Gli indici di dispersione 4.1.2 Gli indici di variazione 4.1.3 Gli indici di diversità 4.2 Indici di variabilità relativa 4.2.1 Coefficienti di dispersione 4.2.3 Coefficienti di variazione 4.2.3 Coefficienti di diversità 4.3 Esempi sugli indici di variabilità assoluta 4.3.1 Esempi sugli indici di variazione 4.3.2 Esempi sugli indici di dispersione 4.3.3 Esempi sugli indici di diversità 4.4 Esempi sugli indici di variabilità relativa 4.5 Proprietà della varianza 4.6 Indici di eterogeneità 3 51 51 54 54 56 57 57 57 58 59 63 65 67 69 71 5 Adattamento di una distribuzione teorica ad una distribuzione di frequenza empirica 5.1 Cenni di calcolo delle probabilità 5.2 La distribuzione binomiale 5.3 La distribuzione di Poisson 5.4 La distribuzione normale o di Gauss 5.5 Adattamento di una distribuzione teorica ad una distribuzione empirica 6 Indici di forma 73 73 79 82 83 89 98 6.1 I momenti empirici 6.2 Asimmetria e curtosi 6.3 Il boxplot 6.4 Esempi 98 98 100 100 7 L'interdipendenza fra due variabili 106 7.1 Tabelle doppie di frequenza 7.2 Indipendenza in distribuzione 7.3 Dipendenza perfetta 7.4 Indici di associazione per tabelle 2×2 7.5 Indici di cograduazione 7.5.1 Concordanza tra graduatorie 7.5.2 Cograduazione per tabelle doppie di frequenza 7.6 Interdipendenza fra variabili quantitative 7.6.1 Esempi di calcolo della covarianza e di ρ 8 Indipendenza in media 106 109 113 114 116 116 120 122 125 128 8.1 Medie e varianze condizionate e marginali 8.2 Rapporto di correlazione 8.3 Punto medio e punto mediano 8.4 Frequenze cumulate per una tabella doppia 9 La regressione 128 130 133 134 135 9.1 La regressione lineare semplice 9.2 La regressione non lineare 9.3 La regressione multipla 136 143 146 Esercizi 150 4 1 Cos'è la Statistica 1.1 Cenni storici Tracce di ciò che potremmo definire statistiche si riscontrano già dai tempi della preistoria; l’uomo, infatti, da sempre ha sentito l’esigenza di quantificare e registrare avvenimenti importanti della propria vita, come l’ammontare delle nascite, delle morti, del numero dei capi di bestiame posseduti, dei prodotti agricoli raccolti e scambiati, e così via. Ma la Statistica come disciplina vera e propria nasce in Inghilterra e in Germania intorno al 1600; essa si occupa dello studio dei fenomeni demografici, sociali e dei principali fatti riguardanti la vita di uno Stato. Nello stesso periodo nasce il Calcolo delle probabilità, branca della Matematica, tuttavia per lungo tempo resta confinato ai giochi d’azzardo; solo successivamente il Calcolo delle probabilità, e più in generale la Matematica, diventano uno strumento fondamentale per la metodologia statistica, in particolare per la Statistica inferenziale. Con lo sviluppo dell’Informatica la metodologia statistica ha fatto un enorme passo avanti; oggi è possibile trattare una gran quantità di dati ed effettuare elaborazioni prima impossibili da eseguire manualmente o comunque in tempi brevi. Oggi tutti i paesi industrializzati dispongono di SERVIZI STATISTICI NAZIONALI, per cui non solo è aumentata la quantità disponibile dei dati statistici, ma ne è migliorata anche la qualità. In Italia l’ISTAT nasce come Istituto autonomo nel 1926; dal 1989 è un Istituto di Stato a gestione autonoma, dotato di personalità giuridica, ed è diventato “Istituto nazionale di Statistica”, sotto la dipendenza del Consiglio dei Ministri. L’Istat ha sede in Roma ed ha il compito di raccogliere, elaborare e diffondere informazioni 5 statistiche riguardanti tutti gli aspetti (demografici, sociali, economici) della vita dello Stato. L’ISTAT per legge non possiede il monopolio della informazione statistica; esistono anche altri enti, sia pubblici che privati, che producono statistiche di rilevante interesse nazionale, che non hanno però valore ufficiale. Si pensi, ad esempio, ai vari ministeri, ai comuni, alle regioni, alle province, nonché alla Banca d’Italia. Altri enti sono la Camera di Commercio, la Confindustria, il Censis, la RAI, l’ENEL, l’ENI, la Doxa, la Demoskopea, e così via. 1.2 Fonti di dati Le pubblicazioni ISTAT hanno carattere periodico; ci sono pubblicazioni annuali, decennali, ma anche occasionali e saltuarie. Citiamo fra le più importanti l’Annuario, il Compendio, il Bollettino mensile, gli Annuari specializzati, che costituiscono un’analisi dettagliata dei vari capitoli compresi nell’Annuario, oltre alle pubblicazioni dedicate ai Censimenti. Ricordiamo, infatti, che con periodicità decennale l’ISTAT effettua il Censimento della popolazione e delle abitazioni, il Censimento dell’agricoltura e il Censimento dell’industria, commercio, servizi e artigianato. Oggi ci si può collegare a una BANCA DATI, che consente di disporre di dati aggiornati in tempo reale su diversi fenomeni. Ci sono alcuni paesi, come l’Africa, che non dispongono di un servizio statistico nazionale, per i quali non è mai stato effettuato un censimento e per i quali, dunque, è impossibile valutare i mutamenti e le dimensioni dei fenomeni demografici, economici, sanitari, ecc… Per quanto riguarda le fonti statistiche internazionali, ricordiamo le pubblicazioni effettuate da alcuni organismi internazionali quali: 6 - l’ONU (Statistical yearbook, Demographic yearbook, Yearbook of national accounts Statistics, Monthly bullettin of Statistics); - l’UNESCO (Annuario dell’Istruzione); - la FAO (Production yearbook, Trade yearbook, Yearbook of forest products); - il BIT-ILO (Yearbook of labour Statistics); - l’OMS (World health Statistics annual); - l’OCSE; - il FMI; e così via. 1.3 La Statistica come disciplina ausiliaria La Statistica nasce come “Scienza di Stato”, e in questo senso trovano una connotazione i “censimenti”, ma col tempo assume un altro significato: “la Statistica e’ una disciplina ausiliaria alle altre discipline scientifiche, di cui la disciplina principale è la fisica, e assume un ruolo fondamentale nel processo di acquisizione scientifico della conoscenza”. Vediamo di capire meglio quanto affermato. Il Metodo Sperimentale, come è noto, fu introdotto da Galileo Galilei intorno al 1600. Per molti secoli l’uomo, interrogandosi sul comportamento della natura e sul verificarsi di determinati fenomeni, ha trovato risposta nel ragionamento filosofico e in alcuni teorie, come quella aristotelica, servendosi della sola logica. Il Metodo Sperimentale rivendica la necessità di “un’accurata sperimentazione” e riconosce la caducità di qualsiasi legge o modello, la cui importanza è assolutamente relativa. Galilei evidenzia il valore del legame esistente fra: - il mondo simbolico del razionale (TEORIA); 7 - il mondo empirico del reale (ESPERIENZA). Secondo il metodo da lui fondato, la conoscenza passata di un fenomeno deve essere arricchita e integrata da nuove informazioni o esperienze, che consentono di formulare nuove ipotesi, le quali possono essere formalizzate mediante modelli o leggi. In questa fase interviene la Matematica, dunque il Calcolo delle probabilità. Le ipotesi vanno continuamente verificate e aggiornate, eventualmente sostituite, dopo aver osservato nuovi dati. In questa fase interviene la Statistica. Qualsiasi teoria, dunque, e di conseguenza qualsiasi scienza, ha carattere assolutamente temporaneo. In tale processo scientifico induttivo-deduttivo di acquisizione della conoscenza, la Statistica ricopre il ruolo essenziale di “disciplina ausiliaria”. Essa interviene nelle seguenti fasi: • osservazione dei caratteri che descrivono un fenomeno; • raccolta delle informazioni sotto forma di dati, loro organizzazione, elaborazione e sintesi; • verifica di conformità dei modelli teorici alla realtà. 1.4 Fenomeni ripetibili, parzialmente ripetibili, non ripetibili La Statistica, dopo aver organizzato i dati, li predispone per l’analisi e li elabora per sintetizzare, nel modo migliore, le informazioni in essi contenute. L’obiettivo è quello di ottenere alcuni indici appropriati, che consentano di avere una visione globale del fenomeno oggetto di studio. La fase dell’elaborazione dei dati, e in particolare quello della sintesi, è un momento molto importante e dipende: • dal particolare tipo di fenomeno studiato; • dalla natura del carattere osservato; • dalla tipologia degli errori che influenzano i dati. 8 I fenomeni in natura possono essere distinti in: • ripetibili • parzialmente ripetibili • non ripetibili I fenomeni ripetibili sono quei fenomeni del reale per i quali è possibile ripetere più volte e nelle stesse condizioni la misura di una grandezza incognita. Ciascuna misura xi è affetta da errori εi di natura accidentale: xi=X+εi. Tali errori sono ineliminabili, qualunque sia la cura dei rilevatori e la precisione degli strumenti di misura. E’ compito della Statistica trovare il modo migliore di combinare le osservazioni, al fine di ottenere la migliore valutazione del vero valore della grandezza incognita X. I fenomeni parzialmente ripetibili sono quei fenomeni del reale legati all’evoluzione delle stagioni. E’ noto, ad esempio, che in Sicilia a giugno matura il grano, a settembre l’uva, a novembre le olive. Per questi fenomeni le metodologie statistiche disponibili sono meno informative rispetto a quelle relative ai fenomeni ripetibili. I fenomeni non ripetibili sono quei fenomeni del reale per i quali interviene la variabilità biologica. Ogni uomo, ad esempio, presenta caratteristiche diverse tali da rendere impossibile la “ripetibilità della prova”. Per questi fenomeni le metodologie statistiche risultano scarsamente informative. 1.5 Scale di misura e classificazione delle variabili statistiche La qualità e il significato dell’informazione sintetica ricavata, tramite l’analisi statistica, dalle singole osservazioni dipendono fortemente dalla natura del fenomeno, ma dipendono anche dal tipo di carattere che lo descrive e dalla sua misurabilità. 9 In Statistica distinguiamo diversi tipi di CARATTERI o VARIABILI, in relazione a quattro distinte SCALE DI MISURA: • NOMINALE; • ORDINALE; • DI INTERVALLI; • DI RAPPORTI. Un carattere è esprimibile su scala nominale o cardinale se fra le modalità del carattere si può stabilire solo una relazione di EQUIVALENZA. In tal caso, il carattere prende il nome di VARIABILE QUALITATIVA SCONNESSA O MUTABILE. Esempi di variabile qualitativa sconnessa sono: - il sesso; - la nazionalità. Rilevati su n soggetti il sesso e/o la nazionalità, è possibile dire solo se due diversi soggetti hanno uguale sesso/nazionalità oppure no. Questo tipo di dati ha, pertanto, un contenuto informativo molto basso. Un carattere si dice misurabile su scala ordinale, e in tal caso prende il nome di VARIABILE QUALITATIVA ORDINABILE O GRADUABILE, se fra le modalità del carattere è possibile stabilire, oltre ad una relazione di equivalenza, anche una relazione d’ORDINE. In poche parole, fra le modalità è possibile formulare una graduatoria: x(1) ≤ x(2) ≤ x(3) ≤ …....≤ x(n). Il contenuto informativo di tali variabili è pertanto maggiore rispetto a quello delle variabili considerate in precedenza. Esempi di variabili qualitative ordinabili sono: - il titolo di studio; 10 - la qualifica professionale. In tal caso, di due soggetti diversi, è possibile dire se hanno lo stesso titolo di studio o la stessa qualifica professionale, ma è anche possibile stabilire chi ha il titolo di studio o la qualifica migliore. In genere, quando si parla semplicemente di “caratteri”, si intendono le “variabili qualitative”. Le VARIABILI QUANTITATIVE, o semplicemente le VARIABILI, a differenza delle variabili qualitative, sono espresse da valori numerici. Le variabili quantitative si distinguono in: - DISCRETE; - CONTINUE. Le variabili quantitative discrete possono anche derivare da enumerazione o conteggio di oggetti o soggetti e assumono valori interi positivi. Esempi di variabili quantitative discrete sono: - il numero di figli di una famiglia; - il numero di vani di un appartamento. Le variabili quantitative continue sono espresse da “misure” (numeri razionali o, più in generale, reali) e possono assumere infiniti valori all’interno di un intervallo. Esempi di variabili quantitative continue sono: la statura, il reddito, il tempo. Un carattere quantitativo continuo si dice misurabile su SCALA A INTERVALLI se fra i valori del carattere è possibile stabilire una relazione di: - equivalenza; - ordine; - uguaglianza (xi+1-xi = xj+1-xj). 11 Per i valori di tali caratteri sono lecite le operazioni di addizione e sottrazione; la differenza fra due punti della scala è uguale alla differenza fra altri due punti della scala che hanno la stessa distanza. Ovvero un intervallo, preso in diversi punti della scala, deve rappresentare sempre la stessa quantità. Un carattere quantitativo si dice misurabile su SCALA DI RAPPORTI se tra i valori del carattere è possibile stabilire una relazione di: - equivalenza; - ordine; - uguaglianza; - rapporto (xi+1/xi = xj+1/xj). Le variabili quantitative continue misurabili su scala di rapporti hanno, dunque, un contenuto informativo molto elevato. Per i valori di tali caratteri sono lecite, oltre alle operazioni di addizione e sottrazione, anche le operazioni di moltiplicazione e divisione; il rapporto fra due punti della scala è uguale al rapporto fra altri due punti della scala che hanno la stessa distanza. La temperatura (in gradi Celsius, Fahrenheit, Reamur), il peso, la statura sono variabili misurabili su scala di intervallo; sono misurabili su scale di rapporto se rilevate sempre nelle stesse condizioni fisiche, per esempio nello stesso luogo. Lo zero della scala è, infatti, uno zero convenzionale e non coincide con lo zero assoluto (zero fisico, reale). La temperatura in gradi Kelvin, invece, è sempre misurabile su scala di rapporti, perché lo zero della scala coincide con lo zero assoluto, che è il punto in cui le molecole di qualsiasi gas non si muovono più. Tali variabili, dunque, non possono assumere valori negativi. VARIABILI SEMPLICI E MULTIPLE Raramente in natura i fenomeni sono descritti da un solo carattere. 12 Quando su uno stesso oggetto o soggetto si rilevano contemporaneamente le modalità o i valori di k caratteri siamo in presenza di una VARIABILE MULTIPLA. Una variabile multipla è OMOGENEA se le k variabili che la compongono sono tutte rilevate con la stessa scala di misura, è MISTA in tutti gli altri casi. In Statistica si impiegano metodologie diverse a seconda se i dati sono omogenei o misti. 1.6 Gli errori nei dati Gli errori modificano la qualità dell’informazione contenuta nei dati. Si suddividono in: - grossolani; - sistematici; - accidentali. Gli errori GROSSOLANI sono dovuti, ad esempio, ad un rilevatore maldestro o ad una immissione errata dei dati. Gli errori SISTEMATICI sono dovuti a strumenti poco precisi o tarati male. Gli errori ACCIDENTALI sono dovuti, invece, ad infinite cause perturbatrici, infinitesime, spesso non note. In un’indagine statistica seria gli errori grossolani e gli errori sistematici non dovrebbero mai essere presenti. La Statistica ha perciò il compito arduo di eliminare gli errori accidentali o meglio di individuare la migliore combinazione delle osservazioni ai fini di ridurne l’influenza. 1.7 I dati statistici I dati statistici possono essere suddivisi in dati spaziali, temporali, territoriali. I dati spaziali sono indipendenti dal luogo e dal tempo, per cui non è importante l’ordine con cui sono stati rilevati. Volendo, ad esempio, indagare sul carattere 13 “statura” degli studenti che compongono una classe, è possibile effettuare le rilevazioni in giorni e in ambienti diversi. I dati temporali (serie storiche) dipendono fortemente dal tempo, per cui è importante effettuare un’osservazione in un determinato istante piuttosto che in un altro. Si pensi, ad esempio, se si vuole studiare la legge di accrescimento del peso di una cucciolata durante il primo anno di vita. I dati territoriali dipendono dal luogo in cui sono stati osservati. Si pensi, ad esempio, se si vogliono effettuare studi sulla natalità o sulla mortalità di una determinata regione geografica. 1.8 Popolazioni e campioni di dati Non sempre è possibile disporre di tutti i dati necessari per descrivere un fenomeno, cioè di tutta la POPOLAZIONE o UNIVERSO dei dati. Per motivi di tempo o di costo, o semplicemente per impossibilità, il più delle volte si ricorre ad un CAMPIONE sufficientemente rappresentativo della popolazione. Dalle proprietà sintetiche rilevate sul campione si “inferisce” poi alle proprietà incognite dell’universo dei dati. A disciplinare tale procedura è una branca particolare della Statistica, denominata “Statistica inferenziale”. 14 2 La sintesi dei dati 2.1 Serie di dati e distribuzioni di frequenze Una distribuzione di frequenze consente di avere una rappresentazione più compatta e più informativa rispetto alla serie di dati osservati e tanto più quanto più la serie è numerosa. In particolare consente di: - disporre dell’elenco di tutte le modalità (valori) distinte/i; - individuare le modalità (valori) più frequenti; - determinare l’intervallo di variazione, se si dispone di valori, della serie originaria; - ipotizzare particolari modelli teorici, atti a descrivere l’andamento delle frequenze. Le “frequenze assolute” ni indicano il numero di volte con cui ciascuna modalità (valore) si presenta nella serie. Oltre alle frequenze assolute possono essere calcolate le “frequenze relative” fi, date dal rapporto fra ciascuna frequenza assoluta e il totale delle osservazioni ed esprimibili anche in termini percentuali. Le frequenze relative consentono di confrontare due variabili rilevate su collettivi di numerosità diversa. Si pensi ad esempio di voler confrontare il peso di un gruppo di soggetti di sesso maschile con il peso di un gruppo di soggetti di sesso femminile. A partire da una variabile qualitativa ordinabile, per costruire una distribuzione di frequenze, è necessario anzitutto disporre le modalità/valori in ordine crescente. Ha senso, in tal caso, calcolare anche le “frequenze cumulate”, assolute Ni o relative Fi, date dalla somma di ciascuna frequenza assoluta, o relativa, con le precedenti. 15 I valori di una variabile quantitativa discreta, se numerosi, possono essere raggruppati in classi; tuttavia, in questo caso, le classi non hanno lo stesso significato che hanno per la descrizione di un fenomeno continuo e necessariamente l’estremo superiore di una classe non coincide con l’estremo inferiore della classe successiva. La descrizione in classi per i fenomeni quantitativi continui ha appunto lo scopo di recuperare la natura continua del carattere, che al momento della rilevazione viene a cadere, a causa degli arrotondamenti. Se il carattere è di tipo continuo, le distribuzioni di frequenze per valori singoli possono risultare poco utili o addirittura inutili per suggerire l’eventuale modello teorico atto a descrivere il fenomeno. Si rende pertanto necessario raggruppare i valori osservati in opportune classi di ampiezza costante o variabile. Il criterio di raggruppamento in classi comporta sempre una perdita di informazioni rispetto alla serie originaria e tanto più quanto più sono ampie le classi. La perdita di informazioni influisce sulla correttezza delle costanti sintetiche calcolate sulla distribuzione di frequenze. Purtroppo, le procedure con cui le classi possono essere formate sono assolutamente arbitrarie e possono condurre a distribuzioni di frequenze sensibilmente diverse, sebbene determinate sulla stessa serie di dati. Si auspica, pertanto, che vengano rispettate le seguenti regole generali: - gli estremi delle classi siano arrotondati all'intero più prossimo o abbiano almeno il minor numero possibile di cifre decimali; - le ampiezze delle classi siano costanti e piccole (l’ampiezza determina il numero delle classi e viceversa); 16 - l’estremo inferiore della prima classe e l’estremo superiore dell’ultima differiscano il meno possibile, rispettivamente, dal valore più piccolo e dal valore più grande osservato; - nessuna classe abbia frequenza nulla; - ci sia un solo massimo o al più due; - l’andamento sia crescente e poi decrescente o comunque monotono; - scegliendo intervalli aperti (chiusi) sia a destra che a sinistra, si inseriscano, se è possibile, casi uguali in egual numero nelle classi contigue. 2.2 Rappresentazioni grafiche Da una tabella di frequenze possono dedurre informazioni solo gli esperti del settore, o comunque chi ha un minimo di conoscenze statistiche, mentre un grafico è immediatamente interpretabile da chiunque. Ciò perché la mente umana percepisce e memorizza con maggiore rapidità figure piuttosto che cifre. Un grafico, d’altra parte, rappresenta una fonte d’informazione meno ricca, in quanto non consente di evidenziare piccole differenze tra frequenze. Grafico e tabella, dunque, vanno utilizzati entrambi, cioè sono complementari. Tuttavia, una rappresentazione grafica deve essere autonoma dalla tabella, ovvero deve contenere tutte le informazioni necessarie per la sua interpretazione: va riportata la fonte da cui sono ricavati i dati, vanno specificate le variabili rilevate e le modalità o i valori assunti, vanno indicate le unità di misura. Le indicazioni devono essere leggibili e il grafico non deve apparire confuso se si rappresentano più fenomeni. E’ necessario, inoltre, scegliere la rappresentazione più semplice, se vi è la possibilità di una gamma di alternative. 17 2.3 Esempi All'inizio dell'anno accademico 2002/03 è stato sottoposto il seguente questionario agli studenti del corso di Statistica 1 – Corso di laurea in Economia e finanza, Facoltà di Economia di Palermo: Corso di laurea in Economia e Finanza Disciplina: STATISTICA 1 A.A. 2002/03 QUESTIONARIO 1) Cognome…………………………Nome…………………………… 2) Sesso F M 3) Data di nascita……………………………………… 4) Comune di residenza……………………………… 5) Provincia di residenza…………………………… 6) Altezza (in cm) ……………………………… 7) Peso (in Kg) …………………… 8) Scuola media superiore Liceo classico Liceo scientifico Istituto tecnico commerciale Istituto tecnico per geometri Istituto tecnico industriale Altro………………………………………… 9) Voto di maturità …………/100 …………/60 10) Matricola Si No A.A. di immatricolazione…………/………… 11) N. di esami sostenuti…………………… 12) Ha sostenuto l’esame di Matematica Si voto………………… No 13) Difficoltà incontrate nei corsi di I semestre Scarse Medie Elevate Molto elevate 14) E’ soddisfatto per la scelta del Corso di studi ? Si No 15) N. di componenti del nucleo familiare…………… 16) Titolo di studio del capofamiglia Nessun titolo Licenza elementare Licenza media Maturità Laurea 18 Raccolti tutti i questionari, è stato effettuato lo spoglio. I dati sono stati organizzati sotto forma di matrice di dimensione n× k, che per motivi di spazio non riportiamo, dove n=140 è il numero delle matricole frequentanti il corso e k sono le variabili rilevate. I dati riguardanti le variabili rilevate (sesso, provincia di residenza, altezza, peso, scuola di provenienza, ecc…) sono stati elaborati e sintetizzati. Di seguito riportiamo alcune di queste variabili, una per ogni tipologia. Si consideri la variabile "scuola superiore di provenienza". Se si suppone che le diverse scuole abbiano pari importanza, tale variabile può essere considerata una variabile qualitativa sconnessa, poiché considerati due soggetti è possibile dire solo se questi provengono dallo stesso tipo di scuola o meno. Per ragioni di spazio, le osservazioni riguardanti i 140 soggetti sono riportate sotto forma di tabella, ma nella matrice dei dati, rappresenterebbero una singola colonna. Ovviamente, è conveniente attribuire un'etichetta, o meglio un codice, a ciascuna modalità della variabile, per velocizzare l'immissione dei dati: • • • • • • Liceo classico → LC Liceo scientifico → LS Istituto tecnico commerciale → ITC Istituto tecnico per geometri → ITG Istituto tecnico industriale → ITI Altro → A 19 LC ITC LC ITC ITC ITC LS ITC ITC ITC ITC LS LS ITC LS LS ITC ITC LC LS LS LS LS ITC LS ITC LS LS LS ITC ITG A LS A A ITC ITC ITC LS LS LS ITC ITC ITC ITC LS ITC LS LS LS ITI LS LS ITC A A ITC ITC A LC LC LS ITC LS LS LS LS A LS ITG LS LC ITC ITC ITC ITC LS ITC ITC ITC ITC LC A ITC LS LC ITC ITC LS ITC ITC ITC ITC LS LS LS ITC ITC LC ITC ITC LS ITC LS LS LS LS LS LS LS ITC LS LS ITC ITC A ITC LS A LS LS LS ITC LS ITC ITC LS LS LC ITC LS ITC LS ITC ITC LC LC LS LC ITC La tabella sopra contiene la serie dei dati che, come è evidente, non è per nulla informativa; costruiamo, dunque la distribuzione di frequenza, ovvero contiamo quante volte ciascuna modalità si ripete nella serie. Di seguito, oltre alle frequenze assolute ni, si riportano anche le frequenze relative fi e le frequenze relative percentuali fi*100: xi A ITC ITG ITI LC LS totale ni 10 58 2 1 13 56 140 fi 0,07 0,41 0,01 0,01 0,09 0,40 1 fi*100 7 41 1 1 9 40 100 Dalla tabella si evince immediatamente quali sono le modalità più frequenti. In particolare, la maggior parte degli studenti, rispettivamente il 41% e il 40%, provengono dall'ITC e dal LS. La modalità cui è associata la frequenza più alta viene definita "moda". In questo caso la moda è "ITC". Le rappresentazioni grafiche tipiche di una variabile qualitativa sconnessa sono il grafico a colonne, il grafico a barre o a nastri e, se il numero delle modalità non è elevato, come in questo caso, gli areogrammi. 20 In un areogramma le frequenze sono rappresentate da superfici di figure piane (quadrati, rettangoli, cerchi), poste l’una accanto all'altra, oppure da parti di una stessa figura. L'areogramma, rispetto al grafico a colonne e al grafico a barre, dà meno possibilità di apprezzare piccole differenze fra le frequenze, perché l'occhio umano è più abituato a confrontare lunghezze piuttosto che aree. Il grafico a settori circolari o grafico a torta è un areogramma. Si costruisce un cerchio di area uguale o proporzionale al totale delle frequenze e si ripartisce in tanti settori quante sono le modalità. Ciascun settore ha area uguale o proporzionale alla frequenza della modalità cui è associato, per cui l'angolo α di ciascun settore si può ricavare dalla proporzione: 360 : α = n: ni ⇒ α= 360 ⋅ ni = 360 ⋅ f i . n Oggi, in realtà, esistono diversi software statistici che consentono di costruire tabelle e grafici tramite procedure molto semplici e automatiche. In genere, il grafico a torta è accompagnato da una legenda, che associa colori o tratteggi diversi a ciascun settore. In alternativa, si possono specificare le modalità su ciascun settore: Grafico a torta A 7% A ITC LS 40% ITG ITC 42% ITI LC ITG LC ITI 1% 9% 1% LS Analizziamo adesso la variabile "titolo di studio del capofamiglia". Questa variabile è una variabile qualitativa ordinabile poiché, considerati due soggetti, è 21 possibile dire non solo se hanno un titolo di studio diverso, ma anche chi possiede un titolo più importante. Si riporta di seguito direttamente la distribuzione di frequenza. Nel costruirla è necessario ricordare di ordinare le modalità. Le modalità sono state codificate nel seguente modo: • • • • • xi NT LE LM M L totale Nessun titolo → NT Licenza elementare → LE Licenza media → LM Maturità → M Laurea → L ni 3 13 37 60 27 140 fi 0,02 0,09 0,26 0,43 0,19 1 fi*100 2 9 26 43 19 100 Ni 3 16 53 113 140 Fi 0,02 0,11 0,38 0,81 1,00 Fi*100 2 11 38 81 100 Dalla tabella si evince che la maggioranza dei genitori ha conseguito la maturità (43%). Per questo tipo di variabile ha un senso calcolare anche le frequenze cumulate, assolute Ni, relative Fi o percentuali Fi*100. La frequenza assoluta cumulata N3 sta ad indicare, ad esempio, che 53 genitori su 140 hanno un titolo di studio inferiore o uguale alla LM. La frequenza relativa cumulata F4 sta ad indicare che l'81% dei genitori ha un titolo di studio inferiore o uguale alla maturità, e così via. Le rappresentazioni grafiche tipiche di una variabile qualitativa ordinabile sono uguali a quelle di una variabile qualitativa sconnessa. Se il carattere è ordinabile, è preferibile disporre i nastri o le colonne secondo l'ordine con cui si susseguono le modalità. Scegliamo il grafico a nastri. I grafici a nastri sono rappresentati da rettangoli aventi tutti la stessa altezza e basi uguali o proporzionali alle frequenze relative alle singole modalità: 22 Grafico a nastri modalità L M LM LE NT 0 10 20 30 40 50 60 70 frequenze assolute Può accadere che le dimensioni del disegno non siano contenute nel foglio. In tal caso, si può assumere un'unità di misura diversa oppure si possono troncare i rettangoli, ovvero si può spostare l'origine di riferimento; così facendo, però, ci si può non rendere conto delle effettive variazioni nelle frequenze. D'altra parte raddoppiando o dimezzando l'unità di misura si possono amplificare o attenuare le oscillazioni di un fenomeno. L'arbitrarietà nella scelta dell'unità di misura e lo spostamento dell'origine degli assi può fornire impressioni totalmente diverse del fenomeno rappresentato; si parla di manipolazione delle informazioni mediante lo strumento statistico. Si pensi, ad esempio, alle rappresentazioni grafiche riguardanti l'andamento dei mercati finanziari. Quando le dimensioni di un rettangolo (in questo caso di una base, ma potrebbe riguardare l'altezza nel caso di un grafico a colonne) si discostano di molto rispetto alle dimensioni degli altri, un buon metodo potrebbe essere quello di amputare il rettangolo e specificare nella parte amputata la frequenza ad esso associata. Consideriamo adesso una variabile quantitativa discreta, qual è ad esempio il "numero dei componenti del nucleo familiare". 23 Di seguito si riporta la serie dei dati già ordinata e la distribuzione delle frequenze assolute, relative e relative cumulate: 1 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 xi 1 2 3 4 5 6 tot ni 1 2 22 75 36 4 140 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 fi 0,01 0,01 0,16 0,54 0,26 0,03 1 Fi fi*100 Fi*100 0,01 1 1 0,02 1 2 0,18 16 18 0,72 54 72 0,97 26 97 1,00 3 100 100 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 Dalla tabella si evince che la famiglia media è costituita per lo più da 4 componenti (54%). La rappresentazione grafica tipica di una variabile di conteggio è il diagramma cartesiano o anche il grafico a colonne. Nei grafici a colonne, o a rettangoli, ogni modalità viene rappresentata sull'asse delle ascisse con segmenti uguali ed equidistanti. Si costruisce poi, su ciascun segmento, un rettangolo di altezza uguale o proporzionale alla frequenza associata a quella determinata modalità. Il diagramma cartesiano differisce dal grafico a colonne in quanto anziché rettangoli considera segmenti di retta di lunghezza pari o proporzionali alle singole frequenze. 24 5 5 5 5 5 5 6 6 6 6 N. COMPONENTI FAMIGLIA 80 70 60 50 40 30 20 10 0 1 2 3 4 5 6 Si consideri adesso una variabile quantitativa continua, ad esempio la statura. In questa fase dell'elaborazione non c'è differenza fra variabili misurabili su scala di intervalli o su scala di rapporti. Si riporta dunque la serie delle stature: 178 175 180 175 186 170 180 174 184 182 173 185 175 176 176 175 191 176 170 177 176 178 163 180 170 180 180 182 170 182 190 178 170 178 185 165 171 181 182 178 173 173 170 175 181 175 180 173 180 171 172 183 178 170 181 178 178 177 167 183 180 174 173 177 175 175 180 170 163 160 153 155 174 167 170 170 170 179 163 170 164 168 156 163 165 157 150 160 158 165 170 165 170 165 170 160 164 169 170 165 165 173 167 170 168 153 172 160 165 165 172 160 168 177 163 160 168 165 152 158 163 168 166 160 170 160 160 160 165 168 164 160 160 160 160 160 160 170 161 158 Costruire una distribuzione di frequenza per valori singoli non porterebbe per tale variabile ad una sintesi significativa delle informazioni; come si può notare, infatti, la tabella che segue è troppo lunga per dare informazioni immediate sull'andamento delle misure; molti sono i valori diversi e con frequenza pari a 1 o comunque con frequenza molto bassa: 25 xi 150 152 153 155 156 157 158 160 161 163 164 165 166 167 168 169 170 171 ni 1 1 2 1 1 1 3 16 1 6 3 11 1 3 6 1 19 2 xi 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 190 191 totale ni 3 6 3 8 4 4 8 1 9 3 4 2 1 2 1 1 1 140 Occorre, pertanto, costruire una distribuzione di frequenza per classi. Scegliamo otto classi di ampiezza costante e pari a 5 cm, chiuse a destra. Spesso, è conveniente lasciare aperte la prima e l'ultima classe, in modo tale da poter inserire nuove osservazioni, rilevate in tempi successivi: xi -| xi ≤155,5 155,5-|160,5 160,5-|165,5 165,5-|170,5 170,5-|175,5 175,5-|180,5 180,5-|185,5 >185,5 totale ni 5 21 21 30 22 26 12 3 140 Le rappresentazioni grafiche tipiche di una variabile quantitativa continua sono l'istogramma e il poligono di frequenza. L'istogramma è costituito da tanti rettangoli adiacenti quante sono le classi e hanno area Ai uguale o proporzionale alle frequenze ni: 26 Ai =bi⋅hi ≅ ni Ciascun rettangolo ha dunque base bi pari all'ampiezza della classe e altezza hi pari alla densità di frequenza, ossia hi = ni . Ovviamente, se le classi hanno tutte bi la stessa ampiezza, le basi agiscono solo come fattore di scala quindi, in tal caso, riportare in ordinata frequenze o densità di frequenze è in pratica la stessa cosa. Nell'esempio considerato, per poter rappresentare l'istogramma, la prima e l'ultima classe si considerano di ampiezza pari a quella delle altre: Istogramma 35 30 25 20 15 10 5 0 <155,5 155,5160,5 160,5165,5 165,5170,5 170,5175,5 175,5180,5 180,5185,5 >185,5 distribuzione delle stature In relazione alla diversa ampiezza delle classi, c'è un cambiamento nella rappresentazione grafica; l'arbitrarietà nella scelta delle classi modifica, dunque, la visualizzazione del fenomeno in esame. Il poligono di frequenza viene in genere sovrapposto all'istogramma. Si tratta di una spezzata che passa per i punti medi delle basi superiori dei rettangoli: 27 Poligono di frequenza 35 30 25 20 15 10 5 0 153 158 163 168 173 178 183 188 Statura in cm Se le classi sono tutte della stessa ampiezza, l'area sottesa dal poligono di frequenza è uguale all'area dell'istogramma. 28 3 Le medie La costruzione di una distribuzione di frequenza consente di disporre di una rappresentazione più compatta e informativa rispetto alla serie dei dati osservati. Alle distribuzioni di frequenza vanno affiancate le rappresentazioni grafiche che, sebbene non consentano di evidenziare eventuali sfumature del fenomeno oggetto di studio, tuttavia ne danno una visione immediata, interpretabile non solo da un esperto di Statistica. Si è detto che uno dei compiti fondamentali della Statistica è quello di riassumere, in alcune costanti di sintesi, caratteristiche particolari del fenomeno. Esistono diverse categorie di costanti sintetiche, ciascuna descrive un aspetto di una distribuzione. In particolare, i valori medi, se i dati sono quantitativi, ne pongono in evidenza la “dimensione” o “intensità”, ossia il loro ordine di grandezza. La scelta del tipo di media da utilizzare dipende dalla tipologia dei dati a disposizione e dagli scopi che ci si propone in una ricerca. Le medie che discendono dalla definizione di Chisini sono grandezze che derivano o dipendono dai valori dati e che sostituite ad essi li sintetizzano senza alterare la visione d’insieme del fenomeno considerato. Le medie di posizione suddividono la serie osservata in un numero prefissato di parti uguali; tali medie trovano giustificazione nella definizione di Cauchy: “è valore medio di una serie di dati qualsiasi valore compreso tra il più piccolo e il più grande di essi”. Le medie decisionali derivano dalla minimizzazione di una funzione di perdita dell’informazione. I dati osservati, infatti, se risultano dalla misura ripetuta di uno stesso oggetto o soggetto, sono affetti inevitabilmente, da errori accidentali. 29 3.1 Medie secondo il Chisini Le medie di Chisini si applicano su dati rilevati su oggetti/soggetti diversi, omogenei, ossia rilevati con la stessa unità di misura, e per ipotesi non affetti da errori. Fissata una funzione f, si chiama media quel valore costante M che, sostituito ad ogni singolo valore, lascia inalterata la seguente uguaglianza: f(M, M, ….., M) = f(x1, x2, ….., xn). Se il fenomeno è additivo, la funzione f è la funzione somma, e la media M che si ricava dall’uguaglianza suddetta è la media aritmetica: n n n i =1 i =1 ∑ M = ∑ xi n nM = ∑ x i M= ∑x i =1 i =1 i n Se il fenomeno è moltiplicativo, ovvero se si evolve in modo più che proporzionale rispetto all’unità di misura considerata, la funzione f è la funzione prodotto e la media M che si ricava dalla precedente uguaglianza è la media geometrica: n n i =1 i =1 ∏ M = ∏ xi n M n = ∏ xi M =n i =1 n ∏x i . i =1 Se le xi sono funzioni di altre variabili: xi=f(yi), per esempio xi=yim, l’uguaglianza diviene: f(Mm, Mm, ….., Mm) = f(y1m, y2m, ….., ynm) da cui, se f è la funzione somma, si ricava la media potenziata di ordine m: n n ∑M i =1 n m = ∑ y im i =1 n nM m = ∑ y im Mm = i =1 30 ∑y i =1 n m i n M = m ∑y i =1 m i n ⎛ n m⎞ ⎜ ∑ yi ⎟ ⎟ = ⎜ i =1 ⎜ n ⎟ ⎜ ⎟ ⎝ ⎠ 1/ m Per una distribuzione di frequenze è: ⎛ k m ⎜ ∑ y i ni M = ⎜ i =1 ⎜ n ⎜ ⎝ ⎞ ⎟ ⎟ ⎟ ⎟ ⎠ 1/ m . Al variare di m, si ricavano le seguenti medie: m=-1 media armonica m→0 media geometrica m=1 media aritmetica m=2 media quadratica m=3 media cubica tra le quali vale la relazione M-1 ≤ M0 ≤ M1 ≤ M2 ≤ M3, avendosi l’uguaglianza solo nel caso in cui le yi siano costanti. Se f è la funzione prodotto, si ottiene la media geometrica: n n i =1 i =1 n ∏ M m = ∏ yim M mn = ∏ y im i =1 1 ⎞ mn ⎛ n M = ⎜⎜ ∏ y im ⎟⎟ = n ⎠ ⎝ i =1 n ∏y i . i =1 Considerandone il logaritmo si ha: log M = 1 n ∑ log y i . n i =1 La media geometrica deve il suo nome al fatto che rappresenta il termine centrale di una progressione geometrica, con un numero di termini dispari. 31 Proprietà della media geometrica 1) La m.g. di una serie di valori moltiplicati per una costante è uguale alla costante per la m.g. dei valori; 2) La m.g. di una serie di rapporti di valori è uguale al rapporto tra le m.g. delle due serie di valori; 3) La m.g. del reciproco di una serie di valori è uguale al reciproco della m.g. Esempi sulle medie potenziate di ordine m Media quadratica Si abbiano quattro piastrine d’oro quadrate di uguale spessore, ma di lati rispettivamente uguali a 2, 4, 10, 8 cm. Si vogliano fondere e forgiare in 4 piastrine quadrate di lato uguale. Il lato medio sarà: n M2 = ∑x i =1 2 i n 2 2 + 4 2 + 10 2 + 8 2 184 = = 46 = 6,7823 4 4 = Media cubica Si abbiano 4 cubetti d’oro di diverso volume. Si vogliano fondere e forgiare in 4 cubetti di uguale volume. Se i lati dei cubetti misurano rispettivamente mm 2, 4, 10, 8, il lato medio sarà: ⎛ n 3⎞ ⎜ ∑ xi ⎟ M 3 = ⎜ i =1 ⎟ ⎜ n ⎟ ⎜ ⎟ ⎝ ⎠ 1/ 3 ⎛ 2 3 + 4 3 + 10 3 + 8 3 ⎞ ⎟⎟ = ⎜⎜ 4 ⎝ ⎠ 1/ 3 ⎛ 1584 ⎞ =⎜ ⎟ ⎝ 4 ⎠ 1/ 3 = 3 396 = 7,34 . Media geometrica Esempio 1 Un bene dal costo iniziale C subisce: - il 1° anno un aumento del 9%; - il 2° anno un aumento del 14% sul costo del 1° anno; 32 - il 3° anno un aumento del 12% sul costo del 2° anno; - il 4° anno un aumento del 10% sul costo del 3° anno. Determinare l’aumento percentuale medio. r1=0,09 r2=0,14 r3=0,12 r4=0,10 C1=C+Cr1=C(1+r1) C2=C1+C1r2=C1(1+r2)= C(1+r1) (1+r2) C3=C2+C2r3=C2(1+r3)= C(1+r1) (1+r2) (1+r3) C4=C3+C3r4=C3(1+r4)= C(1+r1) (1+r2) (1+r3) (1+r4) C(1+r1) (1+r2) (1+r3) (1+r4)= C(1+rM)4 4 1,09 ⋅ 1,14 ⋅ 1,12 ⋅ 1,10 = 1 + rM ⇒ 1,1123-1= rM rM=0,1123 Dunque il tasso di aumento medio durante i 4 anni è dell’11,23%. Esempio 2 Il numero di microrganismi in una certa coltura è aumentato da 2000 a 9000 in tre giorni. Qual è stato l’incremento medio giornaliero? Il n. dei microrganismi dopo un giorno sarà: n1=2000+2000r=2000(1+r) Dopo 2 giorni: n2=n1+n1r=n1(1+r)=2000(1+r)2 Dopo 3 giorni: n3=n2+n2r=n2(1+r)=2000(1+r)3 Poiché il n. dei microrganismi alla fine dei 3 giorni è uguale a 9000, si ha: n3=9000=2000(1+r)3 da cui, risolvendo rispetto ad r si ottiene: 33 ⇒ 4,5=(1+r)3 3 4,5 = 1 + r ⇒ 3 4,5 − 1 = r ⇒ r=0,6509 Il tasso di crescita medio è stato dunque del 65,1%. Media armonica Viene utilizzata quando si hanno quantità tra cui esiste una relazione inversa (es. durata e consumi, velocità e tempo, ecc…) Esempio 1 In 4 prove di velocità sul km lanciato, un corridore in bicicletta ha realizzato, rispettivamente, le velocità di 62, 64, 65, 68 km all’ora. I reciproci di queste velocità forniscono il tempo (v=s/t), in frazioni di ora, impiegato in ciascuna delle 4 prove, per percorrere un km: 1/62, 1/64, 1/65, 1/68. Determinare quella velocità media che lasci invariato il tempo totale cronometrato nelle 4 prove: 1 1 1 1 1 + + + = 4⋅ x 62 64 65 68 da cui x= 4 1 1 1 1 + + + 62 64 65 68 = 64,68 Esempio 2 Nelle analisi di mercato spesso è interessante conoscere il consumo medio annuo di un determinato prodotto. Supponiamo si voglia indagare sul consumo medio annuo di lamette da barba; viene dunque intervistato un campione di consumatori: 34 persone 1 2 3 4 5 totale consumo pro-capite: durata media in consumo annuo di giorni di una lamette lametta 10 365:10=36,5 6 365:6=60,8 30 365:30=12,2 5 365:5=73 14 365:14=26,1 65 208,6 208,6 = 41,7 lamette 5 durata media di ogni lametta: 365 = 8,8 giorni. 41,7 Più semplicemente: M −1 = 5 = 8,8 . 1 1 1 1 1 + + + + 10 6 30 5 14 Esempio 3 Un individuo spende per il riscaldamento di 3 anni consecutivi sempre la stessa cifra di 1500 ∈ all’anno, acquistando il combustibile a: - 0,30 ∈ il 1° anno; - 0,40 ∈ il 2° anno; - 0,50 ∈ il 3° anno. Determinare il costo medio di 1 l di combustibile per l’intero periodo. Sono stati acquistati: - il 1° anno 1500 = 5000 l di combustibile; 0,30 - il 2° anno 1500 = 3750 l di combustibile; 0,40 - il 3° anno 1500 = 3000 l di combustibile. 0,50 35 Il costo medio al l per l’intero periodo è: COSTO TOTALE 3 ⋅ 1500 = = 0,38 ∈. TOTALE LITRI 5000 + 3750 + 3000 Più rapidamente, basta calcolare la media armonica del costo al l: M −1 = n n 1 ∑x i =1 i = 3 = 0,38 ∈. 1 1 1 + + 0,30 0,40 0,50 3.2 Medie di posizione Le medie di posizione trovano applicazione nel contesto di una serie di modalità/valori ordinati in successione non decrescente: x(1) , x(2) , x(3) , …...., x(n) Definiamo “QUANTILI“ quei valori che ripartiscono la serie osservata in (q+1) parti di uguale numerosità; ovviamente è q ≤ n-1. Al variare di q, si ottengono i seguenti quantili: q=1 mediana q=2 terzili q=3 quartili q=5 sestili q=9 decili q=99 centili. Nella stessa serie il 2° quartile, così come il 3° sestile, coinciderà con la mediana: ⎧ x n +1 ⎪ 2 ⎪ M e = ⎨ xn + xn +1 ⎪ 2 2 ⎪⎩ 2 se n è dispari se n è pari il pedice indica la posizione che il valore x occupa nella serie. Ad esempio, supponiamo di aver rilevato il peso in kg di 13 uomini: 36 78 75 73 90 88 87 83 76 88 78 80 83 81 Volendo calcolare la mediana, dobbiamo innanzitutto ordinare la serie: 73 75 76 78 78 80 81 83 83 87 88 88 90 Poiché il numero delle osservazioni n=13 è dispari, la mediana è: M e = x n +1 = 81 . 2 Se non avessimo osservato l’ultimo valore x(13) = 90, il numero delle osservazioni n=12 sarebbe stato pari. In tal caso, xn + xn Me = 2 2 2 +1 = 80 + 81 = 80,5 . 2 Se la variabile in esame è quantitativa continua, i quantili possono essere calcolati nel seguente modo: x i q +1 ⎧ ⎪ x ⎡ ni ⎤ ⎪⎪ ⎢⎣ q +1 ⎥⎦ +1 =⎨ ⎞ ⎪⎛⎜ ⎟:2 x x + ⎡ ni ⎤ ⎟ ⎪⎜ ⎡ ni ⎤ + 1 ⎢ ⎥ ⎪⎩⎝ ⎢⎣ q +1 ⎥⎦ ⎣ q +1 ⎦ ⎠ ⎡ ni ⎤ ni se ⎢ ≠ ⎥ ⎣ q + 1⎦ q + 1 ⎡ ni ⎤ ni se ⎢ = ⎥ ⎣ q + 1⎦ q + 1 dove i=1, 2,…, q. Supponiamo, ad esempio, di aver rilevato il peso in kg di n=8 donne. Si riporta la serie già ordinata: 52 54 58 59 60 Mediana x 1 = x 0,5 = 2 x 4 + x 5 59 + 60 = = 59,5 2 2 37 60 63 65 Terzili x 1 = x 0,3 3 = x 3 = 58 3 x 2 = x 0, 66 = x 6 = 60 3 Quartili x 1 = x 0, 25 = 4 x 2 = x 0,5 = 4 x 3 = x 0, 75 = 4 x 2 + x 3 54 + 58 = 56 = 2 2 x 4 + x5 = 59,5 2 x 6 + x 7 60 + 63 = = 61,5 2 2 Sestili x 1 = x 0,16 = x 2 = 54 6 x 2 = x 0,3 3 = x 3 = 58 6 x 3 = x 0,5 = 6 x 4 + x5 = 59,5 2 x 4 = x 0, 66 = x 6 = 60 6 x 5 = x 0,8 3 = x 7 = 63 6 Vediamo adesso come calcolare i quantili su una distribuzione di frequenze. Consideriamo la seguente distribuzione: TITOLO DI STUDIO licenza elementare, nessun titolo licenza media qualifica professionale maturita' dottorato, laurea, diploma universitario TOTALE ni 20442469 16403989 2554109 11254538 3267219 53922324 Popolazione residente in Italia nell’anno 1999 secondo il titolo di studio Fonte: ISTAT, Annuario statistico italiano 1999 38 Per determinare i quantili occorre calcolare le frequenze cumulate: i Ni= ∑ n h i Fi= ∑ fh fi h =1 20442469 36846458 39400567 50655105 53922324 fi*100 Fi*100 37,911 30,422 4,737 20,872 6,059 100 37,911 68,332 73,069 93,941 100 h =1 0,379 0,304 0,047 0,209 0,061 1 0,379 0,683 0,731 0,939 1 Poiché N=53922324 è pari, la mediana occuperà una posizione compresa tra N N = 26961162 e + 1 = 26961163 . Tali posizioni sono contenute nella seconda 2 2 frequenza cumulata N2=36846458, cui è associata la modalità "licenza media". D'altra parte, guardando le frequenze relative o percentuali cumulate, si evince subito che il 50% delle osservazioni è contenuto proprio in F2. Consideriamo adesso la distribuzione di frequenze del numero di carburatori osservati su 32 automobili di marca diversa: xi 1 2 3 4 5 6 7 8 totale ni 7 10 3 10 0 1 0 1 32 fi 0,219 0,313 0,094 0,313 0 0,031 0 0,031 1 Ni 7 17 20 30 30 31 31 32 Calcoliamo la mediana e la media aritmetica: xN + xN Me = 2 2 2 +1 = x16 + x17 =2 2 8 M = ∑x n i i =1 N i = 90 = 2,8125 32 39 Fi 0,219 0,531 0,625 0,938 0,938 0,969 0,969 1 xini 7 20 9 40 0 6 0 8 90 Notiamo che la media aritmetica, essendo espressa da un numero decimale, non può rappresentare il numero di carburatori di un automobile! Per variabili di conteggio, dunque, la media aritmetica assume valore "indicativo-formale", mentre i valori medi di posizione assumono pienezza di significato. Consideriamo la distribuzione del numero di prodotti difettosi di un certo processo produttivo: xi 0 1 2 3 4 5 6 totale ni 3 9 13 11 8 4 2 50 fi 0,06 0,18 0,26 0,22 0,16 0,08 0,04 1,00 Ni 3 12 25 36 44 48 50 Fi 0,06 0,24 0,50 0,72 0,88 0,96 1,00 Poiché N=50 è pari, la mediana occuperà una posizione compresa tra N = 25 e 2 N + 1 = 26 . Osserviamo però che la 25° osservazione è compresa nella terza 2 frequenza cumulata N3 =25, cui è associato il valore 2, mentre la 26° osservazione è compresa nella quarta frequenza cumulata N4 =36, cui è associato il valore 3. Per convenzione si considera, allora, la semisomma di tali valori: M e = Q2 = 2+3 = 2,5 . 2 Volendo calcolare gli altri due quartili, Q1 e Q3, basta osservare le frequenze relative cumulate; quella che contiene il 25% delle osservazioni è F3, mentre quella che contiene il 75% delle osservazioni è F5, dunque Q1 =2 e Q3 =4. Consideriamo la distribuzione di un gruppo di famiglie agricole secondo il numero dei figli: 40 xi 0 1 2 3 4 5 6 7 8 9 10 11 totale ni 4 9 34 77 94 88 65 40 15 4 5 2 437 fi 0,009 0,021 0,078 0,176 0,215 0,201 0,149 0,092 0,034 0,009 0,011 0,005 Ni 4 13 47 124 218 306 371 411 426 430 435 437 Fi 0,009 0,030 0,107 0,284 0,499 0,700 0,849 0,940 0,975 0,984 0,995 1,000 Q1 =3 Q2 = M e = x N +1 = x 219 = 5 2 Q3 =6. Supponiamo adesso di voler calcolare i quartili su una distribuzione di frequenze per classi. Si considerino le temperature (in gradi) minime giornaliere di 25 mesi di luglio in una zona delle alpi orientali: xi -xi+1 6-7 7-8 8-9 9-10 10-11 11-12 12-13 13-14 14-15 15-16 16-17 17-18 18-19 19-20 20-21 ni 1 1 4 15 52 84 131 121 108 114 75 45 13 9 2 775 fi 0,001 0,001 0,005 0,019 0,067 0,108 0,169 0,156 0,139 0,147 0,097 0,058 0,017 0,012 0,003 1 41 Ni 1 2 6 21 73 157 288 409 517 631 706 751 764 773 775 Fi 0,001 0,002 0,007 0,027 0,094 0,202 0,371 0,527 0,667 0,814 0,911 0,969 0,986 0,997 1,000 Poiché N=775 è dispari, la mediana occuperà la posizione N +1 = 388 . Tale 2 posizione è compresa nell'8° frequenza cumulata, cui è associata la classe 13-14. La mediana, pertanto, sarà un valore all'interno di tale classe. Per convenzione, si sceglie il valore centrale della classe M e = 13 + 14 = 13,5 o, meglio, si utilizza il 2 metodo dell'interpolazione. A tale proposito, ricordiamo che, l'equazione di una retta passante per due punti A e B è: y − yA x − xA . = yB − y A xB − x A Considerato un punto P(x, y) appartenente alla retta, di cui è nota l'ordinata y, è semplice, quindi, determinarne l'ascissa x: x= y − yA (x B − x A ) + x A . yB − y A Se ipotizziamo che A e B abbiano coordinate A(xi, Ni-1), B(xi+1, Ni), il punto P(Me, N +1 ) è interno al segmento A-B, per cui la mediana si determina facilmente: 2 N +1 − N i −1 M − xi 2 = e N i − N i −1 xi +1 − xi e poiché Ni -Ni-1=ni: N +1 − N i −1 2 (xi +1 − xi ) + xi = 388 − 288 (14 − 13) + 13 = 13,83 . Me = ni 121 Ovviamente, se N +1 = N i , allora Me= xi+1. 2 Consideriamo un altro esempio, in cui N è pari: 42 xi -xi+1 50-100 100-200 200-300 totale N=600 ni 110 400 90 600 N = 300 2 Ni 110 510 600 N + 1 = 301 2 ⎛N N ⎞ ⎜ + + 1⎟ ⎝2 2 ⎠−N i −1 M − xi 2 = e N i − N i −1 xi +1 − xi ⎛N N ⎞ ⎜ + + 1⎟ 2 2 ⎠ si può considerare semplicemente N : In luogo di ⎝ 2 2 N − N i −1 2 (xi +1 − xi ) + xi = 300 − 110 (200 − 100) + 100 = 147,5 . Me = ni 400 In modo analogo si possono determinare gli altri quartili. 3.3 Medie decisionali Questi valori medi rivestono un’importanza particolare dal punto di vista scientifico, perché presentano un valore informativo molto elevato. Trovano collocazione nell’ambito di tutti quei fenomeni del reale ripetibili, per i quali cioè è possibile ripetere più volte, e nelle stesse condizioni, la misura di una grandezza incognita X. Questi dati risultano affetti da errori accidentali, dovuti alla presenza di infiniti fattori di disturbo, che non consentono di determinare con esattezza la misura X della grandezza cui siamo interessati. La Statistica è chiamata a trovare il modo più opportuno di combinare le osservazioni, al fine di ottenere la migliore valutazione del valore investigato X. 43 Se assumiamo che la relazione fra il vero valore X e l’errore casuale sia di tipo additivo xi=X+εi i=1, 2,….., n ciò che interessa è minimizzare l’errore ∀xi: εi = xi-X, per cui la migliore combinazione x delle osservazioni xi si ottiene minimizzando la funzione di perdita globale dell’informazione contenuta nei dati: Σ|εi |p=Σ| xi- x |p, p∈(0, ∞) è un parametro che dipende dalla natura probabilistica dell’errore εi. La metodologia statistica si fonda in buona parte sull’assunzione che gli errori seguano una distribuzione di probabilità normale. In realtà, gli errori seguono una distribuzione di tipo simmetrico ed unimodale, che varia, al variare di p, da forme cuspidate a forme più appiattite (famiglia di curve normali di ordine p). In particolare si dimostra che: - per p=1, εi ~ LAPLACE ⇒ x : mediana - per p=2, εi ~ NORMALE ⇒ x : media aritmetica - per p→∞, εi ~ UNIFORME ⇒ x : semisomma dei valori estremi Questa media x , che indicheremo con Mp-1, per sottolineare che dipende da p, rappresenta il vero valore della grandezza investigata X, cioè il valore che avremmo misurato se non ci fosse stata la presenza dell’errore. La media Mp-1, detta “media di norma p”, si ottiene, come si è detto, minimizzando la funzione di perdita globale, ossia risolvendo l’equazione: -pΣ| xi- Mp-1|p-1segno(xi- Mp-1)=0, 44 che ha soluzione esplicita solo per p=2: n ∑ (x i =1 − M 1 ) = minimo 2 i n n − 2∑ ( x i − M 1 ) = 0 ⇒ i =1 n ∑x i =1 − nM 1 = 0 i ⇒ M1 = ∑x i =1 n i . Esempi di medie decisionali La seguente tabella riporta 150 misure sperimentali rilevate in un punto di un circuito elettronico con un voltmetro digitale; i valori (misure della tensione) sono espressi in volt: 5,145 5,132 5,143 5,145 5,131 5,124 5,133 5,128 5,143 5,158 5,136 5,151 5,146 5,134 5,139 5,120 5,138 5,159 5,139 5,160 5,150 5,137 5,125 5,166 5,148 5,148 5,137 5,148 5,148 5,152 5,146 5,139 5,123 5,136 5,169 5,140 5,131 5,133 5,154 5,140 5,153 5,128 5,137 5,144 5,132 5,114 5,140 5,148 5,161 5,142 5,136 5,137 5,134 5,134 5,133 5,150 5,140 5,157 5,143 5,154 5,134 5,139 5,131 5,118 5,129 5,150 5,154 5,144 5,124 5,134 5,147 5,143 5,158 5,156 5,128 5,148 5,132 5,143 5,141 5,131 5,158 5,155 5,133 5,129 5,133 5,162 5,140 5,157 5,147 5,140 5,146 5,128 5,146 5,138 5,128 5,144 5,126 5,157 5,155 5,152 5,129 5,130 5,153 5,145 5,151 5,143 5,142 5,129 5,152 5,140 5,132 5,126 5,134 5,153 5,155 5,148 5,153 5,131 5,123 5,138 5,145 5,132 5,141 5,146 5,150 5,145 5,133 5,138 5,146 5,132 5,151 5,142 5,164 5,140 5,139 5,156 5,138 5,135 5,138 5,130 5,142 5,149 5,142 5,154 5,135 5,157 5,151 5,159 5,162 5,142 Si tratta di misure ripetute della stessa grandezza, affette da errori accidentali, dunque i valori medi più idonei a rappresentare tale grandezza sono le medie decisionali. Si è scelto di raggruppare i dati in 12 classi di ampiezza pari a 0,005 V. Anche se i dati assumono valori compresi tra 5,114 e 5,169, si è ampliato l'intervallo di variazione e scelto come estremo inferiore 5,110 e come estremo superiore 5,170. Le classi sono chiuse a destra: 45 xi xi+1 5,110 5,115 5,115 5,120 5,120 5,125 5,125 5,130 5,130 5,135 5,135 5,140 5,140 5,145 5,145 5,150 5,150 5,155 5,155 5,160 5,160 5,165 5,165 5,170 totale ni 1 2 5 13 25 26 22 20 18 12 4 2 150 Dalla rappresentazione grafica dei dati, si possono avere informazioni, sebbene molto grossolane, sulla distribuzione degli errori. I dati, infatti, differiscono dagli errori per una costante: xi=X+εi. Poligono di frequenza 30 25 20 15 10 5 0 5,113 5,118 5,123 5,128 5,133 5,138 5,143 5,148 5,153 5,158 5,163 5,168 Misure della tensione in V Se si suppone che i dati provengano da una distribuzione normale (p=2), la media più appropriata è la media aritmetica: 46 cxi 5,113 5,118 5,123 5,128 5,133 5,138 5,143 5,148 5,153 5,158 5,163 5,168 ni 1 2 5 13 25 26 22 20 18 12 4 2 150 cxi⋅ni 5,113 10,235 25,613 66,658 128,313 133,575 113,135 102,950 92,745 61,890 20,650 10,335 771,210 n M1 = ∑ i =1 c x i ni n = 771,21 = 5,1414 150 Se si suppone che i dati provengano da una distribuzione di Laplace (p=1); la media più appropriata è la mediana: xi xi+1 5,110 5,115 5,115 5,120 5,120 5,125 5,125 5,130 5,130 5,135 5,135 5,140 5,140 5,145 5,145 5,150 5,150 5,155 5,155 5,160 5,160 5,165 5,165 5,170 totale ni 1 2 5 13 25 26 22 20 18 12 4 2 150 Ni 1 3 8 21 46 72 94 114 132 144 148 150 N 150 − N i −1 − 72 2 2 (xi +1 − xi ) + xi = (5,145 − 5,140) + 5,140 = 5,1407 . M0 = ni 22 3.4 Proprieta' della media aritmetica La media aritmetica ha una capacità informativa notevole (a meno che non sia calcolata per variabili di tipo enumerazione o conteggio; nel qual caso assume 47 valore puramente indicativo), sia se ricavata dalla definizione di Chisini, sia come media decisionale. A prescindere dalla definizione da cui deriva, la media aritmetica gode di due importanti proprietà: 1) la somma degli scarti dei valori osservati dalla propria media aritmetica è sempre nulla: Σ(xi-M)=0 dimostrazione: Σ(xi-M)= Σxi-nM=Σxi-Σxi=0 2) la somma dei quadrati degli scarti dei valori dalla propria media aritmetica è un minimo rispetto alla somma dei quadrati degli scarti degli stessi valori da qualsiasi altra media: Σ(xi-M)2=minimo dimostrazione: Σ(xi-k)2= Σ[(xi-M)+(M-k)]2=Σ[(xi-M)2+(M-k)2+2(xi-M)(M-k)]= =Σ(xi-M)2+n(M-k)2+2(M-k)Σ(xi-M) Poichè: - n(M-k)2≥0, essendo (M-k)2 un quadrato ed n una quantità positiva; - 2(M-k)Σ(xi-M)=0, essendo Σ(xi-M)=0 per la 1° proprietà; allora Σ(xi-M)2≤Σ(xi-k)2, dove l’uguaglianza si ha per k=M. esempi: M=164 x(1) x(2) x(3) x(4) x(5) 160 162 164 166 168 poiché è il termine centrale di una serie aritmetica con un numero di termini dispari. Infatti: 48 n M= ∑x i =1 i n = 160 + 162 + 164 + 166 + 168 820 = = 164 5 5 1° proprietà Σ(xi-M)=(160-164)+ (162-164)+ (164-164)+ (166-164)+ (168-164)=-4-2+2+4=0 2° proprietà Σ(xi-M)2=16+4+4+16=40 k=162<164 Σ(xi-k)2=(160-162)2+ (162-162)2+ (164-162)2+ (166-162)2+ +(168-162)2=4+4+16+36=60 ⇒ 40<60 k=166>164 Σ(xi-k)2=(160-166)2+ (162-166)2+ (164-166)2+ (166-166)2+ +(168-166)2=36+16+4+4=60 ⇒ 40<60 In forma tabellare: xi 160 162 164 166 168 totale xi -M -4 -2 0 2 4 0 (xi -M)2 16 4 0 4 16 40 xi -162 (xi -162)2 xi -166 (xi -166)2 -2 4 -6 36 0 0 -4 16 2 4 -2 4 4 16 0 0 6 36 2 4 60 60 La media aritmetica gode di altre proprietà. Sia X una variabile statistica con media MX . Sia Y una trasformazione lineare di X: Y=α+βX; dimostriamo che: M Y = α + βM X dimostrazione n MY = ∑ yi i =1 n n = ∑ (α + βxi ) i =1 n n nα = +β n ∑x i =1 n 49 i = α + βM X Se β=1, Y=α+X ed è: MY = α + M X Ovvero, se la variabile X subisce una traslazione, la media subisce la stessa trasformazione della variabile. Se α=0, Y=βX , ovvero X subisce solo un cambiamento di scala ed è: M Y = βM X Supponiamo, ad esempio, di aver rilevato la statura, in m, su 5 soggetti: X: 1,50 1,60 1,70 1,80 MX =1,70 m 1,90 Volendo disporre della media in cm, trasformiamo i dati da m in cm: Y: 150 160 170 180 MY =170 cm 190 oppure possiamo trasformare direttamente MX : M Y = βM X =100⋅1,70=170 cm. Si consideri adesso una variabile statistica X con media MX e una variabile statistica Y con media MY. Sia Z=X+Y. Dimostriamo che: MZ=MX+MY dimostrazione n MZ = ∑ zi i =1 n n = n n ∑ ( xi + y i ) ∑ xi ∑ y i i =1 n = i =1 n + i =1 n 50 = M X + MY 4 La variabilità Come si è detto, ogni categoria di indici sintetici descrive particolari aspetti di una distribuzione. Gli indici di variabilità misurano l’attitudine che hanno i dati ad assumere valori diversi. In quanto costanti di sintesi, gli indici di variabilità si distinguono in relazione: - agli scopi che ci si propone; - al tipo di dati in esame; - al livello di informazione che si vuole ottenere. In particolare, nell’ambito degli indici di variabilità assoluta, distinguiamo: - gli indici di dispersione; - gli indici di variazione; - gli indici di diversita’. 4.1 Gli indici di variabilità assoluta Gli indici di variabilità assoluta soddisfano le seguenti proprietà: - risultano nulli se tutti i valori xi sono uguali fra loro, cioè se non c’è variabilità fra i dati; - assumono valori positivi se i valori xi sono diversi fra loro e sono tanto più elevati quanto più è elevata la variabilità fra le xi; - sono invarianti per traslazione; - sono espressi nella stessa unità di misura dei dati. 4.1.1 Gli indici di dispersione Gli indici di dispersione fanno riferimento a dati omogenei, che derivano da misure ripetute di una medesima grandezza incognita, riguardante uno stesso soggetto/oggetto o anche soggetti diversi, ma rigorosamente selezionati dal punto di vista genetico. 51 Tali misure si suppone siano affette da errori accidentali, che non consentono di conoscere con esattezza il vero valore della grandezza investigata. Compito della Statistica è individuare la migliore combinazione delle osservazioni ai fini di ridurre l’influenza degli errori. La migliore combinazione delle osservazioni, cioè la combinazione che meglio rappresenta il vero valore, sotto l’ipotesi di additività degli errori, è la media in senso “decisionale” Mp. In tale contesto, ha significato individuare un indice di dispersione che indichi di quanto il valore rilevato si discosta dal vero valore. Se non ci fosse l’influenza degli errori accidentali, tutti i dati rilevati sarebbero uguali fra loro e uguali a Mp, quindi la dispersione sarebbe nulla, perché nulli sarebbero tutti gli scarti (xi-Mp), i=1, 2, …., n. Ma ciò, in realtà, non si verifica e la variabilità sarà tanto più elevata quanto più grandi sono gli scostamenti dei valori xi da Mp. Sotto questi presupposti, una buona misura della variabilità dei dati è rappresentata dall’indice di dispersione: ⎡ n ⎢ ∑ xi − M p σ p = ⎢ i =1 n ⎢ ⎢ ⎣ p ⎤ ⎥ ⎥ ⎥ ⎥ ⎦ 1/ p , che risulta invariante se aggiungiamo a ciascun valore xi una costante α, cioè se cambiamo sistema di riferimento. In una distribuzione di frequenze, le osservazioni vanno ponderate, per cui: p ⎡ k ⎤ ⎢ ∑ x i − M p ni ⎥ ⎥ σ p = ⎢ i =1 n ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ 1/ p ⎡k = ⎢∑ x i − M p ⎣ i =1 52 p ⎤ fi ⎥ ⎦ 1/ p . Il parametro p∈(0,∞) dipende dalla particolare struttura degli errori che influenzano i dati: - se p=1, dunque εi ~ LAPLACE, si ha lo “scostamento semplice medio dalla mediana” n σ1 = ∑x i =1 i − M1 n che misura, in media, di quanto i valori osservati xi si discostano dalla mediana M1 ; - se p=2, cioè se εi ~ GAUSS, si ha lo “scarto quadratico medio” n σ2 = ∑ (x i =1 i − M2) 2 , n che misura, in media quadratica, di quanto i valori osservati xi si discostano dalla media aritmetica M2. Il quadrato di σ 2 è noto con il nome di “VARIANZA”, il cui calcolo si può effettuare con facilità, evitando gli scarti; infatti è: n ∑ (x i =1 i − M2) n ∑ (x n 2 = i =1 2 i − 2 xi M 2 + M 22 n ) ∑x = i =1 n n n 2 i n − 2M 2 ∑x i =1 n i + nM n 2 2 = ∑x i =1 n 2 i − M 22 , ossia la varianza di una serie di valori è uguale al quadrato della media quadratica meno il quadrato della media aritmetica. - Quando p→∞, cioè quando εi ~ UNIFORME, si dimostra che σ p è il semiintervallo di variazione: σ∞ = x (n ) − x (1) 2 . σ p è espresso nella stessa unità di misura dei valori osservati xi. 53 4.1.2 Gli indici di variazione Gli indici di variazione trovano applicazione quando la variabilità di una serie osservata non è dovuta all’influenza di errori accidentali, ma ciascun valore xi differisce dagli altri e dal valore medio per l’effetto sistematico di una legge di dipendenza g(.), che descrive l’evolversi degli stessi valori xi. In questo contesto, le medie di riferimento traggono origine dalla definizione del Chisini. Tale definizione è legata alla natura del fenomeno, che può essere di tipo additivo o moltiplicativo e all’esistenza di una legge di dipendenza, che considera i valori osservati xi funzioni di altre variabili y: x=g(y). La variabilità di una serie di valori, in questo caso, può ancora essere misurata in termini di valore medio degli scarti di ciascun valore dalla media di riferimento, che rappresenta il baricentro della serie, ma ogni scarto non può, in alcun modo, essere assimilato al concetto di errore accidentale. La nuova famiglia di indici di variabilità è rappresentata dall’espressione: ⎡ n ⎢ ∑ xi − M Vm = ⎢ i =1 n ⎢ ⎢ ⎣ m ⎤ ⎥ ⎥ ⎥ ⎥ ⎦ 1/ m che al variare di m, dove m=1, 2, 3,…, fornisce i cosiddetti “indici di variazione”. Per una distribuzione di frequenze, bisogna ponderare le osservazioni, per cui: ⎤ ⎡ k m ⎢ ∑ x i − M ni ⎥ ⎥ Vm = ⎢ i =1 n ⎥ ⎢ ⎥ ⎢ ⎦ ⎣ 1/ m ⎡k = ⎢∑ x i − M ⎣ i =1 m ⎤ fi ⎥ ⎦ 1/ m . 4.1.3 Gli indici di diversità Se consideriamo una variabile quantitativa di tipo discreto, che deriva da enumerazioni o conteggi di uno stesso oggetto/soggetto, non ha senso logico calcolare le differenze di ciascun valore xi da una media decisionale o da una 54 media secondo il Chisini, che assumerebbe, in questo caso, valore puramente indicativo-formale. Acquistano, invece, pienezza di significato, in questo contesto, le medie di posizione e gli indici di diversità. Gli indici di diversità, quali indici di variabilità, si fondano sulla eterogeneità dei valori di una serie, pertanto si possono ottenere come “media potenziata di ordine m” di tutte le possibili differenze in coppia dei valori osservati: ⎡ xi − x j ⎢∑ i, j R ∆m = ⎢ n2 ⎢ ⎢⎣ m ⎤ ⎥ ⎥ ⎥ ⎥⎦ 1/ m dove n2=RDn,2 sono tutte le possibili differenze. Ad esempio, se n=3, la matrice delle differenze è: d11 d12 d13 d21 d22 d23 d31 d32 d33 Poiché la differenza fra ciascun valore e sé stesso risulta nulla: dii=0 (differenze sulla diagonale principale della matrice), si possono considerare solo le differenze fra valori diversi, che sono n(n-1)=Dn,2: ⎡ xi − x j ⎢∑ i≠ j ∆m = ⎢ ⎢ n(n − 1) ⎣⎢ Le due espressioni R m ⎤ ⎥ ⎥ ⎥ ⎦⎥ 1/ m ∆ m e ∆ m , differiscono solo per il denominatore e sono definite, rispettivamente, “differenze medie potenziate di ordine m con e senza ripetizione”. Gli indici di diversità più impiegati, in pratica, sono le “differenze semplici medie”, con e senza ripetizione, che si ottengono per m=1. 55 Poiché la matrice delle differenze è una matrice simmetrica, l’espressione a numeratore ∑x i, j i − x j = ∑ xi − x j i≠ j può essere sostituita dall’espressione 2∑ x i − x j , i< j che consente di dimezzare i calcoli. In poche parole, basta calcolare n(n − 1) differenze, anziché n(n-1). 2 Quando il valore xi si ripete ni volte e il valore xj si ripete nj volte, le singole differenze |xi-xj| andranno moltiplicate per il fattore ninj, che rappresenta il numero delle volte che si verificano tali differenze: R ∆1 = ∑x i − x j ni n j i, j i, j=1,2,….,n n2 e se non si considerano le differenze ripetute: ∆1 = ∑x i≠ j i − x j ni n j n(n − 1) i, j=1,2,….,n i≠j. Se n è grande si ricorre alla formula di De Finetti-Paciello (cfr.par. 4.3.3). 4.2 Indici di variabilità relativa Gli indici di variabilità, così come i valori medi, visti finora, sono espressi nella stessa unità di misura dei valori xi, ossia sono “indici di variabilità assoluta”. Tuttavia, se vogliamo confrontare due o più serie di valori, espressi in unità di misura diverse o aventi diverso ordine medio di grandezza, ovvero aventi un diverso intervallo di variazione, è necessario considerare gli “indici di variabilità relativa”. Gli indici di variabilità relativa sono “numeri puri”, ossia numeri senza alcuna unità di misura, e si distinguono in: 56 - coefficienti di dispersione; - coefficienti di variazione; - coefficienti di diversità. 4.2.1 Coefficienti di dispersione Si ottengono rapportando gli indici di dispersione assoluta alla propria media decisionale: σp Mp . 4.2.3 Coefficienti di variazione Si ottengono rapportando gli indici di variazione assoluta sempre e soltanto alla media aritmetica: Vm . M Le unità di misura sono eliminate dal rapporto. Tali indici possono essere espressi anche in termini percentuali; in tal caso, basta moltiplicarli per 100. I coefficienti di dispersione e di variazione variano tra 0 e un valore massimo, che dipende dalla particolare forma della distribuzione statistica. Questi indici presentano inconvenienti se la media cui sono rapportati tende a 0. 4.2.3 Coefficienti di diversità Gli indici di diversità ha più senso rapportarli ad una quantità simile, che misura lo stesso aspetto dei dati, nella stessa unità di misura, ma in una situazione diversa. Per fare questo, occorre definire il concetto di massima variabilità teorica, che fa riferimento alle “distribuzioni massimanti” della variabilità, in cui si ipotizza che la massa delle osservazioni sia concentrata in un unico valore, mentre gli altri valori assumono valore zero. 57 Si dimostra che il massimo valore teorico della differenza semplice media è 2M (dove M è la media aritmetica), per cui un indice di variabilità relativa si può ottenere, in questo caso, dal rapporto: ∆1 ∆ = 1 . max ∆ 1 2 M Consideriamo, ad esempio, la seguente distribuzione massimante: x1 x2 x3 x4 L 0 0 0 e calcoliamo ∆ 1 : ∆1 = 2∑ x i − x j i< j n(n − 1) = 2(n − 1)L 2∑ xi = = 2M . n(n − 1) n 4.3 Esempi sugli indici di variabilità assoluta Le misure di tendenza centrale da sole non sono sufficienti a caratterizzare una distribuzione. Si consideri, ad esempio, la distribuzione del peso di due gruppi di persone: peso 45-47 47-49 49-51 51-53 53-55 55-57 57-59 59-61 61-63 63-65 65-67 67-69 69-71 71-73 73-75 totale nA 2 3 5 6 8 9 11 12 11 9 8 6 5 3 2 100 58 nB 0 0 0 0 6 10 19 30 19 10 6 0 0 0 0 100 Le due distribuzioni, pur avendo stessa media, mediana e moda, presentano una minore (distribuzione A) o una maggiore (distribuzione B) concentrazione dei valori intorno a tali medie: 35 30 25 20 Distribuzione A 15 Distribuzione B 10 5 74 70 66 62 58 54 50 46 0 M=Me=Mo=60 Alle misure di tendenza centrale vanno, pertanto, affiancati gli indici di variabilità, che indicano appunto quanto i valori osservati sono più o meno dispersi rispetto alla media considerata. 4.3.1 Esempi sugli indici di variazione Nella seguente tabella sono riportati i valori delle precipitazioni in mm rilevati in una stazione meteorologica di Roma nel periodo 1981-1987: anni xi 1 608,6 2 694 3 726,4 4 760,9 5 887,6 6 904,6 7 1128,6 TOTALE 5710,7 59 Calcoliamo gli indici di variazione V1 e V2 ; occorre effettuare tutti i possibili scarti dalla media: xi xi-M ⏐xi-M⏐ (xi-M)2 608,6 -207,2 207,2 42931,84 694 -121,8 121,8 14835,24 726,4 -89,4 89,4 7992,36 760,9 -54,9 54,9 3014,01 887,6 71,8 71,8 5155,24 904,6 88,8 88,8 7885,44 1128,6 312,8 312,8 97843,84 946,7 179658 5710,7 n M = ∑x i =1 i n n V1 = = ∑x i =1 i −M = n n V2 = 5710,7 = 815,8143 mm 7 ∑ (x i =1 i −M) n 946,7 = 135,2429 mm 7 2 = 179658 = 160,2043 mm 7 Si noti che V1< V2, in quanto V1 altro non è che una media aritmetica di scarti, mentre V2 ne è una media quadratica e, ricordando la relazione che lega le medie potenziate di ordine m (cfr.par. 3.1), la media aritmetica risulta inferiore alla media quadratica. Il quadrato di V2 è la varianza: σ2= V22 = 25665,42 mm2. Volendo evitare di calcolare tutti gli scarti, si può calcolare σ2 con la formula ridotta; occorrono, in tal caso, solo le due colonne: 60 xi xi2 608,6 370394 694 481636 726,4 527657 760,9 578968,8 887,6 787833,8 904,6 818301,2 1128,6 1273738 5710,7 4838529 n σ2 = ∑x i =1 n 2 i −M2 = 4838529 2 − (815,8143) = 25665,42 . 7 Consideriamo adesso la distribuzione relativa dei redditi familiari in Italia nel 1983 (in milioni di £): xi-xi+1 0-4 4-6 6-8 8-10 10-12 12-14 14-16 16-18 18-20 20-22 22-25 25-30 30-35 35-40 40-45 45-50 50-100 totale Calcoliamo V1 e V2 : 61 ni 18 41 52 84 98 89 90 76 66 55 69 97 50 45 27 14 29 1000 cxi 2 5 7 9 11 13 15 17 19 21 23,5 27,5 32,5 37,5 42,5 47,5 75 ni 18 41 52 84 98 89 90 76 66 55 69 97 50 45 27 14 29 1000 cxi ni 36 205 364 756 1078 1157 1350 1292 1254 1155 1621,5 2667,5 1625 1687,5 1147,5 665 2175 20236 cxi –M -18,236 -15,236 -13,236 -11,236 -9,236 -7,236 -5,236 -3,236 -1,236 0,764 3,264 7,264 12,264 17,264 22,264 27,264 54,764 ⏐cxi –M⏐ 18,236 15,236 13,236 11,236 9,236 7,236 5,236 3,236 1,236 0,764 3,264 7,264 12,264 17,264 22,264 27,264 54,764 ⏐cxi –M⏐ni 328,248 624,676 688,272 943,824 905,128 644,004 471,24 245,936 81,576 42,02 225,216 704,608 613,2 776,88 601,128 381,696 1588,156 9865,808 (cxi -M)2 (cxi -M)2 ni 332,5517 5985,931 232,1357 9517,564 175,1917 9109,968 126,2477 10604,81 85,3037 8359,762 52,3597 4660,013 27,4157 2467,413 10,4717 795,8489 1,527696 100,8279 0,583696 32,10328 10,6537 735,105 52,7657 5118,273 150,4057 7520,285 298,0457 13412,06 495,6857 13383,51 743,3257 10406,56 2999,096 86973,78 189183,8 n M = ∑ c i =1 n n V1 = x i ni ∑ i =1 c n ∑( i =1 20236 = 20,236 milioni di £ 1000 x i − M ni n V2 = = = 9865,808 = 9,8658 milioni di £ 1000 x i − M ) ni 2 c n = 189183,8 = 13,7544 milioni di £. 1000 Volendo utilizzare la formula ridotta per il calcolo di V2: 62 cxi 2 5 7 9 11 13 15 17 19 21 23,5 27,5 32,5 37,5 42,5 47,5 75 ni 18 41 52 84 98 89 90 76 66 55 69 97 50 45 27 14 29 cxi ni 36 205 364 756 1078 1157 1350 1292 1254 1155 1621,5 2667,5 1625 1687,5 1147,5 665 2175 1000 20236 cxi 2 4 25 49 81 121 169 225 289 361 441 552,25 756,25 1056,25 1406,25 1806,25 2256,25 5625 cxi 2 ni 72 1025 2548 6804 11858 15041 20250 21964 23826 24255 38105,25 73356,25 52812,5 63281,25 48768,75 31587,5 163125 598679,5 n V2 = ∑ i =1 c xi2 ni n −M2 = 598679,5 2 − (20,236) = 13,7544 milioni di £. 1000 Si noti, anche in questo caso, che V1< V2. 4.3.2 Esempi sugli indici di dispersione Riprendiamo l’esempio relativo ai valori di tensione misurati in un punto preciso di un circuito (cfr.par.3.3). Si tratta di misure ripetute della stessa grandezza, dunque gli indici di variabilità assoluta più idonei sono in tal caso gli indici di dispersione. Se supponiamo che i dati provengano da una distribuzione normale (p=2), l’indice di dispersione più appropriato è lo scarto quadratico medio σ2: 63 cxi ni 1 2 5 13 25 26 22 20 18 12 4 2 150 5,113 5,118 5,123 5,128 5,133 5,138 5,143 5,148 5,153 5,158 5,163 5,168 totale cxi ni 5,113 10,235 25,613 66,658 128,313 133,575 113,135 102,950 92,745 61,890 20,650 10,335 771,210 cxi-M1 -0,0289 -0,0239 -0,0189 -0,0139 -0,0089 -0,0039 0,0011 0,0061 0,0111 0,0161 0,0211 0,0261 (cxi-M1)2 (cxi-M1)2 ni 0,000835 0,0008352 0,000571 0,0011424 0,000357 0,0017860 0,000193 0,0025117 0,000079 0,0019802 0,000015 0,0003955 0,000001 0,0000266 0,000037 0,0007442 0,000123 0,0022178 0,000259 0,0031105 0,000445 0,0017808 0,000681 0,0013624 0,0178935 cxi 2 26,138 26,189 26,240 26,291 26,343 26,394 26,445 26,497 26,548 26,600 26,651 26,703 cxi 2 ni 26,138 52,378 131,200 341,786 658,564 686,242 581,797 529,935 477,869 319,198 106,606 53,406 3965,117 n M1 = ∑ i =1 c x i ni n n σ2 = ∑( = 771,21 = 5,1414 150 x i − M 1 ) ni 2 c i =1 n = 0,017893 = 0,010922 150 Se avessimo considerato la mediana M0, anziché la media aritmetica M1, avremmo ottenuto un valore più alto per σ2, essendo M1 la media decisionale che minimizza la funzione di perdita quando p=2. Con la formula ridotta: n σ2 = ∑ i =1 c xi2 ni n − M 12 = 3965,117 2 − (5,1414) = 0,010922 . 150 Supponiamo adesso che i dati provengano da una distribuzione di Laplace (p=1); l’indice di dispersione più appropriato è lo scostamento semplice medio dalla mediana σ1: 64 cxi 5,113 5,118 5,123 5,128 5,133 5,138 5,143 5,148 5,153 5,158 5,163 5,168 totale ni 1 2 5 13 25 26 22 20 18 12 4 2 150 Ni 1 3 8 21 46 72 94 114 132 144 148 150 cxi-M0 -0,0282 -0,0232 -0,0182 -0,0132 -0,0082 -0,0032 0,0018 0,0068 0,0118 0,0168 0,0218 0,0268 |cxi-M0| 0,0282 0,0232 0,0182 0,0132 0,0082 0,0032 0,0018 0,0068 0,0118 0,0168 0,0218 0,0268 0,1800 |cxi-M0| ni 0,0282 0,0464 0,0910 0,1716 0,2050 0,0832 0,0396 0,1360 0,2124 0,2016 0,0872 0,0536 1,3558 Calcolata la mediana M0=5,1407 con il metodo dell’interpolazione (cfr.par. 3.2), si ha : n σ1 = ∑ i =1 c x i − M 0 ni n = 1,3558 = 0,009039 . 150 Se avessimo considerato la media aritmetica M1 anziché la mediana M0, avremmo ottenuto un valore più alto per σ1, essendo M0 la media decisionale che minimizza la funzione di perdita quando p=1. 4.3.3 Esempi sugli indici di diversità Supponiamo di aver rilevato il numero di figli di 5 famiglie: x1 x2 x3 x4 x5 4 2 1 3 2 Calcoliamo la differenza semplice media con ripetizione R ∆ 1 e senza ripetizione ∆1 . Tutte le possibili differenze dij=|xi-xj| sono RDn,2=n2=52=25: 65 d11 d12 d13 d14 d15 d21 d22 d23 d24 d25 d31 d32 d33 d34 d35 d41 d42 d43 d44 d45 d51 d52 d53 d54 d55 mentre le differenze senza ripetizione sono Dn,2=n(n-1)=5 ⋅ 4=20. Essendo la matrice delle differenze simmetrica, basta calcolare solo le differenze per cui i<j, ossia tutte le differenze al di sopra della diagonale principale: |4-2| |4-1| |4-3| |4-2| |2-1| |2-3| |2-2| |1-3| |1-2| 2 3 1 2 1 1 0 2 1 |3-2| 1 Quindi è: R ∆1 = 2∑ x i − x j i< j n = 2 2(2 + 3 + 1 + 2 + 1 + 1 + 0 + 2 + 1 + 1) 28 = = 1,12 25 25 e se non si considerano le differenze ripetute: ∆1 = 2∑ x i − x j i< j n(n − 1) = 28 = 1,4 . 20 Consideriamo adesso la seguente distribuzione di frequenza; dobbiamo tener conto che ciascuna differenza si ripete ninj volte: xi ni 2 3 6 5 7 6 9 4 12 2 totale 20 |xi-xj| |xi-xj|ninj |2-6| |2-7| |2-9| |2-12| 4⋅3⋅5 5⋅3⋅6 7⋅3⋅4 |6-7| |6-9| |6-12| 1⋅5⋅6 3⋅5⋅4 |7-9| |7-12| 2⋅6⋅4 |9-12| 10⋅3⋅2 60 6⋅5⋅2 5⋅6⋅2 3⋅4⋅2 |xi-xj|ninj 90 84 30 60 48 60 60 60 24 576 66 Dunque è: R ∆1 = 2∑ x i − x j ni n j i< j n 2 = 2 ⋅ 576 = 2,88 20 2 e se non si considerano le differenze ripetute: ∆1 = 2∑ x i − x j n i n j i< j n(n − 1) = 2 ⋅ 576 = 3,0316 . 20 ⋅ 19 Se il totale delle osservazioni n è molto grande, per evitare di calcolare tutte le differenze, si può ricorrere alla formula di De Finetti-Paciello: xi ni 2 3 6 5 7 6 9 4 12 2 totale 20 ∆1 = Ni 3 8 14 18 20 Ni(n-Ni) xi+1-xi 51 4 96 1 84 2 36 3 Ni(n-Ni)( xi+1-xi) 204 96 168 108 576 2∑ N i (n − N i )( xi +1 − xi ) i n-Ni 17 12 6 2 n(n − 1) = 2 ⋅ 576 = 3,0316 . 20 ⋅ 19 Se le xi sono in progressione aritmetica di ragione h, il numeratore si riduce ulteriormente: ∆1 = 2h∑ N i (n − N i ) i n(n − 1) . 4.4 Esempi sugli indici di variabilità relativa L’indice di variabilità relativa più utilizzato è il “coefficiente di variazione”: CV = σ M 100 . Vediamo due esempi in cui è necessaria la sua applicazione. 67 Esempio 1 Le distribuzioni dei pesi e delle stature di un gruppo di studenti hanno presentato media e scarto quadratico medio come dal seguente prospetto; verificare se risulta maggiore la variabilità della distribuzione dei pesi o delle stature. M σ Peso (kg) 59,4 7,5 Statura (cm) 173,2 8,2 Si tratta di confrontare la variabilità di due distribuzioni espresse con diversa unità di misura, per cui non ha senso confrontare i due scarti quadratici medi, che sono espressi l’uno in kg e l’altro in cm. Calcoliamo pertanto i due coefficienti di variazione, che sono numeri puri o adimensionali: PESO CV = STATURA CV = σ M σ M 100 = 7,5 100 = 12,6% 59,4 100 = 8,2 100 = 4,7% 173,2 Dal confronto dei due coefficienti di variazione risulta maggiore la variabilità della distribuzione dei pesi. Esempio 2 In una regione si hanno 9 industrie che hanno installato un dispositivo antiinquinante di tipo A ed altre 9 che hanno installato un dispositivo anti-inquinante di tipo B. Di seguito vengono riportate le quantità (in grammi al minuto) di pulviscolo eliminate giornalmente dalle industrie con i dispositivi A e B: 68 Industrie 1 2 3 4 5 6 7 8 9 totale MA = MB = ∑x A = 582 = 64,67 gr/min 9 B = 308 = 34,22 gr/min. 9 n ∑x xA 69 80 44 52 54 54 86 77 66 582 n xB 35 62 43 23 30 28 22 40 25 308 xA2 4761 6400 1936 2704 2916 2916 7396 5929 4356 39314 xB2 1225 3844 1849 529 900 784 484 1600 625 11840 Si tratta di due distribuzioni che, pur essendo espresse nella stessa unità di misura, presentano un ordine medio di grandezza diverso dunque, per confrontarne la variabilità, calcoliamo i coefficienti di variazione, da cui risulta più variabile la distribuzione B: σA = σB = CV A = CV B = ∑x 2 A n ∑x n σA MA σB MB 2 B − M A2 = 39314 2 − (64,67 ) = 13,64 gr/min 9 − M B2 = 11840 2 − (34,22 ) = 12,02 gr/min 9 100 = 13,64 100 = 21% 64,67 100 = 12,02 100 = 35% . 34,22 4.5 Proprietà della varianza Sia X una variabile statistica con media MX e varianza σX2. Sia Y una trasformazione lineare di X: Y=α+βX; dimostriamo che: σ Y2 = β 2σ X2 69 dimostrazione M Y = α + βM X (cfr.par.3.4) n σ Y2 = ∑ ( y i − M Y )2 i =1 n n = ∑ (α + βxi − α − βM X )2 i =1 n n = ∑ (βx i =1 i − βM X ) n 2 = β 2σ X2 Se β=1, Y=α+X ed è: σ Y2 = σ X2 Ovvero, la varianza è invariante per traslazione. Se α=0, Y=βX ed è ancora: σ Y2 = β 2σ X2 . Consideriamo adesso una variabile statistica X con media MX e varianza σX2 e una variabile statistica Y con media MY e varianza σY2. Sia Z=X+Y. Dimostriamo che: σZ2=σX2+σY2+2σXY dimostrazione MZ=MX+MY (cfr.par. 3.4) n σ Z2 = ∑ ( z i − M Z )2 i =1 n n = n = ∑ (xi + y i − M X i =1 n n ∑ ( x i − M X )2 ∑ ( y i − M Y )2 i =1 n + i =1 n n L’espressione σ XY = − MY ) ∑ (x i =1 i n +2 ∑ (x i =1 i n 2 = ∑ [(x i =1 − M X ) + ( y i − M Y )] 2 i − M X )( y i − M Y ) n n = = σX2+σY2+2σXY − M X )( y i − M Y ) viene definita covarianza (cfr.par. n 7.6); se X ed Y sono indipendenti in distribuzione (cfr.par. 7.2), allora σ XY = 0 e σZ2=σX2+σY2. 70 4.6 Indici di eterogeneità Gli indici di variabilità fin qui presentati possono essere utilizzati solo per variabili quantitative. Con il termine “eterogeneità” si indica, in genere, la diversità fra le modalità di un carattere qualitativo. Se tutte le unità statistiche rilevate presentano la stessa modalità del carattere, si dice che l’eterogeneità è nulla o che la concentrazione è massima: xi x1 x2 x3 … xk totale ni n 0 0 … 0 n fi 1 0 0 … 0 1 f i2 1 0 0 … 0 1 Se tutte le unità statistiche sono ripartite uniformemente fra le k modalità del carattere, allora l’eterogeneità è massima: xi x1 x2 x3 … xk totale ni n/k n/k n/k … n/k n fi 1/k 1/k 1/k … 1/k 1 f i2 1/k2 1/k2 1/k2 … 1/k2 1/k Per valutare l’eterogeneità di una distribuzione, Gini ha proposto il seguente indice: k G = 1 − ∑ fi2 . i =1 k In caso di eterogeneità nulla è G = 1 − ∑ f i 2 = 1 − 1 = 0 . i =1 k In caso di eterogeneità massima è G = 1 − ∑ f i 2 = 1 − 1 / k = i =1 71 k −1 . k Un indice di eterogeneità relativo è dunque dato da: G' = G . (k − 1) / k Supponiamo di avere rilevato su un gruppo di soggetti, separatamente per i due sessi, il titolo di studio. Si vuole confrontare l’eterogeneità delle due distribuzioni: xi Lic. media Maturità Laurea totale Femmine ni 2 7 3 12 fi 0,17 0,58 0,25 1,0 f i2 0,03 0,34 0,06 0,43 xi Lic. elem. Lic. media Maturità Laurea totale G F' = GF 0,57 = = 0,85 (k − 1) / k (3 − 1) / 3 G M' = GM 0,66 = = 0,88 . (k − 1) / k (4 − 1) / 4 Maschi ni 3 6 8 1 18 fi 0,17 0,33 0,44 0,06 1,0 In entrambi i casi G’ risulta più vicino ad 1 che a 0, dunque c’è eterogeneità. Inoltre, risulta più eterogenea la distribuzione dei maschi. 72 f i2 0,03 0,11 0,20 0,00 0,34 5 Adattamento di una distribuzione teorica ad una distribuzione di frequenza empirica Osservata una distribuzione di frequenza empirica, uno degli obiettivi più importanti dell’analisi statistica dei dati è quello di individuare una opportuna legge o funzione analitica, che riesca efficacemente a descrivere il carattere rilevato. Tale funzione, se presenta determinate proprietà, prende il nome di “distribuzione teorica”. Le caratteristiche di una distribuzione teorica possono essere estese al fenomeno oggetto di studio, il cui comportamento non è noto, al fine di rendere più agevole l’approccio matematico. Le distribuzioni teoriche sono rappresentate da modelli probabilistici, che descrivono l’andamento di particolari variabili, dette variabili casuali. 5.1 Cenni di calcolo delle probabilita’ Si definisce evento casuale o aleatorio il risultato di un esperimento, definito aleatorio perché non si può prevedere. Definizione classica di probabilità Secondo l’approccio classico, la probabilità di un evento A è il rapporto tra il numero dei casi favorevoli al verificarsi di A e il numero dei casi possibili, purché questi ultimi siano equiprobabili. esempi: a) Nell’esperimento “lancio di una moneta”, si calcoli la probabilità dell’evento T “esce testa”. Casi favorevoli: T Casi possibili: T, C (esce croce) T e C hanno la stessa probabilità di uscire se la moneta non è truccata: P(T)= P(C)=1/2. 73 b) Nell’esperimento “lancio di un dado”, si calcoli la probabilità dell’evento E “esce numero pari”. Casi favorevoli: 2, 4, 6 Casi possibili: 1, 2, 3, 4, 5, 6. P(E)=3/6. Definizione frequentista di probabilità Secondo l’approccio frequentista, la probabilità di un evento è il limite (n→∞) della frequenza relativa dei successi. Definizione soggettivista di probabilità Secondo l’approccio soggettivista, la probabilità è il risultato di una valutazione soggettiva da parte di un individuo. Per es., l’ideatore di un giocattolo può assegnare alla probabilità che il giocattolo abbia successo sul mercato un valore diverso rispetto al responsabile marketing della società che vende il giocattolo stesso. L’assegnazione di una probabilità soggettiva ad un evento tiene conto: - dell’esperienza passata dell’individuo; - della sua opinione personale; - dell’analisi del particolare contesto di riferimento. L’approccio soggettivista è particolarmente utile quando la probabilità di un evento non può essere determinata empiricamente. Esiste una corrispondenza biunivoca tra eventi ed insiemi, per cui fra gli eventi è possibile effettuare tutte le operazioni lecite fra gli insiemi, per esempio l’∪ e l’∩; l’unione corrisponde all’o disgiuntivo, mentre l’intersezione corrisponde all’e congiunzione. Definizione assiomatica di probabilità La probabilità si può definire in via assiomatica nel seguente modo: La probabilità di un evento E è quel numero reale p tale che: 74 1) p=P(E)≥0; 2) P(Ω)=1; 3) P(E1∪E2)=P(E1)+P(E2) se E1∩E2=∅, cioè se E1 ed E2 sono “incompatibili” (teorema delle probabilita’ totali per eventi incompatibili) Esempio di eventi incompatibili Nell’esperimento “lancio di un dado” gli eventi: E1=esce numero pari; E2=esce numero dispari sono incompatibili, perché il verificarsi dell’uno esclude il verificarsi dell’altro, ossia E1 ed E2 non possono verificarsi entrambi contemporaneamente. La probabilità, dunque, è un numero reale che varia tra 0 e 1; associamo il valore 0 ad un evento che non ha nessuna probabilità di verificarsi (evento impossibile: Φ) e il valore 1 ad un evento che si verificherà sicuramente (evento certo: Ω). Ω è lo spazio dei risultati (elementari), ovvero è l’insieme di tutti i possibili risultati incompatibili connessi ad un esperimento. Si consideri, ad esempio, il lancio di due dadi. Lo spazio dei risultati è: (1,1) (1,2) (1,3) (1,4) (1,5) (1,6) (2,1) (2,2) (2,3) (2,4) (2,5) (2,6) (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) (6,1) (6,2) (6,3) (6,4) (6,6) (6,6) Come si è visto, l’insieme vuoto ∅ in Calcolo delle probabilità viene definito “evento impossibile”. Dimostriamo che: P(∅)=0. 75 Dimostrazione: P(Ω)=P(Ω∪∅)=P(Ω)+P(∅)=1, dunque P(∅)=0. Se E1∩E2≠∅, allora P(E1∪E2)=P(E1)+P(E2)-P(E1∩E2). Se E1∩E2=∅, allora P(E1∩E2)= P(∅)=0, da cui segue il 3° assioma. Vediamo adesso come si modifica il calcolo di una probabilità quando si dispone di un’informazione a priori sugli eventi coinvolti. Si definisce probabilità condizionata la probabilità che si verifichi un evento E1 sapendo che l’evento E2 si è già verificato: P(E1⎜E2) = P(E1 ∩ E2) / P(E2) Analogamente P(E2⎜E1) = P(E2 ∩ E1) / P(E1), da cui segue la legge delle probabilità composte: P(E1 ∩ E2) = P(E2 ∩ E1) = P(E1⎜E2) ⋅P(E2) = P(E2⎜E1) ⋅P(E1). Quando il verificarsi di un evento non influenza la probabilità che se ne verifichi un altro, si dice che i due eventi sono indipendenti: P(E1⎜E2) = P(E1), da cui segue il Teorema delle probabilita’ composte per eventi indipendenti: Due eventi sono indipendenti se e solo se P(E1∩E2)= P(E1)⋅P(E2). Esempio: Si abbia un’urna con 10 palline, di cui 7 bianche (B) e 3 nere (N). Si considerino gli eventi: E1=esce pallina bianca alla 1° estrazione; E2=esce pallina bianca alla 2° estrazione. Si vuole calcolare la probabilità che esca pallina B alla 1° ed alla 2° estrazione, ovvero P(E1 ∩ E2). Si ha: 76 P(E1)=7/10 P(E2|E1)= P(E2)=7/10 se l’estrazione è effettuata con ricollocamento (R), P(E2|E1)= 6/9 se l’estrazione è effettuata senza ricollocamento. Allora, P(E1∩E2) = P(E1)⋅P(E2) = (7/10)⋅(7/10) solo se l’estrazione è effettuata con R; in tal caso, i due eventi sono indipendenti. Se l’estrazione è effettuata senza R, P(E1 ∩ E2) = P(E1) ⋅P(E2⎜E1) = (7/10)⋅(6/9). Se, invece, l’estrazione è effettuata senza R ed è E1=esce pallina nera alla 1° estrazione, allora P(E1 ∩ E2) = P(E1) ⋅P(E2⎜E1) = (3/10)⋅(7/9). VARIABILE CASUALE Consideriamo l’esperimento “lancio di una moneta 2 volte”; i risultati possibili sono: CC, CT, TC, TT. Si può definire la funzione “n. di volte che si presenta T”; tale funzione assume valore 0, 1, 2 e viene definita variabile casuale (v.c.). Ai singoli valori 0, 1, 2 si possono associare le probabilità 1/4, 2/4, 1/4: pi 1/4 2/4 1/4 1 xi 0 1 2 totale La v.c. considerata è una v.c. discreta, che assume un numero finito di valori, ma esistono anche v.c. discrete che assumono un’infinità numerabile di valori e v.c. continue. VARIABILE CASUALE DISCRETA Una v.c. discreta è una funzione che può assumere un numero finito o un’infinità numerabile di valori, ai quali sono associate probabilità note, la cui somma è uguale a 1. 77 La distribuzione di probabilità associata alla v.c. discreta è dunque una funzione p(x), che gode delle seguenti proprietà: - p(x)≥0; - Σxp(x)=1. VARIABILE CASUALE CONTINUA Una v.c. continua è una funzione che può assumere infiniti valori all’interno di un intervallo, limitato o illimitato. La distribuzione di probabilità associata alla v.c. continua prende il nome di “funzione di densità di probabilità” e gode delle seguenti proprietà: - f(x)≥0; - ∫Rf(x)dx=1. MOMENTO TEORICO DI ORDINE r E ORIGINE m Per una v.c. discreta il momento teorico di ordine r e origine m è definito dalla seguente espressione: µ m,r = ∑ (x − m ) p(x ) r x mentre per una v.c. continua, è definito dall’espressione: +∞ r ( x − m) −∞ µ m,r = ∫ f ( x)dx . Un particolare momento è il valore atteso E ( X ) = µ 0,1 . MOMENTO TEORICO CENTRATO DI ORDINE r Si ottiene quando l’origine m è uguale al valore atteso E ( X ) : µ r = ∑ [x − E ( X )] p(x ) r per una v.c. discreta x µr = ∫ +∞ −∞ [x − E ( X )]r f ( x)dx per una v.c. continua Un particolare momento centrato è la varianza Var ( X ) = µ 2 . 78 SIMMETRIA Una v.c. discreta X=x1, x2,…,xn ha distribuzione di probabilità simmetrica quando: p(x1)=p(xn) p(x2)=p(xn-1) p(x3)=p(xn-2) e così via. Una v.c. continua X ha funzione di densità simmetrica quando, comunque preso h>0, f(x0+h)=f(x0-h), essendo x=x0 l’asse di simmetria. Spesso x0=M0, punto in cui corrisponde il massimo di f(x). La simmetria è una proprietà molto importante per una distribuzione. Per avere una misura dell’asimmetria di una distribuzione, si può utilizzare l’indice β1, dato dal rapporto: β1 = µ3 σ3 Se la distribuzione è simmetrica, i momenti di grado dispari, come µ 3 , sono nulli, di conseguenza, per una distribuzione simmetrica è β 1 = 0 . CURTOSI Un’altra caratteristica importante della forma di una distribuzione è la curtosi, di cui si parlerà più avanti (cfr.par. 5.4). La curtosi può essere misurata dal rapporto: β2 = µ4 µ4 = . µ 22 σ 4 5.2 La distribuzione binomiale Supponiamo di avere un’urna con N palline, di cui B bianche ed N-B= B di un altro colore. 79 La probabilità di estrarre una pallina B è : P(B)=B/N=p. La probabilità di estrarre una pallina di altro colore è: P (B ) = B N−B B =q= =1− =1− p . N N N Esperimenti di questo tipo, i cui possibili risultati sono costituiti da due eventi, un “successo” (esce pallina B) e un “insuccesso” (esce pallina B ), con probabilità, rispettivamente, p e q=1-p, vanno sotto il nome di “ESPERIMENTI BERNOULLIANI”. Supponiamo di effettuare n estrazioni con R e di essere interessati all’evento “esce pallina B alla 1° ed alla 2° estrazione”. Poiché le prove sono indipendenti, la probabilità di tale evento, per il “teorema delle probabilità composte per eventi indipendenti”, è: pp qq......q 123 n−2 Se vogliamo calcolare la probabilità di estrarre pallina bianca alla 1°, alla 2°,….., alla x-ma estrazione, tale probabilità sarà allora: pp... p qq...q 123 123 n− x x Se non siamo interessati all’ordine, ossia se vogliamo calcolare la probabilità che, su n estrazioni, esca genericamente “x volte” pallina B, dovremmo tener conto di tutte le possibili sequenze: pp... p qq...q 123 123 n− x x qq...q pp... p 123 123 n− x x pp qq...q p... p 123 n− x 80 …………… ⎛ n⎞ Tutte le possibili sequenze sono ⎜⎜ ⎟⎟ , dunque, per il “teorema delle probabilità ⎝ x⎠ totali per eventi incompatibili”, la probabilità cercata è: ⎛ n⎞ P( X = x ) = p( x ) = ⎜⎜ ⎟⎟ p x q n − x ⎝ x⎠ ⎛ n⎞ n! dove ⎜⎜ ⎟⎟ = . ⎝ x ⎠ x!(n − x )! p (x ) è una funzione di distribuzione di probabilità chiamata “BINOMIALE”. Essa consente di calcolare la probabilità di ottenere x successi in n prove. La v.c. cui è associata prende il nome di v.c. binomiale; la v.c. binomiale è discreta e può assumere un numero finito di valori: x=0,1,2,…,n. La funzione binomiale è una funzione di distribuzione di probabilità, infatti: ⎛ n⎞ - p( x ) = ⎜⎜ ⎟⎟ p x q n − x ≥ 0 , poiché è il prodotto di numeri positivi (n, x, p e q sono ⎝ x⎠ maggiori o al più uguali a 0); n - ∑ p(x ) = ( p + q ) = ( p + 1 − p ) n n =1. x =0 La distribuzione binomiale è così chiamata perché rappresenta il generico elemento dello sviluppo del binomio di Newton: n n ⎞ 0 n ⎛ n ⎞ 1 n −1 ⎛ n⎞ ⎛ n⎞ ⎛ n⎞ ⎟⎟ p q + ⎜⎜ ⎟⎟ p q + ... + ⎜⎜ ⎟⎟ p x q n − x + ... + ⎜⎜ ⎟⎟ p n q 0 = ∑ ⎜⎜ ⎟⎟ p x q n − x x =0 ⎝ x ⎠ ⎝ n⎠ ⎝ x⎠ ⎝1 ⎠ ⎝0⎠ ( p + q )n = ⎛⎜⎜ . La distribuzione binomiale è caratterizzata da due parametri: n e p. Si dimostra che i momenti teorici della distribuzione binomiale sono: n µ 0,1 = E ( X ) = ∑ xp( x ) = np x =0 81 n µ 2 = Var ( X ) = ∑ [x − E ( X )]2 p( x ) = npq x =0 n µ 3 = ∑ [x − E ( X )]3 p( x ) = npq(q − p ) . x =0 Di conseguenza è: β1 = µ 3 npq(q − p ) (q − p ) = = σ3 (npq )3 / 2 (npq )1 / 2 Se p=q=1/2, sarà (q-p)=0, dunque β 1 = 0 : la distribuzione binomiale è simmetrica. Ciò si verifica anche quando n→∞, poiché in tal caso la binomiale tende alla distribuzione di Gauss (cfr.par. 5.4). 5.3 La distribuzione di Poisson Se n→∞ e con la stessa velocità p→0, cioè se n→∞ in modo che np=λ resti costante, la distribuzione binomiale tende ad una distribuzione limite che va sotto il nome di “distribuzione di Poisson”: P( X = x ) = p(x ) = λ x e −λ x! x=0, 1, 2,… esempio Si abbia un’urna con N palline, di cui B bianche. Effettuate n estrazioni con R, la distribuzione binomiale consente di calcolare la probabilità che escano x palline B su n. Se, però, la percentuale di palline B è molto bassa (p→0), è necessario aumentare il n. delle estrazioni (n→∞) affinché, in media, si possa osservare sempre lo stesso n. di palline B, affinché cioè np=λ resti costante. La distribuzione di POISSON, poiché p→0, viene definita anche distribuzione degli EVENTI RARI (esempi: n. di morti, n. guasti, ecc…). 82 La v.c. di Poisson è una v.c. discreta, che assume un’infinità numerabile di valori; infatti, poiché n→∞, x=0, 1, 2, 3,… La distribuzione di Poisson è caratterizzata da un solo parametro: λ. Essa è una funzione di probabilità: 1) p(x)≥0, perché quoziente di quantità positive: x≥0, λ=np>0, e >0; ∞ ∑ p(x ) = 1 , poiché: 2) x =0 ∞ ∑ x =0 λ x e −λ =e x! −λ ∞ λx x =0 x! ∑ = e −λ e λ = 1 . Si dimostra che i momenti teorici della Poisson sono: ∞ µ 0,1 = E ( X ) = ∑ xp(x ) = np x =0 ∞ µ 2 = Var ( X ) = ∑ [x − E ( X )]2 p(x ) = np x =0 ∞ µ 3 = ∑ [x − E ( X )]3 p( x ) = np . x =0 Dunque E(X)=Var(X)= λ. L’uguaglianza tra E(X) e Var(X) è una peculiarità della Poisson, mentre per la binomiale E(X)>Var(X). Inoltre, essendo: β1 = µ3 np 1 = = >0, 3 3/ 2 σ (np ) (np )1 / 2 la distribuzione di Poisson è sempre asimmetrica positivamente. 5.4 La distribuzione normale o di Gauss Quando n→∞, ma p assume qualsiasi valore compreso tra 0 e 1, la distribuzione binomiale tende ad un’altra distribuzione limite. Si tratta, però, questa volta di un modello teorico continuo, che prende il nome di “distribuzione normale”: 83 f (x ) = 1 σ 2π − e ( x − µ )2 2σ 2 , con -∞< µ <+∞ e σ > 0 . Questa funzione, nota anche come distribuzione di Gauss, è definita su un intervallo illimitato: -∞<x<+∞, è simmetrica di forma campanulare e asintotica rispetto all’asse X. Presenta un punto di massimo in corrispondenza di x= µ , e f(x) due punti di flesso in corrispondenza di (µ-σ) e (µ+σ): µ−σ µ µ+σ La curva sopra descritta viene considerata la legge di distribuzione per eccellenza degli errori accidentali. In realtà, gli errori accidentali, pur avendo una distribuzione di probabilità simmetrica, non sempre seguono la legge di Gauss (cfr.par. 3.3 e 4.1.1). La legge di Gauss è una “funzione di densità di probabilità”. Si dimostra, infatti, che sono verificate le due condizioni: - f(x)≥ 0 - ∫ +∞ −∞ f ( x)dx = 1 . Si dimostra, inoltre, che i due parametri che caratterizzano la distribuzione, µ e σ2, sono proprio il valore atteso e la varianza. Infatti, i momenti teorici della f(x) sono dati dalle seguenti espressioni: +∞ µ 0,1 = ∫ xf ( x)dx = µ −∞ 84 µ2 = ∫ +∞ µ3 = ∫ +∞ 2 ( x − µ ) f ( x)dx = σ 2 −∞ −∞ µ4 = ∫ (x − µ )3 f ( x)dx = 0 +∞ −∞ (x − µ )4 f ( x)dx = 3σ 4 µ3 e µ4 consentono di calcolare, rispettivamente, l’indice di asimmetria β1 e l’indice di curtosi β2. Per una distribuzione normale risulta µ3 0 = 3 =0 3 σ σ µ 4 3σ 4 β 2 = 4 = 4 = 3. σ σ β1 = La distribuzione normale viene definita "mesocurtica". Altre curve simmetriche, più appuntite o più appiattite rispetto alla normale, vengono definite, rispettivamente “leptocurtiche” (β2>3) e “platicurtiche” (β2<3). La distribuzione di Laplace è una distribuzione leptocurtica (β2=6), mentre la distribuzione uniforme è platicurtica (β2=1,8). Per una variabile casuale continua non possiamo calcolare probabilità puntuali, o meglio, la probabilità che una v.c. continua X assuma esattamente un valore x è zero: P(X=x)=0. Possiamo, però, calcolare la probabilità che una v.c. continua assuma valori in un determinato intervallo, sia esso limitato o illimitato. Calcolare una probabilità di questo tipo equivale a calcolare un’area, ad esempio: P(xi < X < xi+1) = ∫ xi + 1 xi f ( x)dx = ∫ x1+1 −∞ f ( x)dx − ∫ xi −∞ xi f ( x)dx = P(X < xi+1 )-P( X < xi). Per cui, se xi=xi+1, allora P(xi < X < xi+1) = ∫ f ( x)dx = 0 . xi 85 L’integrale ∫ x −∞ x f (t )dt = ∫σ −∞ 1 2π − e (t − µ )2 2σ 2 =P(X < x)=F(x), noto come “funzione di ripartizione di X, non è risolvibile in forma chiusa, ma tramite procedimenti di Analisi numerica. Calcolare questo integrale per ogni curva normale sarebbe stato impensabile, poiché i valori che µ e σ2 possono assumere sono infiniti: 0.00 0.02 0.04 f(x) 0.06 0.08 0.10 curve normali con diversa media e stessa varianza -10 0 10 20 30 x 0.00 0.02 0.04 f(x) 0.06 0.08 0.10 curve normali con stessa media e diversa varianza -40 -20 0 20 x 86 40 0.00 0.02 0.04 f(x) 0.06 0.08 0.10 curve normali con diversa media e diversa varianza -40 -20 0 20 40 60 x E’ dunque risultato conveniente considerare la trasformata Z di X: Z= X −µ . σ Z è una particolare v.c. normale, chiamata “v.c. normale standardizzata”, la cui densità è: f (z ) = 1 2π e − z2 2 , 0.4 che ha la peculiarità di avere µ=0 e σ2=1: 2 0.2 0.1 0.0 f(z) 0.3 σ =1 -4 -2 0 2 z 87 4 Sono stati calcolati, allora, gli integrali del tipo: ∫ z z ∫ f (t )dt = −∞ −∞ 1 2π e − t2 2 dt =P(Z < z)=F(z). Tali integrali sono stati tabulati in appositi prontuari, chiamati “prontuari delle probabilità integrali della curva normale standardizzata”. Calcolare l’integrale ∫ z −∞ f (t )dt = P(Z < z)=F(z) 0 z equivale a calcolare l’integrale L’integrale ∫ x −∞ f (t )dt = P(X < x)=F(x). Conviene quindi eseguire la trasformazione zi = xi − µ σ e trasformare gli intervalli xi-xi+1 in zi-zi+1. Calcolare sul prontuario le probabilità P(Z<zi) e P(Z<zi+1), dunque la probabilità P(zi<Z<zi+1)=P(Z<zi+1)-P(Z<zi), equivale a calcolare la probabilità P(xi<X<xi+1). 88 Particolare interesse assumono le probabilità dei valori compresi in intervalli simmetrici intorno alla media, di ampiezza pari ad un multiplo dello scarto quadratico medio: P(µ-σ<X<µ+σ)=P(-1<Z<+1)=0,68268=68,3% P(µ-2σ<X<µ+2σ)=P(-2<Z<+2)=0,95450=95,4% P(µ-3σ<X<µ+3σ)=P(-3<Z<+3)=0,99730=99,7%. Altrettanto importanti risultano le seguenti probabilità: P(µ-1,96σ<X<µ+1,96σ)=P(-1,96<Z<+1,96)=0,95 P(µ-2,58σ<X<µ+2,58σ)=P(-2,58<Z<+2,58)=0,99 P(µ-3,29σ<X<µ+3,29σ)=P(-3,29<Z<+3,29)=0,999. A scopo esemplificativo, servendoci del prontuario delle probabilità integrali di una normale standardizzata, proviamo a calcolare l’ultima: P(µ-3,29σ<X<µ+3,29σ)=P(-3,29<Z<+3,29)=P(Z<3,29)-P(Z<-3,29)=F(3,29)F(-3,29)= F(3,29)-[1-F(3,29)]=2⋅ F(3,29) -1=2⋅ 0,9995 -1=0,999. 5.5 Adattamento di una distribuzione teorica ad una distribuzione empirica Osservata una distribuzione di frequenza empirica, vediamo adesso quali sono i criteri che ci portano ad adattare un determinato modello teorico piuttosto che un altro. In linea di massima, la nostra scelta non potrà che ricadere sui tre modelli analizzati: quello binomiale, quello di Poisson e quello di Gauss. Consideriamo il seguente esempio. Un collettivo di 80 studenti è stato sottoposto ad un test attitudinale per l’ammissione ad un corso di matematica. Viene riportata 89 la distribuzione di frequenze del numero di errori commessi su un totale di 10 domande: n. di errori commessi xi frequenze assolute osservate ni 0 1 1 2 2 6 3 9 4 14 5 22 6 12 7 7 8 5 9 1 10 1 Totale 80 La variabile statistica osservata “n. di errori commessi” è una variabile quantitativa discreta, per cui la nostra preferenza verte su una delle due v.c. discrete studiate: la v.c. binomiale o la v.c. di Poisson. Fra la v.c. binomiale e la v.c. di Poisson scegliamo la v.c. binomiale, poiché la media empirica risulta maggiore della varianza empirica e poiché la variabile X non sembra descrivere un evento raro: 90 n. di errori commessi xi frequenze assolute osservate ni xini xi2 xi2ni 0 1 0 0 0 1 2 2 1 2 2 6 12 4 24 3 9 27 9 81 4 14 56 16 224 5 22 110 25 550 6 12 72 36 432 7 7 49 49 343 8 5 40 64 320 9 1 9 81 81 10 1 10 100 100 totale 80 387 n M = ∑ x i ni i =1 N 2157 n = 4,84 σ = 2 ∑x i =1 2 i ni N −M2 = 2157 2 − (4,84) = 3,56 . 80 Scelto il modello binomiale, dobbiamo stimarne i parametri n e p. Utilizziamo a tal fine il metodo dei momenti, che consiste nell’uguagliare momenti empirici e momenti teorici: ⎧M = np ⎨ 2 ⎩σ = npq Dal sistema, sostituendo nella seconda equazione M ad np, si ricava che: qˆ = σ2 M = 3,56 = 0,74 4,84 ) da cui pˆ = 1 − q = 0,26 . Inoltre, dalla prima equazione è: nˆ = M 4,84 = ≅ 19 . pˆ 0,26 Possiamo adesso calcolare le probabilità teoriche, al variare di x: 91 ⎛ nˆ ⎞ ⎛19 ⎞ x 19 − x pi = p( x ) = ⎜⎜ ⎟⎟ pˆ x qˆ nˆ − x = ⎜⎜ ⎟⎟(0,26) (0,74) . ⎝ x⎠ ⎝x ⎠ Moltiplichiamo, quindi, le probabilità teoriche per il totale delle osservazioni, in modo tale da ottenere le “frequenze teoriche” ni*, che devono essere poste a confronto con le frequenze empiriche ni ; più le frequenze teoriche si avvicineranno alle frequenze empiriche, migliore sarà l’adattamento del nostro modello scelto ai dati osservati. Pearson ha proposto un indice di bontà di adattamento, che si basa proprio sulla differenza fra frequenze empiriche e frequenze teoriche : k X =∑ 2 i =1 (n − ni* ) ni* 2 i Ovviamente, quanto più il valore di X2 si avvicina a 0, tanto migliore sarà l’adattamento: probabilità teoriche pi frequenze assolute teoriche ni*= Npi ni-ni* (ni-ni*)2 (ni-ni*)2 /ni * 0,0033 0,2621 0,7379 0,5445 2,0772 0,0219 1,7498 0,2502 0,0626 0,0358 0,0692 5,5331 0,4669 0,2180 0,0394 0,1377 11,0164 -2,0164 4,0660 0,3691 0,1935 15,4826 -1,4826 2,1980 0,1420 0,2040 16,3195 5,6805 32,2685 1,9773 0,1672 13,3790 -1,3790 1,9017 0,1421 0,1091 8,7299 -1,7299 2,9927 0,3428 0,0575 4,6009 0,3991 0,1593 0,0346 0,0247 1,9758 -0,9758 0,9521 0,4819 0,0087 0,6942 0,3058 0,0935 0,1347 ≅1 5,7769 92 Stabiliamo una regola empirica, per cui se X2 risulta inferiore a (k-1), dove k è il numero dei valori assunti dalla variabile X, allora possiamo ritenere buono l’adattamento. Il valore di X2 nel nostro caso risulta: k X =∑ 2 i =1 (n − ni* ) = 5,7769 , ni* 2 i dunque possiamo ritenere che il modello binomiale si adatta bene alla distribuzione empirica osservata. Consideriamo adesso un altro esempio. In una gara di tiro con l’arco è stata osservata la seguente distribuzione di frequenze del numero dei centri colpiti dai 200 arcieri partecipanti: n. di centri colpiti xi 0 frequenze assolute osservate ni 4 1 7 2 17 3 28 4 37 5 33 6 29 7 18 8 14 9 8 ≥10 5 totali 200 Osserviamo anche in questo caso una variabile statistica discreta, ma questa volta la nostra scelta verte sul modello di Poisson, per i seguenti motivi: 93 - la variabile osservata descrive un evento raro, in quanto colpire il centro di un bersaglio non è semplice, come si evince anche dalla basse frequenze associate ai valori più alti della variabile; - la variabile osservata assume un’infinità numerabile di valori; - la media e la varianza empiriche sono molto vicine tra loro: n. di centri colpiti xi 0 frequenze assolute osservate ni 4 1 xini xi2 xi2ni 0 0 0 7 7 1 7 2 17 34 4 68 3 28 84 9 252 4 37 148 16 592 5 33 165 25 825 6 29 174 36 1044 7 18 126 49 882 8 14 112 64 896 9 8 72 81 648 ≥10 5 50 100 500 totali 200 972 n M = ∑ x i ni i =1 N 5714 n 972 = = 4,86 200 σ = 2 ∑x i =1 2 i ni N −M2 = 5714 2 − (4,86) = 4,9504 . 200 Scelto, quindi, il modello di Poisson, ne stimiamo il parametro λ utilizzando la media e la varianza empirica: λˆ = M ≅ σ 2 ≅ 4,9 . Possiamo, dunque, calcolare le probabilità teoriche e l’indice X2 : 94 pi = p(x ) = λˆx e − λ ˆ = x! (4,9)x e −4,9 x! ni-ni* (ni-ni*)2 (ni-ni*)2 /ni * 0,0074 frequenze assolute teoriche ni*= Npi 1,4893 2,5107 6,3035 4,2325 0,0365 7,2977 -0,2977 0,0886 0,0121 0,0894 17,8792 -0,8792 0,7731 0,0432 0,1460 29,2028 -1,2028 1,4467 0,0495 0,1789 35,7734 1,2266 1,5046 0,0421 0,1753 35,0579 -2,0579 4,2350 0,1208 0,1432 28,6306 0,3694 0,1364 0,0048 0,1002 20,0414 -2,0414 4,1675 0,2079 0,0614 12,2754 1,7246 2,9743 0,2423 0,0334 6,6833 1,3167 1,7338 0,2594 0,0283 5,6690 -0,6690 0,4476 0,0789 Probabilità teoriche pi 1 5,2937 9 dove P(X≥10)=1- ∑ p( x ) = 1-0,9717=0,0283. x =0 Poiché, in questo caso, è k X =∑ 2 i =1 (n − ni* ) = 5,2937 , ni* 2 i si può ritenere che il modello di Poisson si adatta bene ai dati osservati. Supponiamo adesso di aver osservato una variabile quantitativa continua: 95 <5 frequenze assolute osservate ni 8 5-10 10 10-15 23 15-20 30 20-25 18 >25 11 totale 100 classi xi-xi+1 L’unico modello teorico che possiamo provare ad adattare, fra quelli visti, è il modello di Gauss, occorre perciò stimarne i parametri µ e σ. A tal fine, possiamo calcolare la media e lo scarto quadratico medio sulla distribuzione empirica: <5 frequenze assolute osservate ni 8 5-10 10 7,5 75 56,25 562,5 10-15 23 12,5 287,5 156,25 3593,75 15-20 30 17,5 525 306,25 9187,5 20-25 18 22,5 405 506,25 9112,5 >25 11 27,5 302,5 756,25 8318,75 totale 100 classi xi-xi+1 valori centrali cxi cxini cxi 2,5 20 6,25 50 1615 n µˆ = ∑x n i i =1 N i = 1615 = 16,15 100 96 2 cxi 2 ni 30825 n σˆ = Sappiamo ∑x i =1 2 i ni N − µˆ 2 = 30825 2 − (16,15) = 6,89 . 100 P(xi<X<xi+1)=P(zi<Z<zi+1)=P(Z<zi+1)-P(Z<zi)=F(zi+1)-F(zi). che Occorre, dunque, standardizzare i valori: z i +1 = xi +1 − µˆ xi +1 − 16,15 = σˆ 6,89 e calcolare, servendosi del prontuario delle probabilità integrali di una curva normale standardizzata, la funzione di ripartizione F(zi+1) al variare di zi+1: -1,62 funzione di ripartizione F(zi+1) 0,0528 -0,89 0,0528 frequenze assolute teoriche ni* 5,28 0,1860 0,1332 13,32 -3,32 11,0462 0,8291 -0,17 0,4337 0,2477 24,77 -1,77 3,1275 0,1263 0,56 0,7118 0,2781 27,81 2,19 4,7859 0,1721 1,28 0,9005 0,1887 18,87 -0,87 0,7511 0,0398 ∞ 1 0,0995 9,95 1,05 1,1049 0,1111 valori standardizzati zi+1 Probabilità Teoriche F(zi+1)-F(zi) 1 ni-ni* (ni-ni*)2 (ni-ni*)2 /ni* 2,72 7,3984 1,4012 2,6795 Calcolate le probabilità teoriche F(zi+1)-F(zi), le moltiplichiamo per il totale delle osservazioni N=100, per ottenere le frequenze assolute teoriche ni*. L’indice X2 è: k X =∑ 2 i =1 (n i − ni* ni* ) 2 = 2,68 , che risulta minore di (k-1), dove, in questo caso, k=6 è il numero delle classi. Poiché risulta X2<5,si può ritenere che la distribuzione di Gauss descrive bene la distribuzione osservata. 97 6 Indici di forma 6.1 I momenti empirici Si definisce momento empirico di origine m e grado r la somma delle potenze rme degli scarti dei singoli valori da m divisa per il totale delle osservazioni: n µ m ,r = ∑ (x i =1 i − m) r n Nel caso si abbia una distribuzione di frequenza, gli scarti vanno ponderati per le rispettive frequenze: k µ m ,r = ∑ (x i =1 − m ) ni r i n k = ∑ ( xi − m ) f i . r i =1 Se l’origine m è uguale alla media aritmetica M, i momenti vengono definiti “momenti centrati” e si indicano semplicemente con µ r : n µr = ∑ (x i =1 i per una serie di valori n r k µr = −M) r ∑ (x i =1 i − M ) ni n k r = ∑ ( xi − M ) f i per una distribuzione di frequenze. i =1 La media aritmetica M e la varianza σ2 sono particolari momenti: M = µ 0,1 σ 2 = µ2 6.2 Asimmetria e curtosi Una distribuzione di frequenza empirica si definisce simmetrica se la prima frequenza assoluta è uguale all’ultima, la seconda alla penultima, la terza alla terzultima e così via: n1=nk 98 n2=nk-1 n3=nk-2 ……… dove k è il numero delle modalità o dei valori della variabile osservata. Una distribuzione si definisce asimmetrica positivamente se vi è una maggiore concentrazione delle frequenze in corrispondenza di modalità basse della variabile, viceversa, se le frequenze si addensano maggiormente in corrispondenza di modalità alte della variabile, la distribuzione si dice asimmetrica negativamente. Per una distribuzione simmetrica si verifica che la moda è uguale alla mediana e uguale alla media aritmetica: Mo=Me=M, ma non è vero il contrario. Se una distribuzione presenta un’asimmetria positiva, allora Mo<Me<M, se invece presenta un’asimmetria negativa, allora Mo>Me>M (condizione necessaria, ma non sufficiente). Di seguito vengono riportati alcuni indici, in ordine di importanza crescente, che, tenendo conto di quanto affermato, danno indicazioni sulla simmetria o meno di una distribuzione: a1=(Q3-Q2)-(Q2-Q1) A1= δ = a1 Q3 − Q1 M − Mo β1 = σ ≅ µ3 µ3 = µ 23 / 2 σ 3 3(M − Q2 ) σ (Pearson) (Fisher) I suddetti indici valgono 0 in caso di simmetria, sono positivi in caso di asimmetria positiva e negativi in caso di asimmetria negativa, ma non è detto il contrario. 99 Gli indici A1, δ e β 1 sono adimensionali, in quanto hanno numeratore e denominatore espressi nella stessa unità di misura. 6.3 Il boxplot Il boxplot è un grafico che dà indicazioni sulla simmetria o asimmetria di una distribuzione, in quanto è costituito da una scatola, i cui estremi sono il I ed il III quartile (Q1, Q3). La scatola è sezionata dalla mediana (Q2) ed ha dei baffi in corrispondenza, in genere, dei valori minimo e massimo: BOXPLOT 200 190 Q1 MIN 180 Q2 170 MAX Q3 160 150 1 Il boxplot dà indicazioni anche sulla variabilità di una serie; infatti sia l’intervallo di variazione o range=MAX-MIN, sia la differenza interquartile Q3-Q1, possono essere considerati indici di variabilità, seppure grossolani, in quanto il primo non tiene conto delle unità centrali, il secondo dei valori estremi. 6.4 Esempi Consideriamo la distribuzione di frequenza della variabile “numero di componenti per famiglia”, rilevata su un collettivo di 150 famiglie: 100 ni 5 46 35 28 15 10 7 3 1 150 xi 1 2 3 4 5 6 7 8 9 totale Calcoliamo i tre quartili, quindi gli indici a1 ed A1: Q1=2, xi 1 2 3 4 5 6 7 8 9 totale ni 5 46 35 28 15 10 7 3 1 150 Q2=Me=3, Q3=4, a1=(Q3-Q2)-(Q2-Q1)=0, A1= fi 0,033 0,307 0,233 0,187 0,100 0,067 0,047 0,020 0,007 1 Fi 0,033 0,340 0,573 0,760 0,860 0,927 0,973 0,993 1,000 a1 =0 Q3 − Q1 Gli indici a1 ed A1 assumono entrambi valore 0, ma la distribuzione non è simmetrica; piuttosto, sembra esserci un’asimmetria positiva, come si evince anche dalla rappresentazione grafica: 101 50 45 40 n. di famiglie 35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 n. di componenti per famiglia Calcoliamo, adesso, l’indice di Pearson: xi 1 2 3 4 5 6 7 8 9 totale fi 0,033 0,307 0,233 0,187 0,100 0,067 0,047 0,020 0,007 1,000 xifi 0,033 0,613 0,700 0,747 0,500 0,400 0,327 0,160 0,060 3,540 xi 2 1 4 9 16 25 36 49 64 81 xi2fi 0,033 1,227 2,100 2,987 2,500 2,400 2,287 1,280 0,540 15,353 Mo=2 9 M= ∑ xi f i = 3,54 i =1 σ= 9 ∑x i =1 δ = 2 i f i − M 2 = 15,353 − (3,54 ) =1,68 M − Mo σ 2 = 0,92 Il valore di δ = 0,92 indica asimmetria positiva, come pure l’indice di Fisher, indice ancora più informativo: 102 (xi-M)3 -16,387 -3,652 -0,157 0,097 3,112 14,887 41,422 88,717 162,771 xi-M -2,540 -1,540 -0,540 0,460 1,460 2,460 3,460 4,460 5,460 β1 = (xi-M)3fi -0,546 -1,120 -0,037 0,018 0,311 0,992 1,933 1,774 1,085 4,411 µ3 µ 4,411 = 33 = = 0,93 . 3/ 2 µ2 σ (1,68)3 Essendo la distribuzione asimmetrica positivamente, si verifica che Mo<Me<M. Consideriamo adesso la distribuzione delle altezze in cm rilevate su un gruppo di 100 studenti: xi-xi+1 ni cxi fi cxi fi 150-155 2 152,5 0,02 3,05 155-160 4 157,5 0,04 6,30 160-165 8 162,5 0,08 13,00 165-170 14 167,5 0,14 23,45 170-175 24 172,5 0,24 41,40 175-180 23 177,5 0,23 40,83 180-185 15 182,5 0,15 27,38 185-190 7 187,5 0,07 13,13 190-195 2 192,5 0,02 3,85 195-200 1 197,5 0,01 1,98 totale 100 1 174,35 e calcoliamo l’indice di curtosi proposto da Pearson. La curtosi descrive il modo in cui si distribuiscono le frequenze dei valori: 103 β2 = µ4 µ4 = µ 22 σ 4 cxi-M (cxi-M)2 (cxi-M)2fi (cxi-M)4 (cxi-M)4fi -21,85 477,42 9,55 227932,24 4558,64 -16,85 283,92 11,36 80611,99 3224,48 -11,85 140,42 11,23 19718,48 1577,48 -6,85 46,92 6,57 2201,72 308,24 -1,85 3,42 0,82 11,71 2,81 3,15 9,92 2,28 98,46 22,64 8,15 66,42 9,96 4411,95 661,79 13,15 172,92 12,10 29902,19 2093,15 18,15 329,42 6,59 108519,18 2170,38 23,15 535,92 5,36 287212,93 2872,13 75,83 17491,76 10 M= ∑ c xi f i = 174,35 cm i =1 10 µ 2 = σ 2 = ∑ ( c xi − M )2 f i = 75,83 cm2 i =1 10 µ 4 = ∑ ( c xi − M )4 f i = 17491,76 cm4 i =1 β2 = µ 4 17491,76 = = 3,04 . µ 22 (75,83)2 Il valore di β 2 , molto vicino a 3, indica che la distribuzione è mesocurtica (cfr.par. 5.4). Inoltre, la distribuzione è simmetrica, come si evince anche dalla rappresentazione grafica, per cui può essere ben descritta dal modello di Gauss: 104 altezze in cm rilevate su un gruppo di 100 studenti 30 25 20 15 10 5 0 150- 155 155- 160 160- 165 165- 170 170- 175 175- 180 105 180- 185 185- 190 190- 195 195- 200 7 L'interdipendenza fra due variabili 7.1 Tabelle doppie di frequenza Finora abbiamo supposto di aver rilevato una sola variabile su un collettivo di n unità statistiche. Supponiamo, adesso, di aver rilevato su N soggetti/oggetti due variabili A e B; disponiamo, dunque, non più di una singola serie di osservazioni, ma di una serie doppia. Il primo processo di sintesi per una variabile doppia consiste nella costruzione di una distribuzione di frequenza congiunta; tale distribuzione prende il nome di “tabella a doppia entrata”. Una tabella a doppia entrata si presenta nella seguente forma: A/B b1 b2 … bj … bc totale a1 n11 n12 … n1j … n1c n1. a2 n21 n22 … n2j … n2c n2. … … … … … … … … ai ni1 ni2 … nij … nic ni. … … … … … … … … ar nr1 nr2 ... nrj … nrc nr. totale n.1 n.2 … n.j … n.c N dove - ai rappresenta la generica modalità di A , con i = 1, 2,…, r; - bj rappresenta la generica modalità di B , con j = 1, 2,…, c; - le nij sono le cosiddette “frequenze congiunte”, che stanno ad indicare quante volte si presentano congiuntamente le modalità ai e bj. Inoltre: ni. sono i totali di riga: ni. = ∑j nij; n.j sono i totali di colonna: n.j = ∑i nij; 106 N è il totale generale, cioè il totale delle osservazioni: N = ∑j ∑i nij = ∑i ni.= ∑j n.j. Ciascuna riga della tabella rappresenta la distribuzione di B condizionata alla modalità ai di A, mentre ciascuna colonna rappresenta la distribuzione di A condizionata alla modalità bj di B. In particolare, l’ultima riga e l’ultima colonna rappresentano, rispettivamente, la distribuzione marginale di B e la distribuzione marginale di A. Da una tabella a doppia entrata, dunque possiamo ricavare r+c+2 distribuzioni di frequenza semplici. Se A e B sono due variabili qualitative, la tabella a doppia entrata prende il nome di “tavola di contingenza”, se invece entrambe le variabili sono quantitative la tabella a doppia entrata prende il nome di “tavola di correlazione”. Se, le variabili sono una qualitativa e l’altra quantitativa, la tavola viene definita “mista”. Su una tabella doppia di frequenza possono essere calcolate: - le frequenze relative rispetto al totale; - le frequenze relative rispetto ai totali di riga; - le frequenze relative rispetto ai totali di colonna. Le tabelle che seguono mostrano i tre casi suddetti: Frequenze relative rispetto al totale A/B b1 b2 … bj … bc totale a1 n11/N n12/N … n1j/N … n1c/N n1./N a2 n21/N n22/N … n2j/N … n2c/N n2. /N … … … … … … … … ai ni1/N ni2/N … nij/N … nic/N ni. /N … … … … … … … … ar nr1/N nr2/N ... nrj/N … nrc/N nr. /N totale n.1/N n.2/N … n.j/N … n.c/N N/N=1 107 Frequenze relative rispetto ai totali di riga (ciascuna riga rappresenta la distribuzione relativa condizionata di B rispetto alla modalità ai di A) A/B b1 b2 … bj … bc totale a1 n11/n1. n12/n1. … n1j/n1. … n1c/n1. n1. /n1.=1 a2 n21/n2. n22/n2. … n2j/n2. … n2c/n2. n2. /n2.=1 … … … … … … … … ai ni1/ni. ni2/ni. … nij/ni. … nic/ni. ni. /ni.=1 … … … … … … … … ar nr1/nr. nr2/nr. ... nrj/nr. … nrc/nr. nr. /nr.=1 totale n.1/N n.2/N … n.j/N … n.c/N N/N=1 Frequenze relative rispetto ai totali di colonna (ciascuna colonna rappresenta la distribuzione relativa condizionata di A rispetto alla modalità bj di B) A/B b1 b2 … bj … bc totale a1 n11/n.1 n12/n.2 … n1j/n.j … n1c/n.c n1. /N a2 n21/n.1 n22/n.2 … n2j/n.j … n2c/n.c n2. /N … … … … … … … … ai ni1/n.1 ni2/n.2 … nij/n.j … nic/n.c ni. /N … … … … … … … … ar nr1/n.1 nr2/n.2 ... nrj/n.j … nrc/n.c nr. /N totale n.1/n.1=1 n.2/n.2=1 … n.j/n.j=1 … n.c/n.c=1 N/N=1 La seguente tabella riporta la distribuzione di un collettivo di 219 studenti secondo il sesso e l’attitudine per determinate discipline: SESSO/ ATTITUDINE M Discipline artistiche 35 Discipline umanistiche 40 Discipline scientifiche 44 F 22 27 51 100 TOTALE 57 67 95 219 Determiniamo le tre tabelle che contengono rispettivamente: - le frequenze relative rispetto al totale; 108 TOTALE 119 - le frequenze relative rispetto ai totali di riga; - le frequenze relative rispetto ai totali di colonna SESSO/ ATTITUDINE M Discipline artistiche 0,16 Discipline umanistiche 0,18 Discipline scientifiche 0,20 F 0,10 0,12 0,23 0,46 TOTALE 0,26 0,31 0,43 1,00 SESSO/ ATTITUDINE M Discipline artistiche 0,29 Discipline umanistiche 0,34 Discipline scientifiche 0,37 F 0,22 0,27 0,51 1,00 TOTALE 0,26 0,31 0,43 1,00 SESSO/ ATTITUDINE M Discipline artistiche 0,61 Discipline umanistiche 0,60 Discipline scientifiche 0,46 F 0,39 0,40 0,54 0,46 TOTALE 1,00 1,00 1,00 1,00 TOTALE 0,54 TOTALE 1,00 TOTALE 0,54 7.2 Indipendenza in distribuzione Spesso è interessante sapere se tra i due caratteri A e B esiste una relazione di dipendenza. Supponiamo di aver osservato la seguente tabella: A/B a1 b1 1 b2 5 b3 4 TOTALE 10 a2 4 20 16 40 a3 5 25 20 50 TOTALE 10 50 40 100 Calcoliamo le frequenze relative rispetto ai totali di riga: A/B a1 b1 0,1 b2 0,5 b3 0,4 TOTALE 1 a2 0,1 0,5 0,4 1 a3 0,1 0,5 0,4 1 TOTALE 0,1 0,5 0,4 1 109 Notiamo che le righe sono tutte uguali; ovvero, le distribuzioni relative condizionate di B rispetto ad A sono uguali fra loro. Ciò vuol dire che B è indipendente da A, poiché la sua distribuzione non varia al variare delle modalità di A. Calcoliamo adesso le frequenze relative rispetto ai totali di colonna: A/B a1 b1 0,1 b2 0,1 b3 0,1 TOTALE 0,1 a2 0,4 0,4 0,4 0,4 a3 0,5 0,5 0,5 0,5 TOTALE 1 1 1 1 Notiamo, in quest’altro caso, che le colonne sono tutte uguali; ovvero le distribuzioni relative condizionate di A rispetto a B sono uguali fra loro. Ciò vuol dire che A è indipendente da B, poiché la sua distribuzione non varia al variare delle modalità di B. Concludiamo, dunque, che se B è indipendente da A, è anche A indipendente da B e viceversa. Formalizziamo quanto detto: se nij ni . = n. j ∀ (i, j) N è anche vero che nij n. j = ni . N ∀ (i, j) Allora, il generico valore della frequenza congiunta, nell’ipotesi di indipendenza, può essere indicato con: nˆ ij = ni. n. j N ∀ (i, j) e prende il nome di frequenza teorica di indipendenza. 110 Le differenze fra le frequenze osservate e le frequenze teoriche di indipendenza sono definite “contingenze”: cij = nij – n̂ij Ovviamente, in caso di indipendenza le contingenze saranno tutte nulle. E’ facile dimostrare che Σicij =Σjcij =Σi,jcij=0. Dimostriamo che Σicij =0: Σicij = Σi (nij – n̂ij )=Σi nij – Σi n̂ij =n.j - Σi ni. n. j N = n.j - n. j N Σi ni.= n.j - n. j N N.=0. Analogamente, si dimostra che Σjcij =0 e che Σi,jcij=0. La maggior parte degli indici proposti in letteratura per lo studio dell’associazione si basano proprio sulle contingenze. In particolare, l’indice proposto da Pearson è dato dalla seguente espressione: ⎞ ⎛ nij2 X =∑ =∑ − N = N⎜∑ − 1⎟ . ⎟ ⎜ i , j ni. n. j ˆ ij ˆ ij i, j n i, j n ⎠ ⎝ cij2 2 nij2 Tale indice assume valore zero in caso di indipendenza, ma cresce indefinitamente all’aumentare delle osservazioni. Successivamente, per eliminare l’influenza di N, Pearson propose il seguente indice: Φ2 = X2 . N Nel tentativo di normalizzare l’indice, nel tentativo cioè di limitare i suoi valori nel range [0,1], ancora Pearson propose il cosiddetto “coefficiente di contingenza”: ⎛ X2 ⎞ ⎟⎟ Ρ = ⎜⎜ 2 ⎝X +N⎠ 1/ 2 ⎛ Φ2 ⎞ ⎟⎟ = ⎜⎜ 2 ⎝ Φ + 1⎠ 1/ 2 , ma Ρ non raggiunge mai il valore 1, neanche in caso di perfetta dipendenza fra i due caratteri. Un indice che assume valori nell’intervallo [0, 1] è stato proposto da Cramer: 111 ⎛ ⎞ Φ2 ⎟⎟ C = ⎜⎜ ⎝ min[(r − 1), (c − 1)] ⎠ 1/ 2 . Tale indice assume valore zero in caso di indipendenza e valore 1 in caso di dipendenza perfetta. Calcoliamo gli indici X2, Φ2 e C sulla distribuzione del collettivo di 219 studenti secondo il sesso e l’attitudine: SESSO/ ATTITUDINE M Discipline artistiche 35 Discipline umanistiche 40 Discipline scientifiche 44 F 22 27 51 100 TOTALE 57 67 95 219 SESSO/ ATTITUDINE M Discipline artistiche 30,97 Discipline umanistiche 36,41 Discipline scientifiche 51,62 F 26,03 30,59 43,38 100,00 TOTALE 57,00 67,00 95,00 219,00 TOTALE 119 Frequenze teoriche n̂ij TOTALE 119,00 Contingenze cij = nij – n̂ij SESSO/ ATTITUDINE M Discipline artistiche 4,03 Discipline umanistiche 3,59 Discipline scientifiche -7,62 F -4,03 -3,59 7,62 0,00 TOTALE 0,00 0,00 0,00 0,00 TOTALE 0,00 Contingenze al quadrato cij2 SESSO/ ATTITUDINE M Discipline artistiche 16,22 Discipline umanistiche 12,91 Discipline scientifiche 58,08 F 16,22 12,91 58,08 112 Contingenze al quadrato / Frequenze teoriche cij2/ n̂ij SESSO/ ATTITUDINE M Discipline artistiche 0,52 Discipline umanistiche 0,35 Discipline scientifiche 1,13 F 0,62 0,42 1,34 2,38 TOTALE 1,15 0,78 2,46 4,39 X2=4,39 Φ2=0,02 TOTALE 2,00 C=0,14. Dal valore di quest’ultimo indice, molto più vicino a 0 che ad 1, si evince che i due caratteri non sono associati, ovvero non sembra che l’attitudine verso determinate discipline possa dipendere dal sesso. 7.3 Dipendenza perfetta La situazione di dipendenza non è univocamente caratterizzata; può essere unilaterale, se r≠c, o bilaterale, se r=c. I seguenti tre esempi mostrano, rispettivamente, come: a) il carattere B dipende perfettamente da A, ma il carattere A non dipende da B (r > c): ad ogni modalità di A corrisponde sempre una sola modalità di B, ma non è vero il contrario (in ogni riga c’è solo una frequenza congiunta non nulla); b) il carattere A dipende perfettamente da B (r < c). Infatti, ad ogni modalità di B corrisponde sempre una sola modalità di A, ma non è vero il contrario (in ogni colonna c’è solo una frequenza congiunta non nulla); c) i due caratteri A e B sono perfettamente associati (r = c): in ogni riga e in ogni colonna c’è solo una frequenza congiunta non nulla. 113 Il carattere B dipende perfettamente da A A/B a1 b1 10 b2 0 b3 0 TOTALE 10 a2 0 0 30 30 a3 0 0 15 15 a4 0 5 0 5 TOTALE 10 5 45 60 Il carattere A dipende perfettamente da B A/B a1 b1 10 b2 0 b3 0 a2 0 0 a3 0 TOTALE 10 TOTALE 10 0 b4 0 5 30 15 0 45 30 15 5 60 5 I due caratteri sono perfettamente associati A/B a1 b1 0 b2 5 b3 0 TOTALE 5 a2 0 0 10 10 a3 30 0 0 30 TOTALE 30 5 10 45 In quest’ultimo caso le frequenze potrebbero disporsi sulla diagonale principale, indicando una “perfetta associazione positiva” o sulla diagonale secondaria, indicando una “perfetta associazione negativa” o “perfetta dissociazione”. Gli indici X2 e C assumono nelle tre situazioni suddette a), b) e c) il loro massimo valore ma, poiché possono assumere solo valori positivi, non distinguono l’associazione dalla dissociazione. 7.4 Indici di associazione per tabelle 2×2 Si consideri una tabella dicotomica, ossia una tabella in cui entrambe le variabili possono assumere solo due modalità: 114 A/B b1 b2 totale a1 n11 n12 n1. a2 n21 n22 n2. totale n.1 n.2 N La particolarità di una tabella 2×2 sta nel fatto che, fissati i totali marginali, la conoscenza di una sola frequenza congiunta nij è sufficiente per determinare le altre tre. Un'analisi sull'associazione può essere condotta dunque basandosi su una sola frequenza. In particolare, confrontando la frequenza osservata n11 con la n n ) corrispondente frequenza teorica n11 = 1. .1 , si può affermare che: n ) 1. se n11 = n11 , A e B sono indipendenti; ) 2. se n11 > n11 , tra A e B c'è associazione positiva; ) 3. se n11 < n11 , tra A e B c'è associazione negativa. Sono stati proposti diversi coefficienti per misurare l'associazione fra variabili dicotomiche; il più importante è l'indice V di Pearson: V= n11 n22 − n12 n21 (n11 + n12 )(n11 + n21 )(n12 + n22 )(n21 + n22 ) . L'indice V varia nel range [-1,+1]; in particolare, assume valore: 1. 0 in caso di indipendenza; 2. 1 in caso di perfetta associazione (n12 =n21 = 0); 3. -1 in caso di perfetta dissociazione (n11 =n22 = 0). Supponiamo di aver osservato la seguente tabella: SESSO/ ESAME DI MATEMATICA F M Totale Calcoliamo l'indice V: 115 N S Totale 10 16 26 2 2 4 12 18 30 V = 10 ⋅ 2 − 2 ⋅ 16 12 ⋅ 18 ⋅ 26 ⋅ 4 = −0,08 Il valore di V, molto più vicino a 0 che a -1, indica che non c'è alcuna relazione fra il sesso degli studenti intervistati e il fatto che abbiano sostenuto o meno l'esame di matematica. 7.5 Indici di cograduazione Se i dati riportati in una tabella di contingenza sono relativi a variabili misurate su scala nominale, gli indici che quantificano la dipendenza tra le due variabili vengono definiti, come si è visto, misure o indici di associazione. Se le due variabili sono misurabili su scala ordinale, gli indici preposti prendono il nome di indici di cograduazione. Tali indici consentono non solo di misurare l’intensità di un'eventuale associazione, ma anche di individuarne il verso, ovvero consentono di stabilire se tra i due caratteri ordinati c'è concordanza (associazione positiva) o discordanza (associazione negativa). Si ha concordanza quando a modalità basse della prima variabile corrispondono modalità basse della seconda variabile e a modalità alte corrispondono modalità alte. Si ha discordanza quando a modalità basse corrispondono modalità alte e viceversa a modalità alte corrispondono modalità basse. 7.5.1 Concordanza tra graduatorie Prima di esaminare gli indici che misurano l’intensità della relazione esistente fra due variabili ordinabili espresse sotto forma di tabella a doppia entrata, analizziamo due indici utilizzati per misurare la “concordanza” tra due semplici graduatorie, relative allo stesso insieme di unità statistiche. La forma più comune di graduatoria è quella che si fonda sull’ipotesi che le modalità siano tutte differenti ed equidistanti, quindi rappresentabili con i numeri naturali da 1 ad n. 116 Consideriamo il seguente esempio. Supponiamo di aver rilevato i due caratteri “Attività sportiva” e “Autocontrollo” su un insieme di 10 soggetti e supponiamo che tali caratteri siano stati misurati secondo scale di livello ordinale: Individuo Francesco Paolo Giovanna Stefano Carlo Piero Marco Cecilia Franco Maria Attività sportiva 20 17 16 11 8 8 6 5 5 1 Autocontrollo 16 19 15 18 6 10 7 4 3 2 Si vuol verificare se fra le due variabili esiste una relazione. Per misurare la concordanza tra le due graduatorie utilizziamo il coefficiente “Rho” proposto da Spearman: n ρ = 1− 6∑ d i2 i =1 2 n(n − 1) dove di=j-k, in cui j e k sono i ranghi delle due graduatorie poste a confronto, ed n è il numero delle osservazioni. Il “rango” indica la posizione che il “grado” o “punteggio” occupa nella serie ordinata in senso crescente o decrescente. In corrispondenza di punteggi uguali (tied), si attribuisce un rango dato dalla media dei ranghi: 117 Individuo Francesco Paolo Giovanna Stefano Carlo Piero Marco Cecilia Franco Maria Attività sportiva 20 17 16 11 8 8 6 5 5 1 Rango di di2 -2 1 -1 2 -1,5 0,5 1 0,5 -0,5 0 totale 4 1 1 4 2,25 0,25 1 0,25 0,25 0 14 Autocontrollo Rango 1 2 3 4 5,5 5,5 7 8,5 8,5 10 16 19 15 18 6 10 7 4 3 2 3 1 4 2 7 5 6 8 9 10 n ρ = 1− 6∑ d i2 i =1 2 n(n − 1) = 1− 84 6 ⋅ 14 = 1− = 0,9 . 990 10(100 − 1) Il coefficiente ρ varia nel range [-1,+1] e assume, in particolare: - valore +1 in caso di perfetta concordanza (j=k); - valore –1 in caso di massima discordanza; - valore 0 in caso di indipendenza. Nell’esempio suddetto il valore ρ=0,9 esprime una concordanza quasi perfetta fra le due variabili, per cui si può concludere che l’attività sportiva facilita l’autocontrollo. Il coefficiente ρ è stato ricavato da Spearman come coefficiente di correlazione (cfr.par. 7.6) tra ranghi, come si può facilmente dimostrare. Un altro indice utilizzato per misurare il grado di corrispondenza fra due graduatorie è il “tau” di Kendall: τ= 2s . n(n − 1) Per calcolare il τ si dispone la prima graduatoria in ordine naturale e si considera la nuova disposizione della seconda graduatoria. 118 Si supponga, ad esempio, di aver rilevato l’ordine di arrivo di 5 atleti in due diverse gare: Individuo Prima gara Seconda gara Francesco 3 5 Paolo 1 2 Giovanna 5 3 Stefano 2 1 Carlo 4 4 Ordiniamo la prima graduatoria; la nuova disposizione è: Individuo Prima gara Seconda gara Paolo 1 2 Stefano 2 1 Francesco 3 5 Carlo 4 4 Giovanna 5 3 Si consideri la seconda graduatoria e si confronti ciascun punteggio con i successivi; si assegni valore -1 ogniqualvolta tale punteggio risulta superiore al punteggio con cui è confrontato, viceversa si assegni valore +1. La somma di tali valori darà s: Individuo Paolo -1 +1 +1 +1 Stefano +1 +1 +1 Francesco -1 -1 Carlo -1 s τ= Totale +2 +3 -2 -1 +2 2s 2⋅2 = = 0,2. n(n − 1) 5 ⋅ 4 Come ρ, anche il coefficiente τ può assumere valori compresi tra –1 (massima discordanza) e +1 (massima concordanza) ed è una misura simmetrica rispetto allo 0. Il risultato ottenuto, dunque, non sembra confermare una concordanza fra i punteggi riportati nelle due gare. 119 I due coefficienti ρ e τ risultano uguali solo nel caso in cui le graduatorie considerate sono perfettamente concordanti o discordanti, viceversa ρ tende ad assumere valori più alti di τ, poiché tende ad amplificare gli scarti. 7.5.2 Cograduazione per tabelle doppie di frequenza Si consideri adesso una tabella di contingenza, in cui la variabile di riga A e la variabile di colonna B sono misurate su scala ordinale, entrambe in senso crescente o decrescente. Definiamo la “concordanza” e la “discordanza” in modo più dettagliato. Due osservazioni che, all’interno della tabella, occupano le posizioni (i, j) e (i', j') sono: - concordanti se (i<i') e (j<j') o se (i>i') e (j>j'); - discordanti se (i<i') e (j>j') o se (i>i') e (j<j'); - tied se hanno la stessa classificazione rispetto alla variabile A e/o B. Consideriamo, ad esempio, la seguente tabella di contingenza, in cui: A: condizione meteorologica; B: livello di traffico automobilistico A/B pioggia variabile sereno basso 7 29 84 medio 26 98 26 alto 55 29 11 Le osservazioni nelle celle di posizione (1,1) e (2,2) sono concordanti. In generale, le osservazioni nella cella (1,1) sono concordanti con tutte le osservazioni che si trovano a sud-est della tabella, che hanno livelli maggiori per entrambe le variabili. Tale regola può essere estesa a ciascuna osservazione in ciascuna cella, per cui il numero delle coppie concordanti sarà Nc=4339: 120 dalla cella pioggia pioggia variabile variabile basso medio basso medio numero di coppie 7(98+26+29+11) 26(29+11) 29(26+11) 98⋅11 Nc Totale 1148 1040 1073 1078 4339 Le osservazioni nelle celle di posizione (1,2) e (2,1) sono discordanti. In generale, ciascuna osservazione sarà discordante con le osservazioni che si trovano a sudovest nella tabella, per cui il numero delle coppie discordanti sarà Nd=27395: dalla cella pioggia pioggia variabile variabile numero di coppie totale medio 26(29+84) 2938 alto 55(29+98+84+26) 13035 medio 98⋅84 8232 alto 29(84+26) 3190 27395 Nd Il numero di coppie tied rispetto alla variabile A è Ta =11916: dalla riga pioggia variabile sereno numero coppie 7(26+55)+26⋅55 29(98+29)+98⋅29 84(26+11)+26⋅11 Ta totale 1997 6525 3394 11916 Il numero di coppie tied rispetto alla variabile B è Tb =11518: dalla colonna basso medio alto numero coppie 7(29+84)+29⋅84 26(98+26)+98⋅26 55(29+11)+29⋅11 Tb totale 3227 5772 2519 11518 Fra gli indici di cograduazione proposti in letteratura per tabelle a doppia entrata, analizziamo il Γ di Goodman e Kruskal e il τ di Kendall, che nell’esempio suddetto assumono i seguenti valori: Γ= Nc − Nd = −0,73 Nc + Nd 121 τ= (N c + N d Nc − Nd + Ta )( N c + N d + Tb ) = −0,53 . Entrambi gli indici variano tra –1 e +1, assumendo valori positivi in caso di concordanza e valori negativi in caso di discordanza. In particolare, per tabelle quadrate, l’indice τ assume i valori estremi solo in caso di perfetta concordanza (discordanza), ossia quando tutte le frequenze congiunte si dispongono sulla diagonale principale (secondaria). L’indice Γ, invece, assume valore –1 quando Nc=0 e valore +1 quando Nd=0. L’indice τ pertanto può ritenersi migliore dell’indice Γ. In caso di indipendenza tali indici sono uguali a 0, ma non è vero il contrario. Infatti, sia Γ che τ valgono 0 se Nc= Nd. Nell’esempio considerato Γ e τ, pur assumendo valori diversi, mostrano una discordanza fra i due caratteri, ossia al peggiorare delle condizioni climatiche, ad esempio in caso di pioggia, il traffico automobilistico tende ad aumentare. 7.6 Interdipendenza fra variabili quantitative Supponiamo di aver rilevato su n unità statistiche due variabili quantitative X ed Y. Per misurare l’interdipendenza lineare fra due variabili quantitative ci serviamo della covarianza, data dalla media del prodotto degli scarti delle due variabili dalla propria media: n σ XY = ∑ (x i =1 i − M X )( y i − M Y ) n La covarianza assume valori positivi se vi è una prevalenza di scarti concordi; in tal caso le due variabili sono interdipendenti linearmente in modo diretto, dunque al crescere (decrescere) di una di esse, l’altra cresce (decresce). La covarianza assume valori negativi se vi è una prevalenza di scarti discordi; in tal caso, le 122 variabili sono interdipendenti linearmente in modo inverso e al crescere di una l’altra decresce e viceversa. In particolare, secondo la disuguaglianza di Cauchy-Schwartz, si può definire un range all’interno del quale la covarianza può variare: − σ X σ Y ≤ σ XY ≤ +σ X σ Y Dividendo ciascun membro della disuguaglianza per σ X σ Y , si ottiene il coefficiente di correlazione lineare di Bravais-Pearson: − 1 ≤ ρ ≤ +1 , che assume i valori estremi, –1 e +1, in caso di perfetta relazione lineare fra le due variabili. L’indice ρ è un numero adimensionale, poiché numeratore e denominatore sono espressi nella stessa unità di misura: ρ= σ XY , σ Xσ Y mentre la covarianza è espressa nel prodotto delle unità di misura delle due variabili. Così come per la varianza, esiste una formula ridotta anche per la covarianza. Infatti è: n σ XY = n ∑ (xi − M X )( yi − M Y ) ∑ (xi yi − xi M Y = i =1 n = i =1 − yi M X + M X M Y ) n n n n i =1 i =1 i =1 ∑ xi yi −M Y ∑ xi − M X ∑ yi + nM X M Y n = n = ∑xy i i i =1 n − M Y M X − M X M Y + M X M Y = M XY − M X M Y . 123 = Tale formula consente di calcolare la covarianza, evitando di calcolare tutti gli scarti di X e di Y dalle rispettive medie. Quando non si dispone di una serie doppia di osservazioni, ma di una tabella doppia di frequenza, per calcolare la covarianza bisogna tener conto delle frequenze congiunte: r σ XY = c ∑∑ (x i =1 j =1 i − M X )( y j − M Y )nij N E’ conveniente, anche in questo caso, calcolare la covarianza con la formula ridotta: σ XY = M XY − M X M Y , dove, però, le medie aritmetiche sono medie aritmetiche ponderate: r M XY = c ∑∑ x y n i i =1 j =1 j ij MX = , N c r ∑x n i =1 i N i. , MY = ∑y n j =1 j N .j . Se le due variabili X ed Y sono indipendenti in distribuzione, la covarianza, è nulla. Infatti, se X ed Y sono indipendenti in distribuzione (cfr.par. 7.2) è nij = ni. n. j N , quindi è lecito scrivere: ∑∑ (xi − M X )(y j − M Y )ni. n. j r σ XY = c i =1 j =1 N 2 = ∑ (xi − M X )ni. ∑ (y j − M Y )n. j r c i =1 j =1 N N =0 in quanto, per la prima proprietà della media aritmetica, la somma degli scarti di ciascuna variabile dalla propria media è nulla: ∑ (xi − M X )ni. = ∑ (y j − M Y )n. j r c i =1 j =1 = 0. Ovviamente, in tal caso, è nullo anche il coefficiente di correlazione, pertanto due variabili indipendenti sono anche non correlate, ma non è vero il contrario. 124 7.6.1 Esempi di calcolo della covarianza e di ρ Nella seguente tabella, sono riportati i Tassi di attività lavorativa (X) della popolazione e il Prodotto interno lordo per abitante (Y), in milioni di lire, di otto regioni italiane nel 1979: REGIONI TAL(xi) PIL(yi) Piemonte 63 6,0 Lombardia 61 6,3 Liguria 55 6,2 Toscana 60 5,3 Emilia 64 5,9 Lazio 53 4,6 Puglia 55 3,3 Sicilia 50 3,2 TOTALE 461 40,8 Si vuol verificare se le due variabili X ed Y sono correlate. Calcoliamo, innanzitutto la covarianza: yi-MY (xi-MX)(yi-MY) (xi-MX)2 (yi-MY)2 0,9 4,9 29,2 0,8 1,2 4,1 11,6 1,4 1,1 -2,9 6,8 1,2 0,2 0,5 5,8 0,0 0,8 5,1 41,0 0,6 -0,5 2,3 21,2 0,3 -1,8 4,7 6,8 3,2 -1,9 14,4 57,8 3,6 33,1 179,9 11,2 xi-MX 5,4 3,4 -2,6 2,4 6,4 -4,6 -2,6 -7,6 8 MX = 8 ∑ xi 461 = = 57,6 8 i =1 8 8 σ XY = ∑ (x i =1 i MY = − M X )( y i − M Y ) 8 = ∑y i =1 i 8 = 40,8 = 5,1 8 33,1 = 4,1 8 quindi le due varianze: 8 σ = 2 X ∑ (x i =1 i −MX ) 8 2 8 179,9 = = 22,485 8 125 σ = 2 Y ∑ (y i =1 i − MY ) 8 2 = 11,2 = 1,405 . 8 Il coefficiente di correlazione è: ρ= σ XY σ σ 2 X 4,1 = 2 Y = 0,736 . 22,485 ⋅ 1,405 Volendo utilizzare le formule ridotte, sia per il calcolo della covarianza che delle due varianze, non sono necessari gli scarti; basta determinare le seguenti tre colonne: xiyi 378,0 384,3 341,0 318,0 377,6 243,8 181,5 160,0 2384, 2 xi2 3.969 3.721 3.025 3.600 4.096 2.809 3.025 2.500 26745 yi2 36,0 39,7 38,4 28,1 34,8 21,2 10,9 10,2 219, 3 8 ∑x y M XY = i i =1 i 8 = 2384,2 = 298 8 σ XY = M XY − M X M Y = 298 − 57,6 * 5,1 = 4,1 8 σ X2 = ∑x i =1 2 i 8 − M X2 = 26745 2 − (57,6) = 22,485 8 − M Y2 = 219,3 2 − (5,1) = 1,405 8 8 σ Y2 = ∑y i =1 2 i 8 Si perviene, dunque, allo stesso risultato, a meno di approssimazioni: ρ= σ XY σ X2 σ Y2 = 4,1 22,485 ⋅ 1,405 = 0,736 . Tale valore sta ad indicare una correlazione positiva fra le due variabili, ovvero all’aumentare del PIL, aumenta anche il TAL e viceversa. Supponiamo, adesso di aver osservato la seguente tabella a doppia entrata: 126 X/Y 39 45,5 51,5 57,5 totale 19 3 0 0 0 3 22,5 4 17 0 0 21 26 0 6 18 7 31 29 0 0 0 17 17 totale 7 23 18 24 72 Calcoliamo il coefficiente di correlazione: yj⋅ n.j yj2⋅ n.j 57 1083 472,5 10631,3 806 20956 493 14297 1828,5 46967,3 xi⋅ ni. xi2⋅ ni. 273 10647 1046,5 47615,75 927 47740,5 1380 79350 3626,5 185353,3 4 MX = 4 4 ∑ x i ni . 3626,5 = = 50,4 72 i =1 N 4 ∑∑ x y n i i =1 j =1 j 4 ij j i =1 N 4 i i =1 j =1 N j ij = 93149,25 = 1293,7 72 σ XY = M XY − M X M Y = 1293,7 − 50,4 ⋅ 25,4 = 13,5 4 σ = 2 X ∑x i =1 2 i ni . 72 − M X2 = 185353,3 2 − (50,4) = 37,4 72 − M Y2 = 46967,3 2 − (25,4 ) = 7,4 72 4 σ Y2 = ρ= ∑y j =1 2 i .j n 72 σ XY σ X2 σ Y2 .j = 1828,5 = 25,4 72 = 39 ⋅ 19 ⋅ 3 + 39 ⋅ 22,5 ⋅ 4 + ... + 57,5 ⋅ 29 ⋅ 17 = 93149,25 ∑∑ x y n M XY = MY = ∑y n = 13,5 37,4 ⋅ 7,4 = 0,82 . 127 8 Indipendenza in media 8.1 Medie e varianze condizionate e marginali Consideriamo la distribuzione dei dipendenti di un ente di ricerca per posizione professionale e numero di ore di lavoro effettuate in un mese: A/B b1 160-| 180 b2 180-| 200 b3 200-| 220 b4 220-| 240 TOTALE 6 15 14 8 43 2 5 4 7 18 0 3 2 3 8 8 23 20 18 69 a1 ricercatore a2 1° ricercatore a3 dirigente di ricerca TOTALE Consideriamo le distribuzioni condizionate di B rispetto ad A e calcoliamo le medie aritmetiche e le varianze sulle distribuzioni condizionate: Media aritmetica e varianza condizionata di B rispetto alla modalità a1 di A cbj n1j cbjn1j 2 cbj 2 cbj n1j 170 6 1020 28900 173400 190 15 2850 36100 541500 210 14 2940 44100 617400 230 8 1840 52900 423200 TOTALE n1.=43 8650 1755500 4 M B| A= a1 = ∑ j =1 c b j n1 j n1. ∑[ b 4 σ 2 B| A = a1 = j =1 c = 8650 = 201,16 43 ] − M B| A= a1 n1 j 2 j n1. 4 =∑ j =1 c b 2j n1 j n1. 128 − M B2| A= a1 = 1755500 2 − (201,16 ) = 359,11 43 Media aritmetica e varianza condizionata di B rispetto alla modalità a2 di A cbj n2j cbjn2j 2 cbj 2 cbj n2j 170 2 340 28900 57800 190 5 950 36100 180500 210 4 840 44100 176400 230 7 1610 52900 370300 TOTALE n2.=18 3740 785000 4 ∑ j =1 M B| A = a 2 = c b j n2 j n 2. ∑[ b 4 σ 2 B| A = a 2 = = j =1 c 3740 = 207,78 18 ] − M B| A = a 2 n 2 j 2 j n 2. 4 =∑ c b 2j n 2 j n 2. j =1 − M B2| A= a2 = 785000 2 − (207,78) = 439,51 18 Media aritmetica e varianza condizionata di B rispetto alla modalità a3 di A cbj n3j cbjn3j 2 cbj 2 cbj n3j 170 0 0 28900 0 190 3 570 36100 108300 210 2 420 44100 88200 230 3 690 52900 158700 TOTALE n3.=8 1680 355200 4 M B | A = a3 = ∑ j =1 c b j n3 j n3. ∑[ b 4 σ 2 B| A = a3 = j =1 c = 1680 = 210 8 ] − M B| A= a3 n3 j 2 j n3. 4 =∑ j =1 c b 2j n3 j n3. 129 − M B2| A= a3 = 355200 2 − (210 ) = 300 8 Calcoliamo, adesso, media aritmetica e varianza sulla distribuzione marginale di B: Media aritmetica e varianza della distribuzione marginale di B cbj n.j cbjn.j 2 cbj 2 cbj n.j 170 8 1360 28900 231200 190 23 4370 36100 830300 210 20 4200 44100 882000 230 18 4140 52900 952200 TOTALE N=69 14070 2895700 4 MB = ∑ j =1 c b j n. j = N ∑[ b 4 σ B2 = j =1 c 14070 = 203,91 69 ] − M B n. j 2 j N 4 =∑ j =1 c b 2j n. j N − M B2 = 2895700 2 − (203,91) = 386,14 69 8.2 Rapporto di correlazione La variabile B è indipendente in media dalla variabile A se ciascuna media condizionata è uguale alla media calcolata sulla distribuzione marginale di B, quindi se tutte le medie condizionate sono uguali fra loro. L’indipendenza in media non è, quindi, simmetrica come l’indipendenza in distribuzione; è ovvio che, nell’esempio suddetto, non è possibile calcolare la dipendenza in media di A da B, essendo A una variabile qualitativa. 130 L’eventuale dipendenza in media di B da A si può misurare attraverso il “rapporto di correlazione”, dato dal rapporto tra la varianza delle medie condizionate e la varianza di B: η = 2 B| A σ M2 σ B| A 2 B Calcoliamo la varianza delle medie condizionate e la media delle varianze condizionate: ni. M B | A = ai M B | A = ai n i . M B2| A= ai M B2| A= ai ni. 43 201,16 8.650,00 40.466,47 1.740.058,14 18 207,78 3.740,00 43.171,60 777.088,89 8 210,00 1.680,00 44.100,00 352.800,00 69 14.070,00 2.869.947,03 Media delle medie condizionate 1 N 3 ∑M i =1 B | A = ai ni . = 14070 = 203,91 = M B 69 Varianza delle medie condizionate ∑ [M 3 σ 2 M B| A = i =1 ] − M B ni . 3 2 B| A = ai N = ni. σ B2| A= a 43 359,11 15.441,86 18 439,51 7.911,11 8 300,00 2.400,00 69 i ∑M i =1 2 B| A = ai ni . N σ B2| A= a ni. i 25.752,97 131 − M B2 = 2869947,03 2 − (203,91) = 12,91 69 Media delle varianze condizionate 3 ∑σ Mσ2 = i =1 2 B | A = ai N B| A ni . = 25752,97 = 373,23 69 Si dimostra che sommando la varianza delle medie condizionate e la media delle varianze condizionate, si ottiene la varianza di B. Infatti è: σ M2 + M σ = 12,91+373,23 = 386,14 = σ B2 2 B| A B| A Dunque, il rapporto di correlazione varia tra 0 ed 1, assumendo valore 0 in caso di perfetta indipendenza in media e valore 1 in caso di perfetta dipendenza in media. Nell’esempio, il rapporto di correlazione è molto più vicino a zero che ad 1, per cui B si può ritenere indipendente in media da A. η 2 B| A = σ M2 σ B| A 2 B 12,91 = 0,03 . 386,14 = Naturalmente, l’indipendenza in distribuzione implica l’indipendenza in media, ma non viceversa. Infatti, vi è indipendenza in distribuzione se tutte le distribuzioni condizionate relative sono uguali fra loro; a maggior ragione, dunque, saranno uguali le medie calcolate su di esse. Ciò si può anche dimostrare analiticamente. Consideriamo la generica media condizionata di B dato A, quando A assume la modalità ai: c M B | A = ai = ∑b n j =1 j ij ni . Se vi è indipendenza in distribuzione, si verifica che nij ni . = n. j N dunque 132 c M B | A = ai = ∑b n j =1 j .j N ma quest’ultima altro non è che la media di B. Allora, se tale uguaglianza vale per ogni i, ciò vuol dire che tutte le medie condizionate saranno uguali alla media di B e quindi saranno uguali fra loro. 8.3 Punto medio e punto mediano Qualora fosse possibile calcolare la media aritmetica su entrambe le variabili A e B, tali medie costituirebbero le coordinate del PUNTO MEDIO (MA, MB) della distribuzione di frequenza doppia, mentre le mediane calcolate sulle distribuzioni marginali di A e di B costituirebbero le coordinate del PUNTO MEDIANO (MeA, MeB). Nell’esempio considerato, non è possibile calcolare il punto medio, poiché le variabili in esame non sono entrambe quantitative. E’ possibile però calcolare la mediana anche sulla distribuzione marginale di A, essendo questa una variabile qualitativa ordinabile: A ni. Ni. Ricercatore 43 43 1° ricercatore 18 61 Dirigente 8 69 69 Poiché N=69 è dispari, la mediana sarà quella modalità che occuperà la posizione (N+1)/2=35, ossia “ricercatore”. In effetti, in tal caso, non sarebbe stato necessario neanche calcolare le frequenze cumulate Ni, essendo il valore “35” già compreso nella prima frequenza assoluta. 133 8.4 Frequenze cumulate per una tabella doppia E’ possibile definire le frequenze cumulate anche su una tabella doppia di frequenza. Le frequenze assolute cumulate rappresentano il numero di unità statistiche che hanno modalità di A≤ i e modalità di B≤ j: i j N ij = ∑∑ n hk h =1 k =1 Supponiamo, ad esempio, di aver osservato la seguente tabella di frequenze congiunte, dove A e B sono almeno ordinabili: A\B a1 a2 a3 totale b1 3 13 4 20 b2 5 20 2 27 b3 7 4 6 17 totale 15 37 12 64 La tabella delle frequenze assolute cumulate è: A\B a1 a2 a3 b1 3 16 20 b2 8 41 47 b3 15 52 64 dove, ad esempio, è: N13=n11+n12+n13=3+5+7=15 N32=n11+n12+n21+n22+n31+n32=47. Per determinare la tabella delle frequenze relative cumulate, basta dividere ciascuna frequenza assoluta cumulata per il totale delle osservazioni: i j Fij = ∑∑ f hk = h =1 k =1 134 N ij N . 9 La regressione Nell’analisi dei fenomeni economici, sociali, naturali, spesso, è interessante studiare le relazioni, di dipendenza o di interdipendenza, che si possono venire a creare tra due o più variabili, rilevate sugli stessi soggetti o oggetti. Quando fra due variabili, o fra una e più variabili, è possibile individuare una relazione unidirezionale, si suole parlare di “dipendenza”. Soffermiamoci sull’analisi della dipendenza fra variabili quantitative. La dipendenza statistica non è una dipendenza di tipo logico, cioè di tipo causaeffetto. Si pensi, ad esempio, alla relazione esistente tra i redditi di una coppia di coniugi, dovuta probabilmente al fatto che i due coniugi appartengono in genere alla stessa classe sociale. Distinguiamo due tipologie di variabili: - le variabili indipendenti o esplicative, che si suppone assumano valori determinati; - le variabili dipendenti o di risposta, affette da errori accidentali. La scelta dell’una o dell’altra variabile come indipendente o come dipendente non è arbitraria, ma è legata alla natura del fenomeno; si pensi, ad esempio, alla relazione reddito-consumi, in cui sono i consumi a dipendere dal reddito e non viceversa. Se non è possibile stabilire quale variabile possa essere considerata come logicamente “antecedente” e quale come “conseguente”, ci si può interessare alla misura dell’interdipendenza (coefficiente di correlazione lineare di BravaisPearson). Si pensi al tipo di relazione esistente fra statura e peso, in cui le due variabili si influenzano reciprocamente. 135 9.1 La regressione lineare semplice Supponiamo di aver rilevato due sole variabili, una indipendente X e l’altra dipendente Y; disponiamo dunque di n coppie di osservazioni (xi, yi): xi x1 x2 x3 . . . xn yi y1 y2 y3 . . . yn Ci chiediamo: qual è la “vera” relazione funzionale esistente fra le due variabili X e Y? Essa potrebbe essere determinata con esattezza: Y=f(x), se la variabile dipendente Y non fosse affetta da errori accidentali. In realtà, cioè, noi non rileviamo, per ogni soggetto/oggetto, la vera grandezza Yi, ma rileviamo un dato yi affetto da errore: yi=Yi+εi. Si pensi, ad esempio, alla relazione reddito-consumi, per cui è irrealistico pensare che percettori dello stesso reddito abbiano la stessa spesa per consumi. Gli errori εi tengono conto di tutti quei fattori che influiscono sui consumi e che sono diversi dal reddito (altre rendite, propensione alla spesa, ecc…). Se, rappresentate su un sistema di assi cartesiani le n coppie di punti (xi,yi), è possibile ipotizzare che la relazione teorica che lega le due variabili X e Y sia di tipo lineare: Y=f(x)=α+βx, il problema è quello di individuare, fra le infinite rette che si ottengono al variare di α e β, quella più probabile, cioè quella che presumibilmente ha generato la nostra serie di dati. 136 Assumendo che gli errori abbiano distribuzione normale, con media 0 e varianza costante σ2: εi ~N(0, σ2), il miglior metodo per “stimare” i parametri α e β è il metodo dei minimi quadrati. Il metodo dei minimi quadrati consiste nel minimizzare la somma dei quadrati degli scarti tra valori osservati yi e valori teorici Yi: 2 n 2 n R = ∑ ( y i − Yi ) = ∑ ( y i − α − βx i ) = minimo. i =1 i =1 Calcoliamo dunque le derivate parziali di R rispetto ad α e β e uguagliamole a zero; si ottiene un sistema di due equazioni in due incognite, detto sistema di equazioni normali: n ∂R = −2∑ ( y i − α − βxi ) = 0 ∂α i =1 (1) n ∂R = −2∑ ( y i − α − βx i )x i = 0 ∂β i =1 (2) Dalla equazione (1) si ha: n n n n i =1 i =1 ∑ y i − nα − β ∑ xi = 0 ⇒ αˆ = ∑ yi i =1 n in cui β si ricava dalla (2). Dalla equazione (2) si ha: n ∑x y i =1 i i n n i =1 i =1 − α ∑ x i − β ∑ x i2 = 0 e sostituendo ad α l’espressione trovata: ⎛ n ⎜ ∑ yi n x i y i − ⎜ i =1 − β ∑ ⎜ n i =1 ⎜ ⎝ ⎞ ⎟ n n i =1 ⎟ x − β x2 = 0 ∑ i ∑ i n ⎟ i =1 i =1 ⎟ ⎠ n ∑x i 137 −β ∑x i =1 n i =My -β Mx 2 ⎛ n ⎞ ⎜ ∑ xi ⎟ xi ∑ y i ∑ n n ⎝ i =1 ⎠ − β x 2 = 0 i =1 i =1 x y β − + ∑ ∑ i i i n n i =1 i =1 n n n n βˆ = ∑x y i =1 i i − n ∑ xi ∑ y i i =1 i =1 n ⎛ n ⎞ ⎜ ∑ xi ⎟ n i =1 ⎠ 2 xi − ⎝ ∑ n i =1 2 = M XY − M X M Y σ XY = 2 2 2 σX qMX −MX Le stime di α e β sono dunque: αˆ = M Y − βˆM X βˆ = σ XY σ X2 dove: α̂ rappresenta l’intercetta con l’asse delle ordinate; β̂ rappresenta il “coefficiente angolare” della retta, dunque la sua inclinazione, pertanto -∞< β̂ <+∞. Il segno di β̂ dipende ovviamente dal segno della covarianza. β̂ esprime di quanto varia, in media, Y al variare di un’unità di X; se β̂ =0, Y è indipendente da X. Le stime di α e β si possono determinare con maggiore facilità considerando gli scarti xi = x i − M X in luogo di xi. Ciò equivale a considerare una traslazione dell’origine nel punto di coordinate (Mx, 0), e quindi una traslazione dell’asse Y, di cui bisogna tener conto quando si stima α. La funzione di perdita è in tal caso: n 2 2 n R = ∑ ( y i − Yi ) = ∑ ( y i − α − βx i ) = minimo i =1 i =1 e il sistema di equazioni normali diviene: n ∂R = −2∑ ( y i − α − βxi ) = 0 ∂α i =1 (1) 138 n ∂R = −2∑ ( y i − α − βx i )x i = 0 ∂β i =1 (2) Dalla equazione (1) si ha: n n n i =1 i =1 ∑ y i − nα − β ∑ xi = 0 ∑y α̂ = ⇒ i =1 i n =My cui bisogna sottrarre β Mx , se si vuol tornare al vecchio sistema di riferimento. Dalla equazione (2) si ha: n n ∑x y i i =1 n i n − α ∑ xi − β ∑ x = 0 ⇒ i =1 2 i i =1 n ∑x y i i =1 n i − β ∑ x = 0 ⇒ β̂ = i =1 2 i ∑x y i =1 n ∑x i =1 n n i =1 i =1 i i , 2 i ∑ xi y i = ∑ xi y i . Infatti: dove n n n n i =1 i =1 i =1 i =1 ∑ (xi − M X )( y i − M Y ) = ∑ (xi − M X )y i − M Y ∑ (xi − M X ) =∑ (xi − M X )y i . SCOMPOSIZIONE DELLA DEVIANZA TOTALE La devianza di Y (DEVT) si può scomporre nella somma di due componenti, la devianza residua (DEVE) e la devianza di regressione (DEVR): n ∑ ( yi − M Y ) 2 n ( = ∑ y i − Yˆi i =1 i =1 ) + ∑ (Yˆ − M ) . 2 2 n i =1 i Y Infatti è: 2 n ∑ (y i =1 n ( i n − MY ) = ∑ i =1 ) 2 n ( ) 2 y i − Yˆi + Yˆi − M Y ( ) 2 n ( = )( ) = ∑ yi − Yˆi + ∑ Yˆi − M Y + 2∑ yi − Yˆi Yˆi − M Y , i =1 i =1 i =1 dove, se consideriamo gli scarti xi = x i − M X in luogo di xi, si ha: ∑ (y n i =1 i )( ) n ( )( ) − Yˆi Yˆi − M Y = ∑ y i − Yˆi αˆ + βˆx i − M Y = i =1 139 n )( ( ) n ( ) = ∑ y i − Yˆi M Y + βˆx i − M Y = βˆ ∑ y i − Yˆi x i = 0 i =1 ∑ (y n essendo i =1 i i =1 ) − Yˆi x i = 0 l’equazione (2) del sistema normale. Una misura della bontà di adattamento della retta di regressione ai dati è data dal “coefficiente di determinazione” R2 = DEVR DEVE , =1− DEVT DEVT 0 ≤ R2 ≤1, che assume valore 0 se DEVR=0 e valore 1 se DEVE=0. DEVR=0 se la retta di regressione coincide con la retta passante per MY; in tal caso, non c’è dipendenza di Y da X, essendo tale retta parallela all’asse X. DEVE=0 se tutti i dati osservati giacciono sulla retta di regressione, ovvero la retta passa esattamente per i punti e l’adattamento può ritenersi ottimo. 2 DEVR σ XY Dimostriamo che = 2 . n σX Se consideriamo xi = x i − M X in luogo di xi, si ha: 2 ∑ ( yˆ i − M Y ) ∑ (αˆ + βˆxi − M Y ) n DEVR = n n i =1 n = i =1 n ∑ (M n 2 = i =1 Y + βˆx i − M Y n ) 2 = n = βˆ 2 ∑x i =1 n 2 i = 2 2 σ XY σ XY 2 = σ X σ X4 σ X2 R2 è dunque pari al quadrato del coefficiente di correlazione lineare. Infatti: R2 = 2 σ XY DEVR DEVR = = = ρ2. DEVT nσ Y2 σ X2 σ Y2 Facciamo un esempio. Nella seguente tabella sono riportate le "quantità di precipitazioni Y" (in mm) e le "temperature medie X" (in gradi centigradi) registrate in 10 stazioni meteorologiche: 140 yi 29 35 87 32 112 14 26 120 190 85 730 xi 18 16 14 19 11 20 17 12 9 13 149 Il valore del coefficiente di correlazione lineare indica una forte interdipendenza lineare fra le due variabili di tipo inverso: x iy i 522 560 1218 608 1232 280 442 1440 1710 1105 9117 x i2 324 256 196 361 121 400 289 144 81 169 2341 10 ∑x MX 10 i 149 = = = 14,9 10 10 i =1 MY = 10 M XY = ∑x y i =1 y i2 841 1225 7569 1024 12544 196 676 14400 36100 7225 81800 i 10 i = 9117 = 911,7 10 σ XY = M XY − M X M Y = −176 141 ∑y i =1 10 i = 730 = 73 10 10 σ X2 = ∑x i =1 2 i 10 − M X2 = 2341 2 − (14,9) = 12,11 10 − M Y2 = 81800 2 − (73) = 2850,49 10 10 σ Y2 = ∑y i =1 2 i 10 σ XY ρ= σ X2 σ Y2 = −0,95 . La relazione lineare fra le due variabili si evince anche dallo scatterplot di Y su X: quantità di precipitazioni 200 150 100 50 0 0 5 10 15 20 25 temperature Determiniamo la retta di regressione di Y su X: βˆ = σ XY − 176 = = −14,56 σ X2 12,09 αˆ = M Y − βˆM X = 73 + 14,56 ⋅ 14,9 = 289,91 yˆ i = αˆ + βˆx i = 289,91 − 14,56 x i . All’aumentare della temperatura di 1°, dunque, le quantità di precipitazioni diminuiscono in media di circa 15 mm. La retta si adatta bene ai dati osservati essendo R2 molto vicino ad 1: R2=ρ2=(-0,95)2=0,9. 142 Volendo stimare le quantità di precipitazioni in corrispondenza di un valore di X non osservato, ad esempio xi=10, si può utilizzare la retta di regressione: yˆ i = αˆ + βˆxi = 289,91 − 14,56 ⋅ 10 = 144,33 . Nell’esempio considerato ha senso calcolare anche la retta di regressione di X su Y. In tal caso, le stime dei due parametri saranno: βˆ ' = σ XY − 176 = = −0,06 2851 σ Y2 αˆ ' = M X − βˆ ' M Y = 14,9 + 0,06 ⋅ 73 = 19,41 e la retta di X su Y sarà: xˆ i = αˆ '+ βˆ ' y i = 19,41 − 0,06 y i . Le due rette di regressione si incontrano sempre nel punto di coordinate (MX, MY). Infatti, la retta yˆ i = αˆ + βˆxi passa per il punto (MX, MY): MY = MY - β̂ Mx + β̂ Mx.. Analogamente si dimostra che la retta xˆ i = αˆ '+ βˆ ' y i passa per lo stesso punto. Se ρ=±1, le due rette sono coincidenti, se ρ=0 le due rette sono perpendicolari e quindi le due variabili sono indipendenti linearmente; non è detto però che fra X e Y non ci sia una dipendenza di altro tipo, ad esempio parabolica. 9.2 La regressione non lineare Non sempre le n coppie (xi, yi) dei dati rilevati si dispongono intorno ad una retta, per esempio: 143 30 25 20 15 10 5 0 0 2 4 6 8 10 Non sempre, dunque, possiamo ipotizzare che la relazione teorica che lega le due variabili X e Y sia di tipo lineare. Nel caso in esame, possiamo pensare che la relazione “vera” fra le due variabili sia di tipo parabolico: Y=f(x)=a+bx+cx2. Per determinare i parametri a, b e c ricorriamo al “metodo dei minimi quadrati”: 2 R = ∑ ( y i − Yi ) = ∑ ( y i − a − bxi − cx n 2 n i =1 i =1 2 i ) = minimo. Se, per semplicità di calcolo, si considerano gli scarti dalla media aritmetica xi = x i − M x , la funzione da minimizzare sarà: 2 R = ∑ ( y i − a − bx i − cxi2 ) . n i =1 Derivando parzialmente rispetto ai parametri e uguagliando a zero le derivate ottenute, si ha: n ∂R = 2∑ y i − a − bx i − cx i2 (− 1) = 0 ∂a i =1 ( ) n ∂R = 2∑ y i − a − bx i − cx i2 (− x i ) = 0 ∂b i =1 ( ) n ∂R = 2∑ y i − a − bxi − cx i2 − x i2 = 0 ∂c i =1 ( )( ) 144 Si risolve dunque il sistema, ad esempio mediante il metodo di sostituzione o di Cramer: n n ⎧n y na b x c x i2 = + + ∑ ∑ ∑ i i ⎪ i =1 i =1 ⎪ i =1 n n n ⎪n 2 x y a x b x c x i3 = + + ⎨∑ i i ∑ ∑ ∑ i i i =1 i =1 i =1 ⎪ i =1 n n n n ⎪ 2 2 3 x y a x b x c x i4 = + + ⎪∑ i i ∑ ∑ ∑ i i i =1 i =1 i =1 ⎩ i =1 Per una delle proprietà della media aritmetica (cfr. par. 3.4) è ∑x i = 0 . Inoltre, se i i valori xi costituiscono una progressione aritmetica, gli scarti dalla media con esponente dispari sono tutti nulli. Supponiamo di aver osservato i seguenti valori: y 1 2 4 7 14 x 0 1 2 3 6 Se non consideriamo gli scarti dalla media, occorre determinare la seguente tabella : xy 0 2 8 21 31 x2 0 1 4 9 14 x2 y 0 2 16 63 81 e risolvere il sistema: ⎧14 = 4a + 6b + 14c ⎪ ⎨31 = 6a + 14b + 36c ⎪81 = 14a + 36b + 98c ⎩ Utilizzando il metodo di Cramer si ha: 145 x3 0 1 8 27 36 x4 0 1 16 81 98 14 6 ∆ a = 31 81 14 36 4 6 14 4 36 = 80 98 14 4 ∆ c = 6 14 31 = 40 14 36 81 aˆ = ∆b = 6 14 ∆ a 80 = =1 ∆ 80 14 31 36 = 40 81 98 6 ∆ = 6 14 14 36 ∆ 40 bˆ = b = = 0,5 ∆ 80 14 cˆ = 14 36 = 80 98 ∆ c 40 = = 0,5 ∆ 80 Se, invece, consideriamo gli scarti dalla media, occorre determinare la seguente tabella: xy -1,5 -1 2 10,5 10 x2y 2,25 0,5 1 15,75 19,5 x2 2,25 0,25 0,25 2,25 5 x4 5,0625 0,0625 0,0625 5,0625 10,25 e risolvere il sistema: ⎧14 = 4a + 5c ⎪ ⎨10 = 5b ⎪19,5 = 5a + 10,25c ⎩ 9.3 La regressione multipla Supponiamo di aver rilevato, su ciascuna unità statistica, k variabili indipendenti X1, X2, …, Xk, ad esempio altezza, peso, circonferenza torace, ecc… Si parla, in questo caso, di “regressione multipla”. Quando rileviamo k+1 variabili su n soggetti/oggetti, non disponiamo più di una serie doppia di valori (xi, yi), ma di un vettore di osservazioni per la variabile dipendente, l’età ad esempio, e di una matrice n×k di osservazioni, relative alle variabili indipendenti: 146 y1 y2 x11 x21 . . . . . xn1 . . yi . . yn x12 x22 . . . . . xn2 … … … … … . . . xij . . … x1k x2k . . . . . xnk … … … … L’elemento generico xij rappresenta il valore della j-ma variabile indipendente rilevata sull’i-mo soggetto/oggetto. Se ipotizziamo che la relazione teorica che lega la variabile Y alle altre sia di tipo lineare Y=f(x1, x2, …, xk)=a0+a1x1+a2x2+…+akxk, otteniamo il “modello di regressione lineare multipla”, che da un punto di vista grafico è rappresentato da un iperpiano nello spazio a (k+1) dimensioni. Quando k=2, f(x1,x2)=a0+a1x1+a2x2 rappresenta un piano nello spazio tridimensionale. Tra gli infiniti piani che si ottengono al variare dei parametri a0, a1, a2, l’obiettivo è individuare quello da cui, con maggiore probabilità, hanno avuto origine i dati osservati. METODO DEI MINIMI QUADRATI n 2 2 n R = ∑ ( y i − Yi ) = ∑ ( y i − a 0 − a1 x i1 − a 2 x i 2 ) = minimo. i =1 i =1 Derivando R rispetto ad a0, a1, a2 e uguagliando a zero le derivate parziali, si dovrà risolvere il seguente sistema: n n ⎧n y na a x a = + + 0 1 ∑ i1 2 ∑ xi 2 ⎪∑ i i =1 i =1 i =1 ⎪ n n n n ⎪ 2 x y a x a x a = + + ⎨∑ i1 i 0 ∑ i1 1 ∑ i1 2 ∑ x i1 x i 2 i =1 i =1 i =1 ⎪ i =1 n n n ⎪n 2 ⎪∑ x i 2 y i =a 0 ∑ x i 2 +a1 ∑ xi1 x i 2 + a 2 ∑ x i 2 i =1 i =1 i =1 ⎩ i =1 147 Considerando gli scarti dalla media aritmetica xi = x i − M x , sarà: 2 n 2 n R = ∑ ( y i − Yi ) = ∑ ( y i − a 0 − a1 x i1 − a 2 x i 2 ) = minimo. i =1 i =1 Derivando R rispetto ad a0, a1, a2, uguagliando a zero le derivate parziali e considerando che n n i =1 i =1 ∑ xij y i =∑ xij y i per j=1, 2, si ricava a0 = My e si perviene al sistema: n n ⎧n 2 x y a x a = + 2 ∑ x i1 x i 2 ⎪∑ i1 i 1 ∑ i1 ⎪ i =1 i =1 i =1 ⎨n n n 2 ⎪ x y =a x x a + ∑ i2 i 1 ∑ i1 i 2 2 ∑ xi 2 ⎪⎩ i =1 i =1 i =1 dove i termini noti rappresentano le codevianze fra la variabile dipendente e le variabili indipendenti, mentre i coefficienti dei parametri incogniti costituiscono la matrice di devianze e codevianze delle Xj (j=1, 2). Come esempio supponiamo di aver rilevato la seguente matrice dei dati: y 12 18 27 35 92 x1 2 4 6 8 20 x2 2,5 3 4,5 6 16 Per stimare i parametri del modello è conveniente costruire la seguente tabella: x1 y 24 72 162 280 538 x2 y 30 54 121,5 210 415,5 x1 2 4 16 36 64 120 x2 2 6,25 9 20,25 36 71,5 x1 x2 5 12 27 48 92 Se non si considerano scarti dalla media, occorre risolvere il sistema: 148 ⎧92 = 4a 0 + 20a1 + 16a 2 ⎪ ⎨538 = 20a 0 + 120a1 + 92a 2 ⎪415,5 = 16a + 92a + 71,5a 0 1 2 ⎩ Ricorrendo al metodo di Cramer si ha: 92 20 ∆ a0 = 538 120 415,5 92 4 20 ∆ a2 = 20 16 16 4 92 = 28 71,5 ∆ a1 = 20 16 92 4 120 538 = 56 92 415,5 ∆ = 20 16 92 16 538 92 = 60 415,5 71,5 20 16 120 92 = 24 92 71,5 da cui: aˆ 0 = ∆ a0 ∆ = 28 = 1,17 24 aˆ1 = ∆ a1 ∆ = 60 = 2,5 24 149 aˆ 2 = ∆ a2 ∆ = 56 = 2,3 . 24 ESERCIZI COMPITO 1 1) La tabella che segue mostra la distribuzione di un campione di soggetti in base al reddito percepito (in migliaia di euro) e al grado di soddisfazione nel rapporto con il coniuge: A/B <10 10-20 20-30 >30 Molto insoddisfatto 20 22 13 7 Poco insoddisfatto Poco soddisfatto Molto soddisfatto 24 38 28 18 80 104 81 54 82 125 113 92 a) Si ricavino le distribuzioni condizionate della variabile reddito data la variabile “grado di soddisfazione”; b) Si determini un indice statistico che indichi l’eventuale dipendenza della variabile reddito dalla variabile “grado di soddisfazione”. 2) I seguenti dati costituiscono un campione di 20 tempi (espressi in minuti), impiegati per risolvere analoghi problemi, riferiti a due diversi uffici di una compagnia telefonica: I ufficio 1.48 1.02 1.75 0.53 0.78 0.93 2.85 1.60 0.52 0.80 1.60 1.05 4.15 6.32 3.97 3.93 1.48 5.45 3.10 0.97 0.10 1.92 1.10 0.60 0.60 1.53 0.52 4.23 3.30 0.08 2.10 1.48 0.58 1.65 4.02 0.72 II ufficio 7.55 3.75 3.75 0.65 a) Costruite, per ciascuno dei due uffici, il diagramma scatola e baffi; b) Basandosi sul precedente grafico, la distribuzione dei dati è da ritenere asimmetrica? Se si, di che tipo di asimmetria si tratta? c) Calcolati opportuni indici di sintesi, si può ritenere che ci siano differenze tra i due uffici? 3) Cosa misura la covarianza e fra quali valori può variare? 4) Quali sono le variabili statistiche più informative e perché? 150 COMPITO 2 1) Un gruppo di 76 studenti è stato sottoposto ad un test attitudinale per l’ammissione ad un corso di studi. Viene riportata la distribuzione di frequenze del Numero di errori commessi su un totale di 10 domande: X frequenze 0 1 2 3 4 5 6 7 8 9 10 1 2 5 8 14 20 13 6 4 2 1 a) Stabilire, attraverso l’uso di un indice appropriato, se tale distribuzione può ritenersi simmetrica; b) Individuare il modello teorico più opportuno da adattare alla distribuzione osservata e verificarne l’adattamento. 2) In una città sono stati osservati giornalmente la Condizione meteorologica e il Livello di traffico automobilistico per un periodo di tempo di un anno. Si è potuta costruire così la seguente tabella doppia: METEO sereno variabile pioggia basso 84 29 7 LIVELLO DI TRAFFICO medio 26 98 26 alto 11 29 55 a) Costruire le distribuzioni di frequenze marginali della suddetta tabella; b) Stabilire che tipo di media è possibile calcolare per ciascuna delle due distribuzioni e determinarle; c) Individuare se sussiste un’eventuale associazione fra le due variabili. 3) Quanti e quali sono i parametri che caratterizzano una distribuzione di probabilità normale e che valori assumono per la distribuzione normale standardizzata? 4) Qual è la differenza che sussiste fra gli indici di variazione e gli indici di dispersione? 151 COMPITO 3 1) I seguenti valori rappresentano le somme (in dollari) ritirate da un bancomat da parte di 25 clienti di una banca: 40 150 100 80 130 100 50 110 120 100 140 100 200 90 140 50 160 80 120 160 100 70 110 100 70 a) Costruire la distribuzione di frequenze considerando 6 classi, in modo tale che l’estremo inferiore della prima classe sia 30 e l’estremo superiore dell’ultima classe sia 210; b) Individuare il tipo di distribuzione da cui i dati provengono e verificarne l’adattamento. 2) Nella tabella che segue si riportano i valori di due tipi di valuta, il marco tedesco e lo yen giapponese, dal 1988 al 1997: anno Marco tedesco 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1.76 1.88 1.62 1.66 1.56 1.65 1.62 1.50 1.54 1.80 Yen giapponese 128.17 138.07 145.00 134.59 126.78 111.20 102.21 103.35 115.87 130.38 Verificare, utilizzando un indice appropriato, se fra il marco tedesco e lo yen giapponese esisteva una qualche interdipendenza. 3) Quali vantaggi offre una distribuzione di frequenze rispetto a una serie di valori? 4) Quando la distribuzione binomiale tende alla distribuzione di Poisson e quando, invece, alla distribuzione normale? 152 COMPITO 4 1) Due giudici di un concorso, a cui è stato domandato di ordinare 8 candidati A, B, C, D, E, F, G e H secondo la loro preferenza, hanno fatto le scelte riportate nella seguente tabella. Verificare fino a che punto i giudici si sono trovati d’accordo nelle loro scelte. Primo giudice Secondo giudice 2) 5 2 8 1 4 6 3 7 4 5 7 3 2 8 1 6 La seguente tabella mostra la distribuzione dei pesi in tonnellate supportati al massimo da certi cavi prodotti da una società: Peso massimo (tonnellate) <9.7 9.7 - 10.2 10.2 - 10.7 10.7 - 11.2 11.2 - 11.7 11.7 - 12.2 >12.2 a) b) Numero di cavi 2 5 18 27 19 6 3 c) Calcolare gli indici di asimmetria e di curtosi; adattare alla distribuzione di frequenze empiriche la distribuzione teorica che si ritiene più opportuna; verificare l’adattamento e commentare i risultati. 3) Quali sono i motivi che inducono all’uso degli indici di variabilità relativa? 4) Supposta una relazione di tipo lineare fra due variabili, come si comportano, da un punto di vista grafico, le due rette di regressione in relazione al valore assunto dal coefficiente di correlazione di Bravais-Pearson? 153 COMPITO 5 1) La tabella che segue mostra il numero dei figli di un campione di donne in età superiore ai 40 anni, che si presume abbiano portato a termine il periodo fertile; le donne sono state classificate in base al loro livello di istruzione: NUMERO DI FIGLI GRADO DI ISTRUZIONE Livello A o equivalente 0 1o2 3 o più 116 364 190 Inferiore al livello A 225 1143 721 a) Determinare la percentuale di donne per ciascun livello di istruzione e numero di figli; b) Verificare se c’è una relazione fra il livello di istruzione e il numero dei bambini nati. 2) Il Quoziente intellettivo (QI) è distribuito in modo normale con un valore medio di 100 e uno scarto quadratico medio di 15. a) Tra quali due valori si troverà il 68,2% del QI della popolazione? b) Quale proporzione della popolazione avrà un QI al di sotto di 80? c) Quale proporzione di popolazione avrà un QI tra 95 e 115? 3) Quando la distribuzione binomiale è simmetrica? 4) In base a quali criteri vengono scelte le medie più opportune? 154 COMPITO 6 1) La tabella che segue mostra il numero di giorni, in un periodo di 50 giorni, durante i quali sono avvenuti, in una certa città, X incidenti automobilistici. Adattare alla distribuzione data la distribuzione teorica che si ritiene più opportuna e specificarne il motivo: Numero di incidenti 0 1 2 3 4 2) Numero di giorni 21 18 7 3 1 Il direttore del personale di una grossa società suppone che ci sia una relazione tra l’assenteismo e l’età dei dipendenti. Si seleziona un campione di 10 lavoratori e si perviene ai seguenti risultati: lavoratore 1 2 3 4 5 6 7 8 9 10 a) b) c) d) Età Giorni di assenza 15 6 10 18 9 7 14 11 5 8 27 61 37 23 46 58 29 36 64 40 supponendo l’esistenza di una relazione lineare, applicare il metodo dei minimi quadrati per la determinazione dei coefficienti a e b della retta di regressione; interpretare il significato dei due coefficienti; determinare quanti giorni di assenza può avere, in media, un lavoratore dell’età di 50 anni; calcolare la misura della bontà di adattamento della retta ai dati osservati. 3) Se ho una distribuzione di probabilità con asimmetria positiva, come si comportano media, mediana e moda? 4) Che caratteristiche ha una distribuzione di probabilità leptocurtica? 155 COMPITO 7 1) In un palazzo di 50 appartamenti è stato rilevato il numero dei vani: 1 5 3 7 3 6 3 5 7 1 2 4 2 1 1 6 5 7 7 5 4 4 4 3 1 2 1 3 1 7 1 2 5 7 7 6 3 2 6 5 5 4 1 7 5 7 3 5 4 7 a) Costruire la distribuzione di frequenze della suddetta serie di valori; b) classificare la variabile rilevata e calcolare quelle costanti di sintesi che, per tale variabile, assumono pienezza di significato. 2) La seguente tabella mostra la distribuzione di frequenze del numero dei parti, rilevato in una clinica, nell’arco di un periodo di 100 giorni: n. parti frequenze 0 1 2 3 4 5 6 7 17 32 29 15 3 2 1 1 a) adattare alla distribuzione osservata la distribuzione teorica che si ritiene più opportuna e spiegarne le motivazioni; b) verificare, attraverso l’uso di un indice appropriato, la bontà dell’adattamento. 3) L’indipendenza in distribuzione fra due variabili statistiche implica l’indipendenza in media? Perché? Dimostrare che, per due variabili statistiche indipendenti in distribuzione, la covarianza è nulla. 4) Osservata una distribuzione di frequenza empirica asimmetrica, ha senso, in generale, calcolare un indice di curtosi? 156 COMPITO 8 1) Su di un campione di 50 professori è stato rilevato il reddito annuo in migliaia di $, come riportato nella seguente tabella: 26.209 23.253 26.399 19.876 21.619 23.602 23.602 22.447 21.864 23.602 23.413 19.313 21.455 25.072 22.981 21.669 24.740 23.602 24.772 25.784 26.120 23.449 25.110 29.598 33.675 27.129 28.775 30.831 32.701 31.728 29.187 31.728 31.728 34.161 30.010 33.675 35.133 30.657 22.897 25.818 24.450 24.904 34.134 24.740 27.540 26.120 24.772 32.701 32.701 27.129 a) costruire la distribuzione di frequenza di tale variabile, considerando classi di ampiezza costante, e realizzarne una completa analisi descrittiva; b) verificare se i dati provengono da una distribuzione di probabilità normale; solo in tal caso provare ad adattarla e a calcolare l'indice di bontà di adattamento. 2) In un collettivo di 10 studenti è stato rilevato il voto riportato all’esame di Statistica (X) e quello riportato all’esame di Storia contemporanea (Y): Studente Voto di Statistica Voto di Storia contemporanea 1 28 30 2 22 28 3 18 27 4 18 18 5 20 28 6 30 28 7 20 28 8 23 27 9 23 27 10 27 18 a) costruire la distribuzione doppia di frequenze (X,Y), considerando, per ciascuna variabile, tre classi di ampiezza costante; b) calcolare il voto mediano dell’esame di Statistica; c) stabilire se vi è indipendenza in distribuzione fra le due variabili. 3) Che valori possono assumere, rispettivamente, la variabile casuale binomiale e la variabile casuale di Poisson? 4) Indicata con σXY la covarianza fra due variabili statistiche X e Y, dimostrare che σXY = MXY-MXMY 157 COMPITO 9 1) Nella tabella che segue troviamo alcune misurazioni riguardanti la temperatura a riposo, in gradi centigradi, e il numero dei battiti cardiaci di un gruppo di soggetti maschi: n. di temperatura battiti 35,7 70 36,2 82 36,3 78 36,6 58 36,7 78 36,7 73 36,8 86 36,9 68 37,0 70 37,1 78 37,3 83 a) Rappresentare graficamente i punti osservati; b) stabilire se esiste una relazione fra le due variabili ed eventualmente individuare la funzione che rappresenti al meglio tale relazione; c) verificare se la suddetta funzione si adatta bene ai dati. 2) Un gruppo di 50 soggetti, di età compresa fra i 30 e i 60 anni, è stato suddiviso in 6 categorie in base al titolo di studio: età 34 35 38 31 37 34 33 31 32 39 titolo di studio 2 3 3 1 3 4 2 3 2 3 età 38 36 33 32 31 34 39 35 36 32 titolo di studio 4 5 5 4 4 6 4 5 4 5 età 45 48 41 37 42 43 48 49 44 47 titolo di studio 1 1 1 6 1 1 1 1 1 1 età 43 41 45 41 45 42 47 44 42 49 titolo di studio 2 3 2 1 2 4 2 3 1 2 età 56 59 51 48 54 57 55 58 51 53 titolo di studio 4 6 5 5 4 6 3 5 2 5 a) Indicata con X l’età e con Y il titolo di studio, costruire la distribuzione di frequenza doppia, considerando, per la variabile X, tre classi di ampiezza costante e pari a 10, in cui 30 è l’estremo inferiore per la prima classe e 60 l’estremo superiore dell’ultima classe; b) considerate le distribuzioni condizionate del titolo di studio rispetto all’età, verificarne la simmetria, o stabilirne il tipo di asimmetria, attraverso l’uso di un indice appropriato. 3) Dimostrare che la varianza è invariante per traslazione. 4) Descrivere quali differenze esistono tra un grafico a colonne e un istogramma. 158 COMPITO 10 1) La seguente tabella riporta la distribuzione di 70 giovani maschi a 20 anni secondo la statura (X) in metri ed il peso (Y) in kg: X/Y 50 - 60 1.61 - 1.65 8 1.65 - 1.69 1 1.69 - 1.73 0 60 - 70 9 22 6 70 - 80 2 6 14 80 - 90 0 0 2 a) misurare la dipendenza in media della variabile “peso” dalla variabile “statura”; b) misurare l’interdipendenza fra le due variabili rilevate; c) commentare i risultati. 2) Consideriamo, per le 20 regioni italiane, la raccolta differenziata dei rifiuti urbani, nell’anno 1998, attraverso le seguenti variabili: - X= percentuale sul totale dei rifiuti differenziati; - Y= Kg per abitante di rifiuti differenziati. I dati sono riportati nella seguente tabella: REGIONI Piemonte Valle d’Aosta Lombardia Trentino Alto Adige Veneto Friuli Venezia Giulia Liguria Emilia Romagna Toscana Umbria X 11 10.3 30.8 14.7 19.5 12.7 8.4 14.8 13.1 6.3 Y 49.1 51.6 138.5 80.6 88.2 58 44.5 84.8 71.1 32.7 REGIONI Marche Lazio Abruzzo Molise Campania Puglia Basilicata Calabria Sicilia Sardegna X 7.5 4.2 2.6 1.4 1.6 2.7 3.1 0.6 1 1 Y 37.7 21.7 11.3 4.6 6.6 9.7 11.7 2.3 4.9 4.4 a) stabilire attraverso un’analisi grafica, se è lecito supporre l’esistenza di una relazione lineare fra le due variabili; b) determinare e interpretare, eventualmente, i coefficienti a e b della retta di regressione, attraverso il metodo dei minimi quadrati; c) verificare, empiricamente, se la retta si adatta bene ai dati osservati. 3) Sapendo che i 3/5 dei semi contenuti in un sacco daranno fiori rossi, mentre i rimanenti daranno fiori gialli, calcolare la probabilità di ottenere esattamente 5 fiori rossi in un filare di 8 piante. 4) Quali proprietà deve possedere una funzione qualsiasi affinché possa essere definita “funzione di densità di probabilità”? 159 COMPITO 11 1) Per ciascuno dei dipendenti di un’azienda sono stati rilevati i caratteri “numero di familiari a carico” e “anzianità di servizio” (in anni). Le informazioni raccolte sono riassunte nella seguente tabella: Anzianità [0, 1) [1, 3) [3, 5) [5, 6) 0 21 9 16 7 1 26 19 18 4 Familiari a carico 2 11 14 9 8 3 12 7 15 7 4 5 17 19 8 a) Qual è la percentuale dei dipendenti dell’intero collettivo che hanno 2 familiari a carico e anzianità di servizio maggiore di 5 anni? b) Qual è la percentuale dei dipendenti con anzianità di servizio tra 3 e 5 anni, tra coloro che hanno un familiare a carico? c) Qual è la percentuale dei dipendenti che hanno 4 familiari a carico tra quelli che hanno anzianità di servizio fino a 1 anno? d) La variabile “anzianità di servizio” si può ritenere dipendente in media dalla variabile “n. di familiari a carico”? Se si, misurare tale dipendenza con un indice appropriato. 2) I seguenti dati riguardano il numero di mesi tra l’iscrizione e la laurea per 24 studenti di una determinata facoltà: 48, 84, 60, 51, 49, 48, 51, 53, 66, 76, 48, 50, 52, 54, 54, 58, 68, 60, 56, 72, 56, 54, 56, 52 a) Calcolare il numero medio ed il numero mediano di mesi impiegati per laurearsi. Per quale ragione sono diversi? b) Rappresentare graficamente la distribuzione con un diagramma a scatola e baffi (box-plot). Che forma presenta la distribuzione? Perché? c) L’indice di asimmetria di Fisher conferma le conclusioni cui si è pervenuti al punto b)? 3) Se X è una variabile casuale normale di media 0.02 e varianza 4, qual è la probabilità di osservare un valore della variabile inferiore od uguale alla sua media? 4) Cosa misura il coefficiente di correlazione di Bravais-Pearson? In quale range varia e in quali casi assume esattamente il valore minimo e il valore massimo? E’ un numero puro? Perché? 160 COMPITO 12 1) La seguente tabella riporta l’età al matrimonio di 7 coppie di sposi: Coppia 1 2 3 4 5 6 7 Età sposo 31 23 35 29 28 30 25 Età sposa 29 19 35 30 27 28 24 a) Determinare se esiste concordanza tra l’età dello sposo e l’età dello sposa, utilizzando sia il coefficiente di correlazione di Bravais-Pearson, sia l’indice ρ di Spearman. Commentare il risultato dei due indici; b) Rappresentare graficamente l’età dello sposo e l’età della sposa, determinare la migliore retta di interpolazione e misurare la bontà dell’adattamento. 2) Cinque monete sono state lanciate 1000 volte e in ciascun lancio è stato osservato il n. di teste. Nella seguente tabella è indicato il n. di lanci durante i quali sono stati ottenuti 0,1,2,3,4,5 teste: Numero di teste 0 1 2 3 4 5 Numero di lanci 38 144 342 287 164 25 a) adattare alla distribuzione osservata la distribuzione teorica che si ritiene più opportuna e spiegarne le motivazioni; b) verificare, attraverso l’uso di un indice appropriato, la bontà dell’adattamento; c) in base ai risultati ottenuti, è possibile ritenere che le monete siano non truccate? 3) Su che tipo di variabili è possibile calcolare le medie di posizione? 4) Fra gli indici di asimmetria studiati, qual è il più informativo e perché? 161 COMPITO 13 1) Una compagnia di trasporti ha stabilito che in media i propri camion coprono una distanza pari a 50000 miglia in un anno, con uno scarto quadratico medio di 12000 miglia. Si suppone, inoltre, che la distanza coperta in un anno da parte dei camion della compagnia segua approssimativamente una distribuzione normale. a) Scelto a caso un camion della compagnia, qual è la probabilità che nell’ultimo anno: - abbia coperto una distanza compresa tra 34000 e 50000 miglia; - abbia coperto una distanza superiore a 40000 miglia; b) Quanti camion su 1000 ci aspettiamo che abbiano coperto una distanza compresa tra 30000 e 60000 miglia nell’ultimo anno? c) Quante miglia ci aspettiamo che vengano percorse in un anno da una percentuale di camion pari al 50%? 2) In un collettivo di 420 volontari si è osservata la frequenza di attività di volontariato per classi di età, ottenendo la seguente distribuzione di frequenze relative percentuali: Frequenza di attività di volontariato (Y) Almeno una volta la settimana Una o più volte al mese [14, 20] 10 10 classi di età (X) ]20, 35] ]35, 55] 15 10 20 20 ]55, 60] 5 10 a) Quanti sono i volontari con età superiore a 20 anni e non superiore a 55? b) Quanti sono i volontari che prestano la loro attività almeno una volta la settimana e che hanno un’età superiore a 55 anni e non superiore a 60? c) Determinare il rapporto di correlazione dell’età dalla regolarità del servizio di volontariato. 3) Cosa vuol dire in Statistica “numero puro”? Elencare gli indici incontrati durante il corso, che possono essere definiti numeri puri, e descrivere in quali contesti vengono utilizzati e perché. 4) Determinare la media e la varianza di una combinazione lineare Y = α + βX. 162 COMPITO 14 1) La seguente distribuzione descrive il numero di particelle rilasciate durante il decadimento radioattivo del Polonio, in intervalli di 72 secondi: x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 n 57 203 383 525 532 408 273 139 45 27 10 4 0 1 1 a) adattare alla distribuzione osservata la distribuzione teorica che si ritiene più opportuna e spiegarne le motivazioni; b) verificare, attraverso l’uso di un indice appropriato, la bontà dell’adattamento. 2) Una certa zona geografica è servita da sette compagnie telefoniche. Per ciascuna compagnia è stato rilevato il costo al minuto (in centesimi di euro) per telefonate interurbane nella fascia oraria a tariffa piena (X) ed il numero di minuti di conversazione (in milioni) delle telefonate interurbane effettuate dagli abbonati nell’ultimo anno (Y). I dati raccolti sono riassunti nella seguente tabella Compagnia telefonica A B C D E F G costo al minuto X 7 10 11 9 8 12 14 n.min.di conversazione Y 0.50 1.07 1.10 0.81 0.72 1.23 1.55 a) Ricavare i valori dei coefficienti della retta di regressione col metodo dei minimi quadrati. b) Qual è la percentuale di varianza di Y spiegata dalla regressione? c) Sappiamo che il costo di un minuto di telefonata interurbana con la compagnia H è pari a 13 centesimi di euro. Sulla base del modello, qual è stato il numero di minuti medio di conversazione delle telefonate interurbane effettuate nell’ultimo anno dagli abbonati ad H? 3) Data la distribuzione di frequenze relative del carattere Y yi fi -3 0.1 -1 f2 0 f3 1 0.2 3 0.1 sapendo che la media aritmetica è pari a 0, quali sono i valori di f2 ed f3 ? 4) E’ stata calcolata la retta di regressione che lega la variabile y alla x, ricavata col metodo dei minimi quadrati. Sono stati calcolati, inoltre, il coefficiente di correlazione lineare tra le due variabili, pari a 0.8, e la varianza dei residui, pari a 29.16. Quanto vale la varianza di Y? 163 COMPITO 15 1) La seguente tabella riporta il peso, in kg, e la statura, in cm, di un gruppo di ragazze di undici anni di età: Statura 135 146 153 154 139 131 149 137 143 146 Peso 26 33 55 50 32 25 44 31 36 35 Statura 141 136 154 151 155 133 149 141 164 146 Peso 28 28 36 48 36 31 34 32 47 37 Statura 149 147 152 140 143 148 149 141 137 135 Peso 46 36 47 33 42 32 32 29 34 30 a) Costruire una distribuzione di frequenza doppia considerando, per ciascuna variabile, classi opportune di ampiezza costante; b) verificare, scegliendo un indice appropriato, se le due variabili sono interdipendenti; c) considerare la distribuzione di frequenza della variabile peso e provare ad adattare, se si ritiene possibile, la distribuzione teorica più idonea. 2) Con riferimento a molti processi industrializzati si utilizza il termine “work-in-process” (WIP). Negli impianti di fabbricazione di libri, il WIP rappresenta il tempo necessario per piegare, riunire, cucire e rilegare i fogli che provengono da una pressa. I dati che seguono sono relativi al tempo di lavorazione (tempo in giorni che intercorre tra quando i libri vengono stampati a quando sono impacchettati nei cartoni) per due campioni di 20 libri estratti da due impianti di fabbricazione: IMPIANTO A 5,62 5,29 16,25 10,92 11,46 21,62 8,45 8,58 5,41 11,42 11,62 7,29 7,5 7,96 4,42 10,5 7,58 9,29 7,54 8,92 IMPIANTO B 9,54 11,46 16,62 12,62 25,75 15,41 14,29 13,13 13,71 10,04 5,75 12,46 9,17 13,21 6 2,33 14,25 5,37 6,25 9,71 Per ciascuno dei due impianti: a) calcolare le medie e gli indici di variabilità più appropriati; b) costruire il diagramma scatola e baffi; c) in base alle risposte date ai punti a) e b), si può ritenere che ci siano differenze tra i due impianti? 3) In corrispondenza di quali valori la distribuzione di probabilità normale presenta i punti di massimo e di flesso? 4) Come si definisce la funzione di ripartizione per una variabile casuale continua? 164 COMPITO 16 1) Il manager di una catena di supermercati intende stabilire in quale maniera la vendita di cibo per animali è influenzata dallo spazio sugli scaffali destinato al prodotto. La seguente tabella riporta i valori dello spazio sugli scaffali (in piedi) e dell’ammontare delle vendite settimanali di cibo per animali (in migliaia di dollari), in 12 supermercati della medesima grandezza: Vendite settimanali 1,6 2,2 1,4 1,9 2,4 2,6 2,3 2,7 2,8 2,6 2,9 3,1 5 5 10 10 10 15 15 15 20 20 20 Spazio sugli scaffali 5 a) Disegnare il diagramma di dispersione per i dati della tabella; b) nell’ipotesi che tra le due variabili sussista una relazione lineare, stimare con il metodo dei minimi quadrati i coefficienti di regressione b0 e b1; c) fornire un’interpretazione di b1; d) prevedere l’ammontare delle vendite settimanali di cibo per animali se lo spazio destinato ai prodotti è uguale a 8 piedi; e) verificare, attraverso un indice appropriato, se la funzione lineare si adatta bene ai dati osservati. 2) La seguente tabella mostra il numero di tornado verificatisi, in una certa area geografica, tra gli anni 1959 e 1988: Anno 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 4 5 1 3 1 5 1 2 2 7 4 5 6 6 Tornado 3 Anno 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 3 7 5 8 3 4 3 3 8 6 7 9 6 5 Tornado 6 a) Costruire la distribuzione di frequenze della variabile “numero di tornado”; b) individuare la distribuzione teorica che meglio rappresenta la distribuzione osservata e provare ad adattarla; c) verificare, attraverso un indice di bontà di adattamento, se il modello teorico scelto descrive bene i dati osservati. 3) Se la distribuzione di un certo carattere ha media aritmetica pari a 5 e coefficiente di variazione pari a 2, quanto vale la varianza? 4) Se la media aritmetica di una distribuzione di frequenza è pari a zero vuol dire che: a) il numero delle unità su cui è stato rilevato un valore positivo della variabile è sempre pari al numero delle unità su cui è stato rilevato un valore negativo; b) l’ammontare complessivo della variabile rilevato sulle unità che presentano valori positivi è pari all’ammontare complessivo rilevato sulle unità che presentano valori negativi; c) la variabilità della distribuzione è nulla. 165 COMPITO 17 1) In un collettivo di pazienti sono stati rilevati la quantità di colesterolo in milligrammi per 100 millilitri di sangue ed il genere. Dallo spoglio delle osservazioni si è ottenuta la seguente distribuzione doppia di frequenze: Colesterolo [120, 160] ]160, 180] ]180, 200] ]200, 240] ]240, 300] a) b) c) d) Maschio 40 10 20 10 45 Femmina 20 12 10 20 10 Rappresentare graficamente la distribuzione del colesterolo; Calcolare la media del colesterolo per ciascun genere; Calcolare la classe mediana del colesterolo per i maschi; Stabilire quale delle due distribuzioni è più variabile. 2) Si consideri la distribuzione dei laureati del 1991 per gruppo di corso di laurea e condizione occupazionale nel 1993: X\Y Occupato stabilmente Medicina Economia Lettere 681 732 770 Occupato precariamente 466 72 585 Disoccupato 118 18 147 a) Determinare la distribuzione percentuale rispetto alla condizione occupazionale all’interno dei laureati in Medicina e confrontarla con quella dei laureati in Economia e con quella dei laureati in lettere; b) Determinare la distribuzione percentuale rispetto al tipo di laurea degli occupati stabilmente e confrontarla con quella degli occupati precariamente e con quella dei disoccupati; c) Determinare la distribuzione marginale del collettivo rispetto alla condizione occupazionale; d) Determinare la distribuzione marginale del collettivo rispetto al corso di laurea; e) Trovare le tabelle teoriche di perfetta indipendenza; f) Calcolare l’indice X2 e commentare il risultato. 3) Da quanti e quali parametri sono caratterizzate, rispettivamente, le distribuzioni binomiale e di Poisson? In che relazione sono tali parametri con la media e la varianza delle due variabili casuali? 4) Quali sono i limiti dell’indice di associazione X2 e degli indici da esso derivati? 166 COMPITO 18 1) E’ stato rilevato il numero di schedine giocate al Superenalotto nell’ultimo mese da 100 famiglie, classificate per area geografica di residenza: Residenza Centro 10 20 10 n. di schedine Nord 0-| 5 10 5-| 25 5 25-| 60 0 Sud 0 15 30 a) Tra tutti i residenti del Nord, qual è la frequenza relativa delle famiglie che hanno giocato un n. di schedine minore o uguale a 5? b) Tra i residenti al centro, qual è la classe modale? c) Qual è la percentuale delle famiglie residenti al sud che hanno giocato più di 25 schedine? d) Qual è il n. medio di schedine giocate per famiglia? 2) Con riferimento alla tabella precedente: a) Calcolare, se si ritiene possibile, l’indice X2 di Pearson ed eventualmente specificare quali indicazioni fornisce; b) individuare quale variabile può dipendere “in media” dall’altra e misurare tale dipendenza con un indice opportuno; c) spiegare i motivi per cui è possibile o meno definire il coefficiente di correlazione lineare di Bravais-Pearson tra le due variabili in esame. 3) Indichiamo con σX lo scarto quadratico medio della distribuzione della variabile X in una data popolazione. Se i valori della variabile Y si ottengono da quelli di X tramite la 1 trasformazione Y= - X, qual è il valore della varianza di Y? 3 4) Se, dopo aver rilevato n osservazioni x1, x2,……, xn , ricaviamo che la media è MX=1 e la varianza è σ2X=1, allora a quanto sarà pari 1 n 2 ∑ xi ? n i =1 167 COMPITO 19 1) Consideriamo la distribuzione del numero di impiegati di un’azienda rispetto all’età ed al fatto che abbiano ottenuto o meno un avanzamento di carriera nell’ultimo anno: età (in anni) [18; 50) [50; 65] avanzamento di carriera no si 36 84 24 56 a) Qual è la frequenza relativa degli ultra-cinquantenni che non hanno ottenuto un avanzamento di carriera nell’ultimo anno? b) Qual è la frequenza relativa di coloro che hanno ottenuto un avanzamento di carriera nell’ultimo anno, tra tutti i dipendenti che hanno meno di 50 anni? c) Qual è l’età media di coloro che hanno avuto un avanzamento di carriera nell’ultimo anno? d) E’ possibile stabilire se i due caratteri rilevati (età e avanzamento o meno di carriera) sono indipendenti linearmente? Perché? e) E’ possibile stabilire se uno dei due caratteri rilevati è indipendente in media dall’altro? Se si, calcolare un indice che confermi l’eventuale indipendenza e commentarne il risultato. 2) Per 10 paesi gli incrementi percentuali verificatisi fra il 1985 e il 1990 relativamente a due grandezze economiche sono risultati i seguenti: Paesi Australia Canada Francia Germania Italia Giappone Messico Spagna Gran Bretagna U.S.A. Reddito 3,5 2,5 3,5 3,5 3,5 5,0 4,5 4,0 3,5 2,5 Spesa per il turismo 2,2 3,1 2,8 2,5 3,1 6,3 0,6 5,2 1,2 2,4 a) Stimare l’equazione della retta che esprime la Spesa per il turismo in funzione del Reddito; b) Misurare, mediante un opportuno indice, la bontà di adattamento della retta ai dati; c) La variabile dipendente si può ritenere simmetrica? 3) Il tempo (in minuti) che un treno Regionale impiega per andare da Pianoverde a Monterosso ha distribuzione normale di media 30 e varianza 1. Sull’orario dell’azienda che gestisce la ferrovia è indicato un tempo di percorrenza di 32 minuti. Qual è la probabilità che un treno non arrivi in ritardo? 4) Se la covarianza tra due variabili X e Y è pari a 0.1, mentre Var(X) = 1 e Var(Y ) = 0.011, a cosa sarà uguale Var(X+Y)? 168 COMPITO 20 1) Dopo l’analisi di 80 nidi di una specie di volatili, viene costruita la distribuzione del numero di piccoli sopravvissuti: X n 0 1 2 3 4 totale 8 15 20 22 15 80 a) Rappresentare graficamente la distribuzione osservata; b) Provare ad adattare la distribuzione teorica che si ritiene più idonea; c) Verificare, attraverso l’uso di un indice appropriato, se il modello teorico scelto si adatta bene ai dati empirici. 2) In un’indagine svolta su un campione di famiglie, è stata rilevata la distribuzione congiunta del reddito (in euro) del capofamiglia (Y) e del coniuge (X): X 500 1000 1500 Y 1000 10 8 3 1500 14 15 5 2000 13 12 7 2500 5 7 4 a) Calcolare la media e la varianza della distribuzione dei redditi del capofamiglia e del coniuge. Quale delle due presenta una più marcata variabilità? b) Verificare se le due variabili sono interdipendenti linearmente. c) Calcolare la media e la varianza di Z=X+Y 3) Uno studente ha programmato di sostenere gli esami A e B in una determinata sessione. In base alla sua preparazione ritiene che la probabilità di superare l’esame A sia pari a 0.7, la probabilità di superare l’esame B sia 0.5, mentre la probabilità di superarli entrambi sia 0.4. Qual è la probabilità che lo studente superi almeno uno dei due esami? 4) Su ciascuno dei 63 studenti che seguono un certo corso di studi si rileva la variabile X=numero degli esami superati. I risultati ottenuti sono riassunti nella seguente tabella, dove con Fi sono state indicate le frequenze relative cumulate: X Fi 0 0.1 1 0.3 2 0.3 3 0.6 Quanti studenti hanno superato esattamente due esami? 169 4 0.8 5 1 COMPITO 21 1) Un produttore di pile per lampade tascabili vuol confrontare la durata di vita di due diverse tipologie di pile prodotte nei propri impianti. Le rilevazioni dei tempi di vita delle pile di tipo I e di quelle di tipo II sono riassunte nella seguente distribuzione di frequenze percentuali cumulate: tempo di vita (in ore) (200, 300] (300, 400] (400, 500] (500, 600] (600, 700] % cumulata tipo II 30 50 90 100 100 % cumulata tipo I 10 30 50 90 100 a) Qual è il valore della mediana della distribuzione della durata delle pile di tipo I e di quelle di tipo II? b) Il 30% delle pile ha avuto una durata minore o uguale a quale valore? c) In base alle informazioni ottenute da opportuni indici di sintesi, spiegare qual è nel complesso il tipo di pila che risulta più affidabile. 2) Durante un sondaggio sulle abitudini dei clienti abituali di un supermercato, su ciascuno dei clienti intervistati è stato rilevato il carattere “distanza", misurata attraverso il tempo in minuti occorrente per raggiungere in auto il supermercato dall'abitazione, ed il numero di volte in cui il cliente si è recato nel supermercato per fare la spesa, nelle ultime due settimane. La distribuzione doppia è riassunta nella seguente tabella: distanza (0, 2] n. spese 1 7 2 17 3 10 4 10 5 8 (2, 5] 10 6 9 17 12 (5, 10] (10, 15] 6 13 7 12 8 14 16 10 6 2 a) Ricavare la distribuzione del carattere “distanza" nell'intero collettivo e rappresentarla graficamente in modo opportuno; b) Misurare la dipendenza in media della variabile “n. di spese” dalla variabile “distanza”. 3) Si considerino 10 dipendenti, scelti a caso tra quelli che lavorano in un’azienda, e si indichi con X il numero delle donne. Il numero di donne presenti in azienda è pari al 70% del totale dei dipendenti. a) Qual è la distribuzione di probabilità della variabile casuale X ? b) Qual è la probabilità che 9 dei dipendenti, tra i 10 considerati, siano donne? c) Qual è il numero medio di dipendenti donna, tra i 10 considerati? 4) Nel palazzetto dello sport è in corso una partita di pallacanestro. La media delle altezze dei cinque giocatori della Virtus è di 186,6 cm, mentre la varianza è pari a 15,44 cm2. Durante un cambio esce il giocatore alto 180 cm. Qual è la media e la varianza delle altezze dei 4 giocatori che restano in campo? 170