Concetti Introduttivi della Statistica Antonio Punzo Antonio Punzo - Università di Catania, Dipartimento di Economia e Impresa; [email protected] Orario delle lezioni: Martedı̀, ore 16:00-18:00, Palazzo Fortuna, Aula D. Mercoledı̀, ore 18:00-20:00, Palazzo Fortuna, Aula D. Orario di ricevimento: Venerdı̀ ore 11:00-13:00, Palazzo delle Scienze, 3° piano, Stanza 24 Testo di riferimento: Zenga, M. (2007), Lezioni di Statistica Descrittiva, Giappichelli Editore, Torino Antonio Punzo Concetti Introduttivi della Statistica Modalità d’esame L’esame consiste in un elaborato scritto (tesina) che segua le seguenti modalità: può essere redatto in italiano o inglese; gli argomenti del corso (non necessariamente tutti) devono essere applicati ad un data set reale reperibile, ad esempio, al link: http://archive.ics.uci.edu/ml/datasets.html Per le analisi occorre utilizzare il software statistico R che verrà introdotto nella parte finale del corso. N.B. R contiene al suo interno degli interessanti data set. L’elaborato deve pervenirmi, tramite mail, qualche giorno prima rispetto alla data di esame (almeno 3 giorni prima). In sede di esame, lo studente è tenuto a: descrivere l’elaborato prodotto; rispondere ad eventuali domande che possono vertere sull’intero programma. Antonio Punzo Concetti Introduttivi della Statistica Alcuni termini tecnici propri della statistica Popolazione è qualsiasi insieme di elementi che forma oggetto di uno studio statistico. Unità statistica è l’elemento di base della popolazione sul quale viene effettuata la rilevazione o la misurazione di uno o più fenomeni oggetto dell’indagine. Osservazione Ad esempio, la famiglia può essere un’unità statistica se si rileva il numero dei suoi componenti, ma è composta da varie unità statistiche se si misura l’altezza dei suoi componenti adulti. Carattere è il fenomeno oggetto di studio, indicato usualmente con la lettera maiuscola X , rilevato o misurato sulle unità statistiche. E’ tipico dei fenomeni reali di interesse statistico che i caratteri assumano valori differenti nelle varie unità statistiche. Modalità è l’espressione concreta del carattere nelle unità statistiche, cioé il numero (per caratteri quantitativi) o l’attributo (per caratteri qualitativi) che l’unità statistica manifesta. Antonio Punzo Concetti Introduttivi della Statistica Il concetto di Popolazione Dalla definizione precedente si capisce che in statistica il vocabolo “popolazione” ha un significato più ampio di quello che si usa in demografia. In effetti, in demografia, con il vocabolo popolazione si intende l’insieme delle persone viventi in un’area geografica ad una determinata data. Quando si afferma che la popolazione italiana ammontava (Fonte ISTAT) a 56.996.000 nel 2001, si intende indicare il numero delle persone residenti in Italia alla data dell’ultimo censimento (21 ottobre 2001). Esempi di popolazione statistica In statistica si ha un significato più ampio in quanto le unità statistiche possono essere di varia natura: possono essere alberghi se si vuole studiare la struttura alberghiera di una provincia e si avrà cosı̀, per esempio, la popolazione degli alberghi della provincia di Catania nell’anno 2014; possono essere le diverse università italiane se si vuole analizzare la struttura universitaria italiana e si otterrà cosı̀ la popolazione delle università italiane, ad esempio, nell’anno accademico 2014-2015. Osservazione Assume un ruolo importante il concetto di popolazione nella partizione della statistica in: statistica descritiva e statistica inferenziale. Antonio Punzo Concetti Introduttivi della Statistica Partizioni della statistica Esistono due tipi di analisi statistiche (descrittiva ed inferenziale) che si caratterizzano in base alla tipologia di dati a disposizione. Statistica descrittiva La statistica descrittiva si occupa di descrivere con opportuni metodi (procedure) le caratteristiche più salienti dei fenomeni oggetto di indagine rilevabili sulle singole unità statistiche. Queste descrizioni non sono altro che processi di sintesi. Le sintesi (indici, tabelle, grafici, ecc.) si effettuano per avere una maggiore manegevolezza dei dati. Osservazione Nella statistica descrittiva i dati rilevati si riferiscono spesso all’intera popolazione di interesse, per cui il loro studio può esaurire le finalità della ricerca. Statistica inferenziale La statistica inferenziale (o induttiva) predispone i metodi “probabilistici” che permettono di estendere le sintesi campionarie a tutta la popolazione di interesse (determinazione della numerosità del campione, scelta delle unità della popolazione che devono far parte del campione, valutazione del grado di attendibilità delle estensioni delle sintesi, ecc.). Osservazione Inferire vuole infatti dire: trarre delle conclusioni logiche “generali” a partire dai dati disponibili. Antonio Punzo Concetti Introduttivi della Statistica Formazione dei dati statistici 1/5 Per raccogliere i dati bisogna innanzitutto individuare la popolazione di interesse ovvero le unità statistiche che la compongono. Dalle unità statistiche bisogna formare (ricavare) i dati statistici. Avvertenza Ovviamente non sempre i dati già disponibili sono pienamente soddisfacenti per le finalità delle “proprie” ricerche. Esempio Spesso si utilizzano dati raccolti e pubblicati da vari enti pubblici. In Italia sono molto importanti le pubblicazioni dell’Istituto Centrale di Statistica, delle Regioni, di alcuni comuni importanti, di alcuni Ministeri e della Banca d’Italia. Di una certa importanza per i confronti internazionali sono anche le pubblicazioni dell’Istituto Europeo di Statistica (Euro-Stat) con sede in Lussemburgo. Antonio Punzo Concetti Introduttivi della Statistica Formazione dei dati statistici 2/5 Dopo aver precisato la popolazione di interesse bisogna determinare i caratteri da rilevare. In effetti ogni unità statistica concreta è portatrice di molti fenomeni: bisogna individuare quelli utili all’indagine. Esempio Supponiamo che la popolazione di interesse sia costituita dalle matricole iscritte alla data del 31/10/2013 al corso di Laurea in Economia Aziendale presso l’Università di Catania. Supponiamo che il numero totale di tali matricole sia N = 407. In questo caso l’unità statistica è la singola matricola. Per ciascuna matricola si possono considerare tantissimi caratteri, quali: il sesso, la regione di nascita, l’età, l’altezza, il peso, il tipo di maturità, il voto all’esame di maturità, la professione del padre, il reddito della famiglia, il tempo che impiega per raggiungere l’Università, ecc. Osservazione Nel selezionare i caratteri bisogna sempre tenere presente che: ogni carattere non interessante per la ricerca che venga preso in considerazione, può appesantire inutilmente la ricerca; viceversa, un carattere utile che non venga preso in considerazione può inficiare la ricerca stessa. Antonio Punzo Concetti Introduttivi della Statistica Formazione dei dati statistici 3/5 Dopo aver individuato i caratteri da considerare bisogna prevedere le modalità con le quali gli stessi si possono presentare. Se consideriamo il carattere “sesso” delle matricole le modalità sono: maschio e femmina. Se consideriamo il “tipo di maturità” le modalità sono: liceo classico, liceo scientifico, istituto commerciale, ecc. Osservazione Questa semplificazione, cioè la sostituzione delle unità reali con i caratteri e le modalità prescelte, permette di aggregare le unità aventi le stesse modalità. Esempio Tornando alle N = 407 matricole, possiamo considerare le matricole dello stesso sesso uguali e quindi sommarle ed ottenere, per esempio, 211 maschi e 196 femmine. È ovvio che due matricole dello stesso sesso possono differire per l’altezza, per il peso, ecc. Antonio Punzo Concetti Introduttivi della Statistica Formazione dei dati statistici 4/5 Nell’individuare la lista delle modalità di un carattere bisogna fare in modo che 1 le modalità siano fra loro incompatibili; 2 la lista sia esaustiva. Incompatibilità La proprietà dell’incompatibilità fra le modalità significa che prese due qualsiasi modalità l’una deve escludere l’altra, di modo che sarà possibile assegnare inequivocabilmente una sola modalità ad ogni unità statistica della popolazione. Esempio Supponiamo che per il carattere X =“luogo di nascita” delle matricole si sia predisposta la seguente lista: 1 Comune di Catania 2 Provincia di Catania 3 Altre provincie della Sicilia 4 Altre regioni Italiane Con questa lista, che non soddisfa la proprietà dell’incompatibilità, una matricola nata a Catania si vedrebbe assegnata sia la modalità “Comune di Catania” che la modalità “Provincia di Catania”. La seguente lista soddisfa la proprietà della incompatibilità: 1 Comune di Catania 2 Altri comuni della Provincia di Catania 3 Altre provincie della Sicilia 4 Altre regioni Italiane Antonio Punzo Concetti Introduttivi della Statistica Formazione dei dati statistici 5/5 Esaustività La proprietà dell’esaustività significa che ad ogni unità del gruppo di rilevazione si debba poter attribuire una modalità. Esempio Supponiamo ora che una matricola sia nata a Tirana (capitale dell’Albania). A questa matricola non possiamo attribuire nessuna modalità dell’ultima lista, ovvero l’ultima lista non è esaustiva. Se alla lista precedente aggiungiamo la modalità estero si ha la seguente lista che soddisfa sia la proprietà dell’esaustività che quella dell’incompatibilità: 1 Comune di Catania 2 Altri comuni della Provincia di Catania 3 Altre provincie della Sicilia 4 Altre regioni Italiane 5 Estero Antonio Punzo Concetti Introduttivi della Statistica Natura dei caratteri La tradizione statistica italiana divide i caratteri in qualitativi: contraddistinti da modalità espresse da categorie, vocaboli, espressioni verbali, ecc. (ad esempio il sesso, il luogo di nascita ed il titolo di studio); quantitativi: contraddistinti da modalità che esprimono delle quantità o misure che sono espresse numericamente (ad esempio il numero di figli, il peso ed il reddito). I caratteri quantitativi si dividono a loro volta in: discreti, caratterizzati dal fatto che le modalità possono assumere solo un numero finito, o al più numerabile, di valori (ad esempio il carattere numero di figli). N.B.: Si parla di modalità al più numerabili quando, data una modalità, si riesce sempre a stabilire quella successiva. Trattasi per lo più di caratteri le cui modalità si ottengono con un conteggio. continui, caratterizzati dal fatto che le modalità possono assumere “ipoteticamente” tutti i valori compresi in un intervallo (a, b), con b > a (ad esempio peso ed altezza). N.B.: Tali caratteri esistino solo “ipoteticamente” a causa della precisione degli strumenti con cui si ottengono le misurazioni. Antonio Punzo Concetti Introduttivi della Statistica Scale di misurazione 1/2 La specificazione delle modalità di un carattere può presentare difficoltà. Esempio Si pensi al carattere X : “professione dei residenti con età superiore a 18 anni”. In molti casi l’insieme delle modalità è suggerito dal linguaggio comune ed è generalmente accettato. Non mancano situazioni in cui non esiste una specificazione consolidata. In questi casi è il ricercatore che non solo fissa le categorie (modalità) che ritiene di aspettarsi ma anche il criterio di appartenenza alle diverse categorie della lista. Queste situazioni sono molto frequenti nelle scienze sociali. Esempio Si pensi alla classe sociale (bassa, media, alta), alla categoria degli esercizi alberghieri (una stella, due stelle, tre stelle, quattro stelle, cinque stelle). Quando uno studioso fissa la lista delle modalità di un carattere ed indica i criteri di appartenenza alle stesse, “costruisce” una scala di misurazione del carattere. Osservazione Una lista di modalità (scala) di un carattere non è parte del carattere in quanto scaturisce dalla definizione operativa della scala stessa. Ciò significa che per uno stesso carattere si possono individuare più scale. Esempio Si pensi al carattere “grandezza” di un terremoto: si utilizzano le modalità sia della scala Mercalli che della scala Richter. Trattasi di due scale convenzionali che fanno dipendere le modalità del carattere dagli effetti del terremoto su edifici, strutture, ecc. Antonio Punzo Concetti Introduttivi della Statistica Scale di misurazione 2/2 Le scale di misurazione delle modalità di un carattere – che differiscono per le relazioni (operazioni) logico-matematiche istituibili fra le modalità – si dividono in: nominale quando fra le modalità di un carattere qualitativo non è possibile istituire nessun ordinamento (ad esempio il sesso). Prendendo due unità statistiche della popolazione è solo possibile affermare se posseggono o meno la stessa modalità. In questi casi le modalità si possono scrivere in un ordine qualsiasi. ordinale quando è possibile istituire un ordine naturale fra le modalità di un carattere qualitativo (ad esempio il titolo di studio). N.B.: Su tali modalità non ha senso effettuare differenze e rapporti, ma è solo possibile impiegare le relazioni di “>”, “<”, “=”. di intervalli quando le modalità di un carattere quantitativo si posizionano su un continuum in cui lo zero è convenzionale perché non rappresenta l’assenza del carattere (ad esempio la temperatura espressa in gradi Celsius). Su tali modalità ha senso valutare delle differenze, corrispondenti a lunghezze di intervalli. di rapporti quando le modalità di un carattere quantitativo si posizionano su un continuum in cui lo zero è assoluto perché rappresenta l’assenza del carattere (ad esempio il reddito e la temperatura espressa in gradi Kelvin). Su tali modalità è possibile effettuare rapporti. Antonio Punzo Concetti Introduttivi della Statistica Osservazione sulle scale ordinali Esempio Esempio di carattere qualitativo con scala ordinale è la “categoria alberghiera” che si estrinseca nelle modalità: 1 stella, 2 stelle, 3 stelle, 4 stelle, 5 stelle. È ovvio che per la categoria alberghiera: 1 stella < 2 stelle < 3 stelle < 4 stelle < 5 stelle. N.B.: in questo caso il numero di stelle non indica una quantità ottenuta con una misurazione e non è quindi possibile affermare che fra gli alberghi a 5 stelle e quelli a 2 stelle vi è la stessa differenza di categoria esistente fra quelli a 4 stelle con quelli a una stella. Osservazione Nelle scale ordinali, anche quando le modalità sono espresse con numeri, non si possono effettuare sugli stessi le normali operazioni di addizione, sottrazione, divisione e moltiplicazione. Sulle modalità di due unità è solo possibile impiegare le relazioni: “maggiore di”, “minore di” ed “uguale a”. Antonio Punzo Concetti Introduttivi della Statistica Scale di intervalli versus scale di rapporti 1/2 Osservazione Su un carattere quantitativo è possibile alcune volte applicare sia scale di intervalli che scale di rapporti. L’esempio classico è la temperatura di un corpo che può essere espressa in gradi centigradi °C ed in gradi Kelvin K . Nel caso dei gradi centigradi il valore 0 è convenzionale e corrisponde alla temperatura del ghiaccio fondente. In effetti temperatura 0 non significa assenza di temperatura, infatti si possono avere temperature negative: −10°C. Si ha assenza di calore a -273°C (è lo zero assoluto dei Fisici). Prese due unità statistiche (e le rispettive due temperature): 1 è possibile affermare innanzitutto se le modalità sono uguali o meno (come nella scala nominale); 2 se non sono uguali si può indicare quale sia minore dell’altra come nel caso dei caratteri qualitativi su scala ordinale; 3 è possibile effettuare la differenza fra 2 modalità; 4 siccome lo 0 è convenzionale, non si può fare il rapporto fra due modalità. Antonio Punzo Concetti Introduttivi della Statistica Scale di intervalli versus scale di rapporti 2/2 Si supponga che la temperatura di un corpo A sia di C1 = 30◦ centrigadi e quello di un corpo B sia di C2 = 60◦ centigradi. 1 È possibile affermare che la differenza fra la temperatura dei due corpi è pari a C2 − C1 = 30◦ centigradi. 2 Non ha però senso effettuare il rapporto C2 /C1 = 2 ed affermare che la temperatura di B sia doppia di quella di A. Per sapere quante volte la temperatura di B contiene quella di A bisogna adottare la scala con lo zero assoluto cioè la scala Kelvin. I gradi Kelvin si ottengono aggiungendo 273 ai gradi centigradi. Si ha cosı̀ K1 = 30◦ + 273◦ = 303◦ gradi Kelvin e K2 = 60◦ + 273◦ = 333◦ gradi Kelvin. La differenza fra K2 e K1 è di 30◦ gradi Kelvin, il rapporto 333◦ K2 = = 1.0990099 K1 303◦ indica che la temperatura di B è circa il 10% più grande di quella di A. Antonio Punzo Concetti Introduttivi della Statistica Gerarchia tra le scale di misurazione Natura del carattere % carattere qualitativo & Scala di misurazione scala nominale ↓ scala ordinale ↓ % carattere quantitativo (discreto o continuo) scala di intervalli ↓ & scala di rapporti Antonio Punzo Concetti Introduttivi della Statistica La matrice dei dati Definizione La matrice dei dati associa, in un pre-determinato ordine, ad ogni unità statistica le modalità rilevate per ciascun carattere. Generalmente, in una matrice dei dati: ciascuna riga viene riservata ad una unità statistica; ciascuna colonna viene riservata ad un carattere. Date N unità statistiche e p caratteri X1 , X2 , . . . , Xj , . . . , Xp , una matrice dei dati è uno schema a doppia entrata che in generale si può schematizzare come segue: Unità statistica 1 2 .. . i .. . N X1 x11 x21 .. . xi1 .. . xN1 X2 x12 x22 .. . xi2 .. . xN2 CARATTERI ... Xj ... x1j ... x2j .. .. . . ... xij .. . ... xNj ... ... ... ... .. . ... Xp x1p x2p .. . xip .. . xNp dove xij indica la modalità del carattere Xj riscontrata nella i-esima unità. 0 Il vettore colonna x1j , x2j , . . . , xij , . . . , xNj indica le modalità del carattere Xj riscontrate nelle N unità. Il vettore riga xi1 , xi2 , . . . , xij , . . . , xip indica le modalità dei p caratteri riscontrate nell’i-esima unità statistica. Antonio Punzo Concetti Introduttivi della Statistica Preparazione dei dati e delle tabelle statistiche A partire dalla matrice dei dati, è preferibile riportare i dati statistici in tabelle. Le tabelle devono essere redatte in modo che il lettore possa comprendere il significato dei dati riportati senza dover ricorrere ad altre letture. È essenziale che la tabella abbia una intestazione che indichi la popolazione (il campione) di riferimento ed il carattere (o i caratteri) esaminato. Esempio per carattere qualitativo Tipo di maturità Liceo Classico Liceo Scientifico Liceo Linguistico Istituto Tecnico Commerciale Ragioneria Geometra Altro Totale Frequenze assolute 113 754 43 82 754 25 31 1802 Table: Studenti iscritti alla graduatoria per l’iscrizione al Corso di Laurea in Economia e Commercio, secondo il tipo di maturità (Università degli Studi di Milano; A.A. 1995/1996). Antonio Punzo Concetti Introduttivi della Statistica Distribuzione di frequenza 1/3 Definizione Per distribuzione di frequenza si intende la successione delle modalità di un carattere e delle corrispettive frequenze riscontrate in una popolazione (o campione). Il vocabolo “distribuzione” è impiegato perchè la tabella specifica come il totale della popolazione (o campione) è ripartito (si distribuisce) fra le modalità del carattere. Distribuzione di frequenza di un carattere qualitativo La distribuzione di frequenza di un carattere qualitativo è detta mutabile statistica. Una generica mutabile statistica di un carattere qualitativo A può essere indicata con il seguente insieme delle s coppie aj , nj aj , nj ; j = 1, 2, . . . , s , essendo s il numero delle modalità, aj la generica modalità ed nj la frequenza di aj . Esempio Titolo di studio Senza titolo di studio e licenza elementare Licenza media inferiore Licenza media superiore Laurea Totale # Maschi 27000 56300 29400 7100 119800 # Femmine 8900 31000 21600 3800 65300 Table: Occupati secondo il sesso ed il titolo di studio in provincia di Trento nell’anno 1990. Antonio Punzo Concetti Introduttivi della Statistica Distribuzione di frequenza 2/3 Distribuzione di frequenza di un carattere quantitativo discreto La distribuzione di frequenza di un carattere quantitativo è detta variabile statistica. Nel caso di un carattere quantitativo discreto X la variabile statistica può essere indicata come segue xj , nj ; j = 1, 2, . . . , s essendo x1 , x2 , . . . , xj , . . . , xs i valori diversi assunti dalla variabile statistica X . Esempio Numero di figli maschi 0 1 2 3 4 5 6 7 8 Totale Numero delle famiglie (nj ) 215 1485 5331 10649 14959 11929 6678 2092 342 53680 Table: Famiglie con 8 figli classificate secondo il numero di figli maschi (Famiglie numerose della Sassonia 1876-1885). Antonio Punzo Concetti Introduttivi della Statistica Distribuzione di frequenza 3/3 Distribuzione di frequenza di un carattere quantitativo continuo Se il carattere quantitativo è di tipo continuo i dati, se numerosi, vengono raggruppati in classi. In questo caso bisogna formare la lista delle classi. Le classi diventano cosı̀ le modalità del carattere. Consegue che la lista delle classi deve essere esaustiva e le classi devono essere fra loro incompatibili. Esempio (l’incompatibilità delle classi è garantita) Reddito (migliaia di lire) 0 a 2000 2000 a 3000 3000 a 4000 4000 a 5000 5000 a 6000 6000 a 7000 7000 a 8000 8000 a 9000 9000 a 10000 10000 a 12000 12000 a 15000 oltre 15000 Totale Frequenze nj 201 301 373 229 213 244 332 329 337 469 402 581 4011 Table: Distribuzione dei redditi individuali. Indagine campionaria della Banca d’Italia, anno 1982. Antonio Punzo Concetti Introduttivi della Statistica Ampiezza di una classe di un carattere quantitativo continuo Definizione Nel caso dei caratteri quantitavi continui per ampiezza di una classe si intende la lunghezza dell’intervallo della classe ovvero: ampiezza = estremo superiore − estremo inferiore . Esempio La classe 9.000 a 10.000 della distribuzione precedente ha una ampiezza di: 10.000 − 9.000 = 1.000 migliaia di lire, cioè un milione di lire. L’ultima classe ha l’estremo superiore non precisato. Si dice che questa classe è aperta superiormente. Alcune volte non è indicato l’estremo inferiore della prima classe: si ha cosı̀ una classe aperta inferiormente. Antonio Punzo Concetti Introduttivi della Statistica Ampiezza di una classe di un carattere quantitativo discreto Definizione Nel caso dei caratteri quantitativi discreti per ampiezza di una classe si intende il numero delle modalità della stessa. Esempio Voto 36 − 38 39 − 41 42 − 44 45 − 49 50 − 54 55 − 57 58 − 60 Totale Frequenze (nj ) 40 45 97 115 109 17 32 451 Table: Matricole della Facoltà di Economia classificate secondo il voto di maturità espresso in sessantesimi (Università degli Studi di Milano; A.A. 1992-1993). Osservazione Nel caso di una variabile che assume valori pari ai numeri interi, come nell’esempio sopra, si ha: ampiezza = estremo superiore − estremo inferiore + 1. La classe 45 − 49 comprende i seguenti 5 voti: 45, 46, 47, 48, 49. In effetti l’ampiezza è pari a 49 − 45 + 1 = 5. Antonio Punzo Concetti Introduttivi della Statistica Osservazioni su numero e ampiezza delle classi Il numero delle classi e l’ampiezza delle stesse dipendono da tanti fattori. L’importanza di N Fra questi ha notevole importanza il numero totale delle osservazioni: all’aumentare dell’ampiezza totale della popolazione si può aumentare il numero delle classi e quindi si può ridurre l’ampiezza delle stesse. Avvertenza Aumentando l’ampiezza delle classi si perdono informazioni. Viceversa, con ampiezze piccole si corre il rischio, se la numerosità totale non è elevata, di avere poche osservazioni in alcune classi. Ad ogni modo si ritiene che anche per numerosità elevate non bisogna prevedere più di una ventina di classi. Osservazione A volte è utile un’ampiezza fissa delle classi ed a volte una variabile. Esempio Per molti fenomeni economici, come il reddito, si prevedono ampiezze crescenti al crescere dei valori del fenomeno. Avvertenza Evitare la predisposizione di classi senza frequenze o con frequenze molto piccole. Antonio Punzo Concetti Introduttivi della Statistica Trattamento statistico-matematico dei dati Con la formazione dei dati statistici si sono ottenute le distribuzioni di frequenza. Le distribuzioni di frequenza ottenute sintetizzando opportunamente la matrice dei dati contengono ancora molti dati che risultano poco maneggevoli sia per la descrizione degli aspetti più significativi dei fenomeni che per i confronti. È allora molto opportuno procedere ad elaborazioni dei dati che portano alla determinazione di poche grandezze utili sia per la descrizione degli aspetti più salienti dei fenomeni che per l’espletamento dei confronti. Statistica (descrittiva) univariata I metodi che descrivono gli aspetti più importanti di un solo carattere costituiscono la statistica (descrittiva) univariata. Statistica (descrittiva) multivariata I metodi che analizzano contemporaneamente più caratteri, al fine di mettere in evidenza eventuali relazioni esistenti fra gli stessi, costituiscono la statistica (descrittiva) multivariata. Antonio Punzo Concetti Introduttivi della Statistica Frequenze relative Definizione La frequenza relativa della modalità aj è fornita dal rapporto fra la sua frequenza (assoluta) n(aj ) e la frequenza totale n: n aj fr aj = . n Si osservi che: spesso le frequenze relative vengono moltiplicate per 100 e si hanno, cosı̀, le frequenze relative percentuali. la frequenza assoluta n(aj ) si indica anche con nj . le frequenze relative sono calcolabili per ogni tipo di carattere purché si disponga di una distribuzione di frequenza. Esempio di distribuzione di frequenza di un generico carattere qualitativo A A a1 a2 .. . aj .. . as Totale Frequenze n1 n2 .. . nj .. . ns n Frequenze relative fr (a1 ) fr (a2 ) .. . fr (aj ) .. . fr (as ) 1 Antonio Punzo % fr (a1 ) · 100 fr (a2 ) · 100 .. . fr (aj ) · 100 .. . fr (as ) · 100 100 Concetti Introduttivi della Statistica Proprietà delle frequenze relative Le frequenze relative godono delle seguenti proprietà: 1 La frequenza relativa è sempre non negativa: fr aj ≥ 0, per ogni j = 1, 2, . . . , s. 2 La somma delle frequenze relative di una distribuzione è uguale ad uno, cioè s X fr aj = 1. j=1 Dimostrazione: 1 2 Essendo n(aj ) ≥ 0 ed essendo n > 0, deriva che La somma delle frequenze assolute s X n(aj ) n ≥ 0. n aj = n. Pertanto j=1 s X n(aj ) j=1 n n(a1 ) + · · · + n(aj ) + · · · + n(as ) n n(aj ) n(a1 ) n(as ) + ··· + + ··· + n n n fr (a1 ) + · · · + fr (aj ) + · · · + fr (as ) Antonio Punzo = 1; = 1; = 1; = 1. Concetti Introduttivi della Statistica Frequenze relative - Esempio Nell’immediato dopo guerra molti italiani emigrarono in altri stati europei. Un numero cospicuo trovò lavoro anche nel “piccolo” stato belga dove costituivano la comunità straniera più numerosa. La seguente tabella ci permette di valutare, tra l’altro, l’importanza relativa degli italiani fra gli stranieri residenti in Belgio. Nazionalità Residenti Italiana Francese Spagnola Olandese Tedesca Greca Turca Polacca Britannica Altra europea Marocchina Americana Altre nazionalità Totale 249490 86658 67534 61261 22956 22354 20312 18370 15340 37020 39294 12676 43017 696282 Frequenze relative % 0.3583 35.83 0.1245 12.45 0.0970 9.70 0.0880 8.80 0.0330 3.30 0.0321 3.21 0.0292 2.92 0.0264 2.64 0.0220 2.20 0.0532 5.32 0.0564 5.64 0.0182 1.82 0.0617 6.17 1.0000 100.00 Table: Popolazione straniera residente in Belgio, nel 1970, secondo la nazionalità (Censimento della popolazione del 1970, I.N.S.). Antonio Punzo Concetti Introduttivi della Statistica Frequenze cumulate Osservazione Le frequenze relative si possono ricavare per ogni tipo di carattere. Le frequenze cumulate, invece, si possono ricavare solo per i caratteri quantitativi e per quelli qualitativi su scala ordinale. Supponiamo che le modalità siano ordinate in senso crescente, ovvero b1 ≤ b2 ≤ · · · ≤ bj ≤ · · · ≤ bs . Definizione La frequenza cumulata Cj in corrispondenza della modalità bj è fornita dalla somma: j X ni = n1 + n2 + · · · + nj . C bj = Cj = i=1 Ovviamente C1 = n1 e Cs = n. Interpretazione Il valore Cj fornisce il numero di unità statistiche con modalità inferiore o uguale a bj (si dice anche con modalità al più uguale a bj ). Antonio Punzo Concetti Introduttivi della Statistica Frequenze cumulate - Schema Frequenze cumulate relative Dividendo per n le frequenze cumulate si ottengono le frequenze cumulate relative Fj = Cj n . Dato che Cs = n, si ha Fs = 1. B b1 b2 .. . bj .. . bs Totale Frequenze n1 n2 .. . nj .. . ns n Frequenze cumulate C1 C2 .. . Cj .. . Cs Frequenze cumulate relative % F1 F1 · 100 F2 F2 · 100 .. .. . . Fj Fj · 100 .. .. . . Fs Fs · 100 Table: Distribuzione di frequenza di un carattere qualitativo B su scala ordinale. Antonio Punzo Concetti Introduttivi della Statistica Frequenze retrocumulate Spesso è utile per i caratteri su scala almeno ordinale ricavare le frequenze retrocumulate Rj . Definizione La frequenza retrocumulata Rj in corrispondenza della modalità bj è fornita dalla somma: s X R bj = Rj = ni = nj + nj+1 + · · · + ns . i=j Ovviamente R1 = n e Rs = ns . Interpretazione Il valore Rj fornisce il numero di unità statistiche con modalità maggiore o uguale a (almeno pari a) bj . Frequenze retrocumulate relative Dividendo per n le frequenze retrocumulate si ottengono le frequenze retrocumulate relative Rj Fj = . n Dato che R1 = n, si ha F 1 = 1. Antonio Punzo Concetti Introduttivi della Statistica Frequenze cumulate e retrocumulate - Esempio Numero di stelle 1 2 3 4 5 Totale Numero di esercizi nj 299 78 123 52 8 560 Frequenze cumulate relative % Cj Fj Fj · 100 299 0.5339 53.39 377 0.6732 67.32 500 0.8928 89.28 552 0.9857 98.57 560 1.0000 100.00 Frequenze retrocumulate relative % Rj Fj F j · 100 560 1.0000 100.00 261 0.4661 46.61 183 0.3268 32.68 60 0.1071 10.71 8 0.0143 1.43 Table: Frequenze cumulate degli esercizi alberghieri secondo la categoria (Prov. Milano 1988). La tabella informa, fra l’altro: che gli esercizi alberghieri di categoria inferiore o uguale a 2 stelle rappresentavano il 67.32% del numero totale degli esercizi alberghieri della Provincia di Milano nel 1988; che gli esercizi alberghieri con almeno 4 stelle erano il 10.71% degli esercizi totali. Antonio Punzo Concetti Introduttivi della Statistica Interpretazione delle frequenze (retro)cumulate per dati in classi Classi di età 0`5 5 ` 10 10 ` 15 15 ` 20 20 ` 25 25 ` 30 30 ` 35 35 ` 40 40 ` 45 45 ` 50 50 ` 55 55 ` 60 60 ` 65 65 ` 70 70 ` 75 75 ` 80 80 ` 85 85 ` 90 90+ Totale Numero di morti 146 188 277 1254 1003 641 490 444 519 571 630 680 631 657 748 626 307 128 28 9968 Frequenze cumulate Cj % 146 1.5 334 3.4 611 6.1 1865 18.7 2868 28.8 3509 35.2 3999 40.1 4443 44.6 4962 49.8 5533 55.5 6163 61.8 6843 68.6 7474 75.0 8131 81.6 8879 89.1 9505 95.4 9812 98.4 9940 99.7 9968 100.0 Frequenze retrocumulate Rj % 9968 100.00 9822 98.53 9634 96.65 9357 93.87 8103 81.29 7100 71.23 6459 64.80 5969 59.88 5525 55.43 5006 50.22 4435 44.49 3805 38.17 3125 31.35 2494 25.02 1837 18.43 1089 10.92 463 4.64 156 1.57 28 0.28 Table: Morti per incidenti stradali per classi di età (Italia, 1982). In corrispondenza della classe 15 ` 20: si ha una frequenza cumulata pari a 1865: questa cifra informa che vi furono 1865 morti per incidenti stradali con età inferiore a 20 anni. N.B.: Le frequenze cumulate fanno quindi riferimento agli estremi superiori delle classi. si ha una frequenza retrocumulata pari a 9357; cioè vi furono 9357 morti per incidenti stradali con età maggiore o uguale a 15 anni. N.B.: Le frequenze retrocumulate fanno quindi riferimento agli estremi inferiori delle classi. Punzo dei morti Concetti aveva Introduttiviun’et della Statistica La tabella informa, tra l’altro, cheAntonio il 49.8% à inferiore ai 45 anni. Frequenze specifiche Importante! Le frequenze specifiche si determinano in presenza di dati raggruppati in classi. Definizione La frequenza specifica fs di una classe è fornita dal rapporto: fs = frequenza della classe frequenza della classe = . ampiezza della classe ∆j Se al numeratore si considera la frequenza assoluta si ottiene la frequenza specifica assoluta; relativa si ottiene la frequenza specifica relativa. Interpretazione La frequenza specifica è un rapporto di densità indicante la frequenza che spetta: ad una modalità della classe, nel caso di caratteri discreti; ad un intervallo unitario della classe, nel caso di caratteri continui. Per confrontare l’addensamento di due classi di una distribuzione non è possibile impiegare le frequenze (assolute) delle due classi perchè il loro valore dipende anche dall’ampiezza delle classi che può essere differente. Le frequenze specifiche, invece, sono confrontabili perché sono frequenze che fanno riferimento ad una modalità (per caratteri discreti) o ad un intervallo unitario (per caratteri continui). Antonio Punzo Concetti Introduttivi della Statistica Frequenze specifiche - Esempio 1 Numero di camere 7−8 9 − 10 11 − 13 14 − 16 17 − 20 21 − 24 25 − 29 30 − 39 40 − 49 50 − 59 Totale Frequenza Ampiezza 27 39 50 30 28 10 14 8 3 3 212 2 2 3 3 4 4 5 10 10 10 Frequenza specifica 13.5 19.5 16.6 10.0 7.0 2.5 2.8 0.8 0.3 0.3 Table: Esercizi alberghieri ad una stella del comune di Milano classificati secondo il numero di camere (anno 1988; Primo Rapporto sul turismo a Milano. CERIT-CAMERA DI COMMERCIO, 1989, Milano). Le frequenze assolute riportate nella seconda colonna non sono idonee ad un immediato utilizzo perché sul loro valore incide anche l’ampiezza delle classi che non è costante. La frequenza assoluta più elevata si ha nella classe 11 − 13, ma ciò non significa che in questa classe vi sia l’addensamento più elevato. Interpretazione La frequenza specifica nella classe 17 − 20, pari a 7, indica che a ciascuna delle 4 modalità 17, 18, 19 e 20 camere spetta una frequenza di 7 esercizi alberghieri. Antonio Punzo Concetti Introduttivi della Statistica Frequenze specifiche - Esempio 2 Altezza cm 160 a 165 165 a 170 170 a 180 180 a 190 190 a 195 195 a 200 Totale Frequenza Ampiezza cm 10 25 45 35 13 2 130 5 5 10 10 5 5 Frequenza specifica 2.0 5.0 4.5 3.5 2.6 0.4 Frequenze cumulate 10 35 80 115 128 130 Table: Allievi di una scuola calcistica di Milano classificati secondo l’altezza. Interpretazione La frequenza specifica riportata nella quarta colonna indica il numero di allievi per un intervallo di 1 cm di altezza. L’addensamento più elevato si ha nella classe 165 a 170 dove si hanno 5 allievi per ogni intervallo di 1 cm. Antonio Punzo Concetti Introduttivi della Statistica Rappresentazione grafica per caratteri quantitativi discreti Diagramma a barre La rappresentazione grafica delle frequenze assolute della distribuzione di frequenza xj , nj ; j = 1, 2, . . . , s si ottiene riportando in ascissa i valori xj ed in corrispondenza di essi si tracciano delle ordinate con lunghezza proporzionale alle frequenze assolute nj . Il grafico delle frequenze relative si ottiene ponendo in ordinata le frequenze relative fr xj . Tali rappresentazioni grafiche vengono dette diagrammi a barre. Rappresentazione grafica delle frequenze cumulate La rappresentazione grafica delle frequenze cumulate Cj (frequenze cumulate relative F ) si ottiene riportando dei segmenti orizzontali che, in corrispondenza dell’intervallo j xj , xj+1 , hanno altezza proporzionale alla frequenza Cj (alla frequenza Fj ). Antonio Punzo Concetti Introduttivi della Statistica Esempio 1/2 Voto 18 19 20 21 22 23 24 25 26 27 28 29 30 Totale Numero di studenti Frequenze cumulate (Cj ) 11 10 15 20 30 25 20 15 12 9 6 3 4 180 Frequenze relative (fj ) 11 21 36 56 86 111 131 146 158 167 173 176 180 0.061 0.055 0.083 0.111 0.167 0.139 0.111 0.083 0.067 0.050 0.033 0.017 0.022 Frequenze relative cumulate (Fj ) 0.061 0.117 0.200 0.311 0.478 0.617 0.728 0.811 0.878 0.928 0.961 0.978 1.000 Table: Voti conseguiti da un gruppo di n = 180 studenti ad un esame di statistica. Antonio Punzo Concetti Introduttivi della Statistica Esempio 2/2 Figure: Grafico delle frequenze assolute nj e delle frequenze relative fr xj . Figure: Grafico delle frequenzeAntonio cumulate frequenze cumulate Punzo Cj e delle Concetti Introduttivi della Statistica relative F xj . Rappresentazione grafica per caratteri quantitativi discreti in classi Diagramma a pettine Nel caso in cui i dati siano raggruppati in classi, la rappresentazione grafica delle frequenze assolute avviene ponendo in corrispondenza di ciascuna modalità, di una stessa classe, un’ordinata con lunghezza proporzionale alla corrispondente frequenza specifica. Tali rappresentazione grafica viene detta diagramma a pettine. Classi di voto 18 − 20 21 − 22 23 − 24 25 − 27 28 − 30 Totale Numero di studenti 36 50 45 36 13 180 Ampiezza delle classi 3 2 2 3 3 Frequenza specifica 12.0 25.0 22.5 12.0 4.3̄ Table: Voti conseguiti ad un esame di statistica da 180 studenti (dati raggruppati in classi). Antonio Punzo Concetti Introduttivi della Figure: Grafico delle frequenze specifiche fs Statistica xj . Rappresentazione grafica per caratteri quantitativi continui Istogramma La rappresentazione grafica della distribuzione delle frequenze assolute (o relative), detta istogramma, viene effettuata con i grafici areali che si ottengono rappresentando la frequenza nj (o fj ) di una classe con l’area di un rettangolo avente per base l’ampiezza della classe e per altezza la frequenza specifica assoluta (o relativa). Si vuole che Frequenza assoluta = area rettangolo. Dal fatto che Area rettangolo = base × altezza Quindi Altezza = → Altezza = Area rettangolo . base frequenza assoluta = frequenza specifica assoluta. ampiezza Antonio Punzo Concetti Introduttivi della Statistica Rappresentazione grafica per caratteri quantitativi continui - Esempio Altezza cm 160 a 165 165 a 170 170 a 180 180 a 190 190 a 195 195 a 200 Totale Frequenza 10 25 45 35 13 2 130 Ampiezza cm 5 5 10 10 5 5 Frequenza specifica 2.0 5.0 4.5 3.5 2.6 0.4 Frequenze cumulate 10 35 80 115 128 130 Table: Allievi di una scuola calcistica di Milano classificati secondo l’altezza. Figure: Grafico delle frequenze (istogramma) della distribuzione delle altezze. Antonio Punzo Concetti Introduttivi della Statistica Rappresentazione grafica per caratteri quantitativi continui Osservazione Dalla convenzione che, nei grafici areali le frequenze assolute di una classe sono pari all’area del corrispondente rettangolo, deriva che l’area compresa fra due ascisse di un intervallo è pari alla frequenza dei valori compresi fra queste ascisse. Consideriamo l’intervallo j-esimo i cui estremi sono xj−1 e xj . Sia x un valore compreso fra gli estremi. L’area sottesa al grafico e compresa fra xj−1 e x è pari a: (x − xj−1 ) · fsj = (x − xj−1 ) · nj (xj − xj−1 ) = (x − xj−1 ) (xj − xj−1 ) · nj . Essendo il rapporto (x − xj−1 ) (xj − xj−1 ) una frazione compresa fra 0 e 1, il suo prodotto per nj indica la frequenza che spetta all’intervallo x − xj−1 . Questa frequenza è pari a 0 per x = xj−1 ed è pari ad nj per x = xj . La frequenza dell’intervallo varia linearmente con x. Antonio Punzo Concetti Introduttivi della Statistica Rappresentazione grafica per caratteri quantitativi continui - Esempio Quesito Si valuti la frequenza degli allievi calciatori con altezza compresa fra 170 e 176 cm. Dalla relazione: n (170 < X ≤ 176) : n (170 < X ≤ 180) = (176 − 170) : (180 − 170) da cui (176 − 170) · n (170 < X ≤ 180) (180 − 170) 6 = · 45 = 27. 10 La frequenza 27 corrisponde all’area tratteggiata della seguente figura n (170 < X ≤ 176) = Figure: Grafico delle frequenze della distribuzione delle altezze. Antonio Punzo Concetti Introduttivi della Statistica Grafico delle freq. cumulate per caratteri quantitativi continui Osservazione Da quanto sino ad ora precisato deriva che l’area compresa fra le altezza 160 cm e 176 cm fornisce il numero di calciatori con altezza da 160 cm a 176 cm, ovvero con altezza inferiore o uguale a 176 cm. Questa frequenza è una valutazione della frequenza cumulata in corrispondenza di x = 176 cm. Relazione tra i grafici delle freq. assolute e freq. cumulate assolute Per i caratteri quantitativi continui, la frequenza cumulata in corrispondenza di un valore x è fornita dall’area sottesa all’istogramma alla sinistra di x. Osservazione Per i valori di x coincidenti con gli estremi superiori delle classi queste aree non sono altro che i valori di Cj . Per tracciare il grafico delle frequenze cumulate C(x) di un carattere continuo bisogna innanzitutto riportare in ascissa i limiti delle classi. Quindi si riportano in ordinata i corrispettivi valori C(x) e si congiungono i punti cosı̀ ottenuti con segmenti di retta. Antonio Punzo Concetti Introduttivi della Statistica Grafico delle freq. cumulate per caratteri quantitativi continui - Esempio Figure: Grafico delle frequenze cumulate C(x) delle altezze dei 130 allievi di una scuola calcistica. L’ordinata in corrispondenza di x = 176 è pari a 35 + 27 = 62 ⇒ C (176) = 62. Osservazione L’inclinazione del segmento che unisce i due punti successivi che si hanno in corrispondenza degli estremi di una classe fornisce la frequenza specifica della classe. Antonio Punzo Concetti Introduttivi della Statistica Rappresentazioni grafiche - Caratteri qualitativi 1/3 Partiamo da questa tabella: Categorie e tipi di Esercizio Alberghi di 5 stelle e 5 stelle lusso Alberghi di 4 stelle Alberghi di 3 stelle Alberghi di 2 stelle Alberghi di 1 stella Residenze turistico alberghiere Totale Esercizi Alberghieri Numero (nj ) 164 3036 13377 8852 6146 1836 33411 Table: Capacità degli alberghi per categoria nel 2002. Antonio Punzo Concetti Introduttivi della Statistica Rappresentazioni grafiche - Caratteri qualitativi 2/3 Diagramma a torta (o a settori circolari) a ciascuna modalità xj si associa una fetta, cioé un settore circolare, avente area pari alla sua frequenza relativa fj o alla frequenza assoluta nj . Antonio Punzo Concetti Introduttivi della Statistica Rappresentazioni grafiche - Caratteri qualitativi 3/3 Diagramma a barre a ciascuna modalità xj si associa un rettangolo avente base costante ed altezza pari alla frequenza relativa fj o alla frequanza assoluta nj . Antonio Punzo Concetti Introduttivi della Statistica Rappresentazioni grafiche - Schematizzazione Natura del carattere Scala di misurazione Raggruppamento in classi Rappresentazione grafica Qualitativo nominale - diagramma a torta (preferibile) diagramma a barre Qualitativo ordinale - diagramma a torta diagramma a barre (preferibile) Quantitativo discreto ininfluente No diagramma a barre Quantitativo discreto ininfluente Si diagramma a pettine Quantitativo continuo ininfluente Si istogramma Osservazione per dati raggruppati in classi Se il carattere è ripartito in classi, sull’asse delle ordinate vanno considerate le frequenze specifiche fsj . Antonio Punzo Concetti Introduttivi della Statistica Esempio riassuntivo Si consideri la seguente matrice dei dati relativa ad un indagine su n = 20 famiglie che considera p = 6 variabili: numero d’ordine della famiglia u1 u2 u3 u4 u5 u6 u7 u8 u9 u10 u11 u12 u13 u14 u15 u16 u17 u18 u19 u20 Settore di attività economica del capofamiglia (da codificare) Industria Industria Agricoltura Industria Altra Attività Industria Industria Industria Agricoltura Agricoltura Industria Altra Attività Altra Attività Agricoltura Altra Attività Industria Industria Altra Attività Industria Industria Titolo di godimento dell’abitazione (da codificare) Affitto Affitto Proprietà Proprietà Proprietà Affitto Altro titolo Affitto Proprietà Proprietà Proprietà Affitto Altro titolo Affitto Proprietà Proprietà Affitto Affitto Proprietà Proprietà Antonio Punzo Titolo di studio del capofamiglia (da codificare) Diploma Laurea Licenza Media Diploma Laurea Licenza Media Licenza Media Diploma Senza titolo Licenza Media Licenza Media Laurea Diploma Laurea Laurea Laurea Laurea Licenza Elem. Licenza Media Diploma Numero di figli Reddito annuo lordo (euro) Età del capofamiglia (discretizzato) 3 2 3 1 0 2 3 4 5 1 1 1 2 2 2 0 1 3 5 0 19841 18830 15971 17361 23426 17220 17540 16980 15340 18270 30733 28760 25320 19221 27320 23420 20280 27531 18330 19750 29 29 26 31 60 30 30 45 69 56 50 55 52 57 65 59 48 59 46 48 Concetti Introduttivi della Statistica Esempio riassuntivo - analisi preliminare Osservazione La popolazione di riferimento è costituita da tutte le famiglie di interesse di cui le n = 20 prese in esame rappresentano il campione osservato. Ciascuna famiglia rappresenta quindi un’unità statistica. Carattere Modalità Tipo di Carattere Scala di Misurazione Settore di attività del capofamiglia Industria Agricoltura Altra Attività Qualitativo Nominale Titolo di godimento dell’abitazione Affitto Proprietà Altro titolo Qualitativo Nominale Titolo di studio del capofamiglia Senza titolo Licenza elementare Licenza media Diploma Laurea Qualitativo Ordinale Numero di figli {0, 1, 2, 3, 4, 5} Quantitativo discreto Scala di rapporti Reddito annuo lordo (in euro) [15000, 33000] Quantitativo continuo Scala di rapporti Età del capofamiglia (in anni compiuti) {25, 26, . . . , 70} Quantitativo discreto Scala di rapporti Antonio Punzo Concetti Introduttivi della Statistica Esempio riassuntivo - Quesito 1 Domanda Predisporre le tabelle delle frequenze assolute, relative, cumulate e retrocumulate (se possibile) di ogni carattere individuato al punto precedente. Effettuare la rappresentazione grafica delle frequenze assolute e relative di ogni carattere. Antonio Punzo Concetti Introduttivi della Statistica Quesito 1 - X =“Settore di attività del capofamiglia” Settore di attività del capofamiglia Agricoltura Industria Altra Attività Totale nj = freq. assolute 4 11 5 20 fj = nj = freq. relative n 0.2 0.55 0.25 1 Non ha senso calcolare le frequenze cumulate e retrocumulate in quanto la scala di misurazione del carattere è nominale. frequenze assolute frequenze relative Antonio Punzo Diagramma a torta Concetti Introduttivi della Statistica Quesito 1 - X =“Titolo di godimento dell’abitazione” Titolo di godimento dell’abitazione Affitto Proprietà Altro Titolo Totale nj = freq. assolute 8 10 2 20 fj = nj = freq. relative n 0.4 0.5 0.1 1 Non ha senso calcolare le frequenze cumulate e retrocumulate in quanto la scala di misurazione del carattere è nominale. frequenze assolute frequenze relative Antonio Punzo Diagramma a torta Concetti Introduttivi della Statistica Quesito 1 - X =“Titolo di studio del capofamiglia” Titolo di studio del capofamiglia Senza Titolo Licenza elementare Licenza media Diploma Laurea Totale nj 1 1 6 5 7 20 nj n 0.05 0.05 0.3 0.25 0.35 1 fj = Cj = freq. cumulate Rj = freq. retrocumulate 1 2 8 13 20 20 19 18 12 7 frequenze assolute frequenze relative Antonio Punzo Concetti Introduttivi della Statistica Quesito 1 - X =“Numero di figli” Numero di figli nj 0 1 2 3 4 5 Totale 3 5 5 4 1 2 20 nj n 0.15 0.25 0.25 0.20 0.05 0.10 1 fj = Cj = freq. cumulate Rj = freq. retrocumulate 3 8 13 17 18 20 20 17 12 7 3 2 frequenze relative frequenze assolute Antonio Punzo Concetti Introduttivi della Statistica Quesito 1 - X =“Reddito annuo lordo (in Euro)” Un modo possibile per raggruppare il carattere in classi, cercando di equilibrare le frequenze delle classi, è il seguente: Reddito annuo lordo (in euro) fino a 17000 17000 a 18500 18500 a 20000 20000 a 26000 oltre 26000 Totale nj = freq. assolute 3 5 4 4 4 20 nj = freq. relative n 0.15 0.25 0.20 0.20 0.20 1 Per rappresentare graficamente il carattere “Reddito annuo lordo” è necessario calcolare le frequenze specifiche (fsj ) e quindi si ha bisogno dell’ampiezza ∆j di ciascuna classe: per calcolare tale ampiezza, nella tabella seguente, si è ritenuto opportuno “chiudere” la prima classe a 15000 e l’ultima a 33000. Reddito annuo lordo (in euro) 15000 a 17000 17000 a 18500 18500 a 20000 20000 a 26000 26000 a 33000 ∆j = ampiezza della classe 2000 1500 1500 6000 7000 Antonio Punzo fsj = nj = freq. specifiche ∆j 0.0015 0.003̄ 0.0026̄ 0.0006̄ 0.00057 Concetti Introduttivi della Statistica frequenze assolute Ha senso calcolare le frequenze cumulate e retrocumulate in quanto la scala di misurazione del carattere è una scala di rapporti. Reddito annuo lordo (in euro) 15000 a 17000 17000 a 18500 18500 a 20000 20000 a 26000 26000 a 33000 Cj = freq. cumulate Rj = freq. retrocumulate 3 8 12 16 20 20 17 12 8 4 La seconda frequenza cumulata (8) significa che 8 famiglie, tra le 20 considerate, hanno un reddito annuo lordo minore o uguale (quindi non superiore) a 18500 euro. La seconda frequenza retrocumulata (17) significa che 17 famiglie, tra le 20 considerate, hanno un reddito annuo lordo maggiore di 17000 euro. Antonio Punzo Concetti Introduttivi della Statistica Quesito 1 - X =“Età del capofamiglia” Un modo possibile per raggruppare il carattere in classi è il seguente: Età del capofamiglia fino a 30 31 − 49 50 − 55 56 − 60 61 e oltre Totale nj = freq. assolute 5 5 3 5 2 20 nj = freq. relative n 0.25 0.25 0.15 0.25 0.1 1 Per rappresentare graficamente il carattere “Età del capofamiglia” è necessario andare a calcolare le frequenze specifiche (fsj ) e quindi si ha bisogno dell’ampiezza di ciascuna classe: per calcolare tale ampiezza, nella tabella seguente, si è ritenuto opportuno “chiudere” la prima classe a 26 e l’ultima a 70. Età del capofamiglia 26 − 30 31 − 49 50 − 55 56 − 60 61 − 70 ∆j = Ampiezza della classe 5 19 6 5 10 Antonio Punzo fsj = nj = freq. specifiche ∆j 1 0.263 0.5 1 0.2 Concetti Introduttivi della Statistica frequenze assolute Ha senso calcolare le frequenze cumulate e retrocumulate in quanto la scala di misurazione del carattere è una scala di rapporti. Età del capofamiglia 26 − 30 31 − 49 50 − 55 56 − 60 61 − 70 Cj = freq. cumulate Rj = freq. retrocumulate 5 10 13 18 20 20 15 10 7 2 La quarta frequenza cumulata (18) significa che 18 famiglie, tra le 20 considerate, hanno un capofamiglia con un’età minore o uguale (quindi non superiore) a 60 anni. La quarta frequenza retrocumulata (7) significa che 7 famiglie, tra le 20 considerate, hanno un capofamiglia con un’età maggiore o uguale (quindi non inferiore) a 56 anni. Antonio Punzo Concetti Introduttivi della Statistica Esempio riassuntivo - Quesito 2 Domanda Con riferimento al carattere “numero dei figli”: a) predisporre la tabella delle frequenze assolute, relative e specifiche supponendo di riclassificare il carattere nelle classi ”fino ad 1”, 2 `a 4 e ”5 e oltre” ; b) per la distribuzione calcolata al punto a) effettuare la rappresentazione grafica delle frequenze assolute e relative; c) dedurre la percentuale di famiglie con almeno 3 figli e con al più 3 figli per la distribuzione originaria e per la distribuzione riclassificata individuata al punto a). Antonio Punzo Concetti Introduttivi della Statistica Quesito 2 - punto a) Riclassificando il carattere “numero di figli”, come indicato, otteniamo la seguente tabella: Numero di figli nj = freq. assolute fino a 1 2−4 5 e oltre Totale 8 10 2 20 nj = freq. relative n 0.4 0.5 0.1 1 Si calcolano ora le ampiezze delle classi, le frequenze specifiche assolute e le frequenze specifiche relative, dopo aver specificato gli estremi della prima e dell’ultima classe in modo da avere rispettivamente 0 − 1 e 5 − 6. Numero di figli Ampiezza della classe 0 − 1 = {0, 1} 2 − 4 = {2, 3, 4} 5 − 6 = {5, 6} 2 3 2 Antonio Punzo freq. specifiche assolute 4 3.3̄ 1 freq. specifiche relative 0.2 0.16̄ 0.05 Concetti Introduttivi della Statistica Quesito 2 - punto b) Nelle figure che seguono sono rappresentate, rispettivamente, le frequenze assolute e le frequenze relative del carattere in esame. frequenze assolute frequenze relative Antonio Punzo Concetti Introduttivi della Statistica Quesito 2 - punto c) Considerando il carattere raggruppato in classi, per calcolare la % di famiglie con almeno 3 figli, basta sommare le lunghezze delle aste, nel grafico delle frequenze relative, in corrispondenza dei valori maggiori o uguali a 3 e poi moltiplicare per 100: 0.16̄ + 0.16̄ + 0.05 + 0.05 = 0.43̄ =⇒ 43.3̄%. Se invece non si considera il raggruppamento in classi, sommando le lunghezze delle aste in corrispondenza dei valori maggiori o uguali a 3 e moltiplicando per 100, otteniamo: 0.20 + 0.05 + 0.10 = 0.35 =⇒ 35%. Per calcolare invece la % di famiglie con al più 3 figli, dovremo sommare le lunghezze delle aste in corrispondenza dei valori minori o uguali a 3, nel grafico delle frequenze relative, e poi moltiplicare per 100. Considerando il carattere raggruppato in classi si ha: 0.2 + 0.2 + 0.16̄ + 0.16̄ = 0.73̄ =⇒ 73.3̄% mentre, se si considera il carattere non raggruppato in classi, si ha: 0.15 + 0.25 + 0.25 + 0.20 = 0.85 Antonio Punzo =⇒ 85%. Concetti Introduttivi della Statistica