A Antonio Perna Clelia Cascella Statistica assistita Indirizzi pratici di statistica descrittiva Copyright © MMXIV ARACNE editrice S.r.l. www.aracneeditrice.it [email protected] via Raffaele Garofalo, /A–B Roma () ---- I diritti di traduzione, di memorizzazione elettronica, di riproduzione e di adattamento anche parziale, con qualsiasi mezzo, sono riservati per tutti i Paesi. Non sono assolutamente consentite le fotocopie senza il permesso scritto dell’Editore. I edizione: gennaio Credo che il calcolo delle probabilità sia l'unica branca della matematica in cui buoni autori ottengono spesso risultati completamente sbagliati. Charles Pierce Non fidatevi di ciò che le statistiche dicono prima di avere attentamente considerato ciò che non dicono. William Watt Se siete in aereo e state tirando ad indovinare qual è il lavoro degli altri passeggeri, come fate ad individuare uno statistico? Facile! È l’unico che parte con una bomba nella borsa perché è statisticamente “impossibile” che ci siano due attentatori sullo stesso aereo. Anonimo Indice 011 Prefazione 013 Introduzione PARTE I Statistica Descrittiva 027 Capitolo I L’organizzazione dei dati 1.1. I profili di riga e colonna in una matrice a doppia entrata, 027 – 1.2. Distribuzioni di frequenza per valori singoli della modalità, 029 – 1.3. Distribuzioni derivate, 031 – 1.4. Il concetto di intensità, 033 – 1.5. Divisione in classi di una variabile, 034 – 1.6. Glossario, 035 – 1.7. Tabelle a doppia entrata, 036 – 1.8. Le possibili combinazioni dei caratteri nelle tabelle a doppia entrata, 039 – 1.9. Le rappresentazioni grafiche, 040 – 1.10. Rappresentazione grafica di una variabile articolata in classi, 044. 053 Capitolo II Sintesi dei dati 2.1. La media aritmetica, 056 – 2.2. La media geometrica, 061 – 2.3. La media quadratica, 063 – 2.4. La media armonica, 064 – 2.5. Le medie di posizione, 065 – 2.6. La mediana, 065 – 2.7. La moda, 069 – 2.8. Il box-plot (o grafico a scatola) e i quartili, 071 – 2.9. Glossario, 078 – 2.10. Esercizi di ricapitolazione, 078. 7 4 8 093 Indice Capitolo III La variabilità 3.1. Variabilità e mutabilità: prime definizioni, 094 – 3.2. Misure della variabilità, 096 – 3.3. Le proprietà della varianza, 099 – 3.4. La covarianza, 103 – 3.5. Le differenze medie, 105 – 3.6. Esercizi svolti di ricapitolazione, 108. 111 Capitolo IV La concentrazione 4.1. Alcuni esempi di aree di concentrazione, 114 – 4.2. Il primo metodo: approssimazione per rettangoli (il metodo di Gini), 116 – 4.3. Il secondo metodo: approssimazione per trapezi, 119 – 4.4. Esercizi di ricapitolazione, 121. 129 Capitolo V I rapporti statistici 5.1. Trasformazione degli indici, 132 – 5.2. Il saggio di incremento, 133 – 5.3. La variazione relativa, 134 – 5.4. Il rapporto di durata, 135 – 5.5. Esercizi di ricapitolazione, 136. 143 Capitolo VI L’interpolazione statistica 6.1. Scelta della funzione interpolante, 145 – 6.2. La determinazione dei parametri, 146 – 6.3. Procedimento per la determinazione dei parametri, 148 – 6.4. Esercizi di ricapitolazione, 153. 157 Capitolo VII La variabilità nella forma di una distribuzione 7.1. Indici di disnormalità (indici di variabilità delle forme), 158 – 7.2. La distribuzione normale, 160 – 7.3. Misura della curtosi, 165 – 7.4. La distribuzione normale standardizzata, 167 – 7.5. Media e Indice varianza della normale standardizzata, 170 – 7.6. BienayméChebicheff, 172 – 7.7. Esercizi di ricapitolazione, 172. 175 Capitolo VIII L’interpolazione statistica 8.1. Confronto tra due mutabili, 178 – 8.2. Confronto tra una mutabile ed una variabile, 179 – 8.3. Confronto tra due variabili, 182 – 8.4. Alcune considerazioni, 182 – 8.5. Definizioni e misure dell’indipendenza assoluta, 185 – 8.6. Definizioni e misure dell’indipendenza in media, 189 – 8.7. Definizioni e misure dell’indipendenza interpolativa, 192 – 8.9. L’indice di BravaisPearson, 200 – 8.9. Esercizi di ricapitolazione, 203. 217 Capitolo IX Il campionamento statistico 9.1. Il campionamento probabilistico, 222 – 9.1.1. Il campionamento casuale semplice, 223 – 9.1.2. La tavola dei numeri aleatori, 225 – 9.1.3. La numerosità campionaria, 228 – 9.2. Il campionamento non probabilistico, 234 – 9.2.1. Il disegno fattoriale, 234 – 9.2.2. Il campionamento per quote, 234 – 9.2.3. Il campionamento a scelta ragionata, 235 – 9.2.4. Il campionamento a valanga, 236 – 9.2.5. Il campionamento di convenienza, 237. PARTE II Esercizi, formulario e tavole 239 Sezione I Gli esercizi 1.1. Organizzazione, sintesi e variabilità dei dati, 239 – 1.2. La concentrazione, 245 – 1.3. I rapporti statistici, 247 – 1.4. L’interpolazione statistica, 250 – 1.5. La variabilità nella forma di una distribuzione, 251 – 1.6. Le relazioni statistiche, 253. 257 Sezione II Il formulario 9 6 10 Indice 269 Sezione II Bibliografia 273 Sezione III Le tavole della zeta standardizzata Prefazione Questo manuale ha lo scopo di avvicinare alla Statistica Descrittiva il lettore che desidera coniugare l’approfondimento teorico a quello più strettamente applicativo. Lo scopo dell’opera è infatti quello di dotare coloro che si avvicinano in maniera applicativa alla Statistica Descrittiva di una base concettuale che li ponga in grado di capire l’utilizzo degli strumenti e di interpretarne correttamente i risultati. Il volume si articola in due parti. La prima illustra e spiega i più importanti strumenti della Statistica Descrittiva corredando l’esposizione teorica con una corposa serie di esercizi svolti e commentati che servono, da una parte, a rendere più chiari i contenuti teorici e, dall’altra, a illustrare come risolvere gli esercizi. La seconda parte propone, per ciascuno degli argomenti trattati nella prima, una ricca raccolta di esercizi che possono servire al lettore come banco di prova e verifica del livello di apprendimento raggiunto. Completano la sezione, un formulario commentato e le tavole della funzione di ripartizione e della funzione di densità. Parte integrante dell’opera è la sezione, disponibile on-line sul sito della casa editrice, che contiene slide di ricapitolazione sui contenuti del testo e esercizi in Excel. Ciascun foglio di lavoro è impostato con formule predefinite ed è quindi predisposto anche per la soluzione di ulteriori tracce: inserendo nuovi dati, il lettore potrà pervenire, in modo facile ed automatico, alla soluzione dei nuovi esercizi. Attraverso una serie di collegamenti ipertestuali è inoltre possibile richiamare, durante le applicazioni pratiche, le relative parti teoriche e viceversa. 11 8 12 Prefazione Questo libro nasce da un progetto del Prof. Antonio Perna ed è oggi il risultato di un lavoro congiunto e condiviso dai due Autori. In particolare, si precisa che la parte teorica dei capitoli da 2 a 8 è a cura del Prof. Antonio Perna mentre le sezioni applicative (l’ultimo paragrafo di ciascun capitolo nonché la II parte del volume) sono a cura della Dott.ssa Cascella così come i capitoli 1 e 9. Si ringraziano, infine, le dott.sse G. Milone e G. Della Pietra per l’affettuosa ed importante collaborazione. Antonio Perna e Clelia Cascella Introduzione La statistica è una scienza che si interessa della raccolta, organizzazione e trattamento dei dati al fine di estrarne, attraverso un processo di sintesi, il contenuto informativo. Pur avendo una forte caratterizzazione matematica, essa è però autonoma rispetto a quest’ultima. Il termine deriva dal latino “status”, e cioè, ricchezza e posizione sociale. In origine, infatti, tale termine serviva per indicare l’inventario generale delle ricchezze di uno Stato, soprattutto in relazione all’ammontare dei tributi che i cittadini più ricchi dovevano versare allo Stato, anche, per finanziare operazioni belliche. Successivamente la Statistica si è evoluta sotto la spinta e l’impulso di numerose altre discipline. Buffon fu il primo naturalista a ricoprire un ruolo importante nella storia della Statistica moderna. A suo giudizio questa disciplina doveva servire a “contare” ma soprattutto a “descrivere e semplificare” la realtà, allo scopo di pervenire a rappresentazioni sintetiche e a classificazioni. Altro pioniere della scienza Statistica è Galton, eccellente biometra. La biometria studia le relazioni esistenti tra le “misurazioni” effettuate su soggetti appartenenti ad una certa specie (ad esempio, il legame esistente tra l’altezza dei padri e quella dei figli). Degno di menzione particolare è anche Spearman, che nel campo della psicometria effettuò le prime analisi fattoriali. Attraverso misurazioni oggettive dei risultati ottenuti mediante tests, cercò di definire 13 12 14 Introduzione quelle dimensioni più nascoste ed astratte come l’intelligenza o la memoria. Tutti questi precursori dell’analisi statistica più avanzata, e ne abbiamo citati solo alcuni, lavoravano esclusivamente con l’aiuto dei loro mezzi fisici (il cervello e le mani). La maggior parte delle tecniche che oggi giorno vengono sviluppate sugli elaboratori esistevano già da molti anni ma il loro utilizzo risultava difficile a causa della complessità dei calcoli ad esse connessi. Oggi gli statistici dispongono di un potente aiuto: l’elaboratore elettronico è diventato uno strumento indispensabile per trattare grandi quantità di dati e di calcoli, ma non si può omettere di ricordare che, per quanto potente, rimane comunque uno strumento inerte senza l’uomo. La Statistica si basa essenzialmente sull’osservazione che si fa di una caratteristica (carattere) su ogni individuo appartenente ad un gruppo. Tale caratteristica può essere di natura qualitativa o quantitativa. Trattare i dati non vuol dire manipolarli ma occorre saper scegliere lo strumento idoneo, dati gli obiettivi dell’analisi, per ottenere le migliori informazioni. La fase organizzativa dei dati (ordinamento, classificazione, creazione delle tabelle, rappresentazioni grafiche, ecc,) è necessaria e propedeutica alla sintesi di una distribuzione univariata. Si parlerà, invece, di analisi bivariata o multivariata nel caso in cui sia ritenuto opportuno indagare le connessioni tra i caratteri. Il concetto di carattere in Statistica I caratteri in statistica possono essere qualitativi o quantitativi. 13 Introduzione 15 Al di là della mera distonia terminologica, tale concetto implica delle differenze sostanziali nel modo di analizzare tali caratteri e, conseguentemente, nei risultati cui si può giungere. Diciamo anzitutto che ogni carattere, di natura qualitativa o quantitativa, possiede un proprio stato. Si definisce stato del carattere la sua manifestazione in un individuo (tale assunzione di stato si chiama modalità). La caratteristica muta originando una mutabile (non vi è, cioè, una scala di possibili valori, da collegare anche ad una funzione). I valori che un carattere può assumere nel caso in cui abbia natura quantitativa, costituiscono le cc. dd. variabili. Ad ogni carattere corrisponde una popolazione di dati (in gergo tecnico, “universo”) costituita dalle modalità o dai valori del carattere. Una frazione di osservazione estratte da una popolazione prende il nome di campione. Allo scopo di rendere immediatamente fruibili le distinzioni intercorrenti tra qualitativo e quantitativo, proponiamo immediatamente il seguente prospetto sinottico. 14 16 Introduzione ! 2 ! , - Figura 1 - Differenze tra caratteri qualitativi e quantitativi. Attenzione! Una variabile si dirà discreta quando può sempre essere posta in corrispondenza dell’insieme dei numeri naturali o di un suo sottoinsieme (la modalità di misurazione sarà, quindi, quella del conteggio o della numerazione); si dirà, invece, continua nel momento in cui essa può assumere, in linea di principio, qualsiasi valore contenuto in un dato intervallo reale predefinito (le variabili continue, quindi, potranno essere misurate solo mediante l’impiego di una funzione). Un ulteriore motivo di distinzione tra qualitativo e quantitativo risiede anche nella tipologia di scala di misurazione che può essere usata di volte in volta. Il primo a stigmatizzare tali differenze fu Stevens che stilò un elenco delle possibili scale di misurazione in base al grado di complessità delle operazioni che egli considerava lecito condurre su certi caratteri. 15 Introduzione 17 Abbiamo quattro scale di misurazione: 1. Nominale (caratteri qualitativi): l’unica operazione consentita è l’uguale o diverso. Si pensi al caso di una scala relativa alle confessioni religiose: non è certo possibile, ad esempio, attribuire un grado di maggiore o minore importanza, ma si potrà solo dire se sono uguali o diverse tra loro. Si noti, inoltre, che laddove fosse presente un numero accanto alle singole voci, esso non avrebbe alcun tipo di significato numerico, ma avrebbe il solo ed unico scopo di fungere da etichetta. 2. Ordinale (caratteri qualitativi): così come nel caso precedente, le mutabili non assumono valori numerici, ma acquisiscono modalità logicamente sequenziali, in ordine crescente o decrescente (è questo, ad esempio il caso, della valutazione scolastica nella sua esplicitazione sotto forma di giudizi quali “mediocre”, “sufficiente”, “buono” ed “ottimo”. 3. Ad intervallo: sono variabili (e, quindi, quantitative) che consentono un confronto solo per la differenza tra le modalità che i soggetti assumono poiché essi fanno riferimento ad un’origine arbitraria (ad esempio, nel determinare una temperatura in gradi Celsius si conviene che lo zero espresso in gradi centigradi – 0° corrisponda alla temperatura alla quale l’acqua gela. Tale misura è connessa all’analoga quantità espressa nella scala Fahreneit dalla relazione F=(9/5)C+C+32. In forza di quest’ultima, invece, lo zero non ha un significato analogo, corrispondendo a -17,78° Celsius. Per contro la temperatura misurata in gradi Kelvin fa riferimento allo zero assoluto e non rientra in tale tipologia. 4. Di rapporto: sono variabili (e, quindi, quantitative) per le quali intrinseca ed univoca è la definizione dello zero (si pensi, ad esempio, al caso in cui si voglia 16 18 Introduzione determinare il peso di un oggetto, la durata in secondi di uno sparo, ecc…). Le rappresentazioni grafiche. Scopo precipuo dalla rappresentazione grafica risiede nell’immediata fruibilità dell’informazione contenuta nei dati. Attraverso la loro visualizzazione, il ricercatore ha, infatti, la possibilità di memorizzare ed intuire elementi preziosi nell’arco del processo di ricerca. Nel seguito proviamo a proporre un semplice elenco delle possibili rappresentazioni grafiche senza scendere nel merito di ciascuna giacché al loro studio sarà appositamente dedicata una sezione del capitolo successivo: 1. diagramma cartesiano a scala naturale; 2. diagramma cartesiano a scala logaritmica, semplice o doppia; 3. diagrammi circolari; 4. grafico rami e foglie; 5. istogramma; 6. curva ogiva; 7. box – plot. I valori di sintesi di una distribuzione. Così come anticipato nelle prime righe di questa introduzione, ribadiamo ora che lo scopo della statistica è quello di raccogliere, organizzare e trattare dei dati al fine di estrarne il contenuto informativo. Si disse inoltre, in quella sede, che il procedimento attraverso cui questo si rende possibile consiste essenzialmente nella possibilità di calcolare talune misure di sintesi, quali, ad esempio, le medie (razionali e/o di posizione). 17 Introduzione 19 Anche in questo caso, occorre fare una distinzione tra variabili e mutabili. Nel caso in cui, infatti, ci si muova nel campo del quantitativo, sarà possibile calcolare sui dati a disposizione sia medie razionali (e cioè, la media aritmetica, geometrica od armonica1), sia medie di posizione (e segnatamente, moda e mediana). Nel caso qualitativo, invece, si potranno “calcolare” esclusivamente le medie di posizione e non anche quelle razionali. Ciò trova la propria motivazione in quanto precedentemente detto in relazione alla natura degli eventuali numeri relativi all’identificazione dei diversi stati della modalità: in tal caso, infatti, si ribadisce, tali numeri avrebbero il solo valore di etichette e sarebbero prive di qualsivoglia contenuto numerico. Da ciò discende l’impossibilità di condurre su di essi qualsiasi tipo di operazione aritmetica. La variabilità. La variabilità è l’attitudine di un fenomeno quantitativo a variare nel tempo e/o nello spazio, mentre la mutabilità riguarda i fenomeni qualitativi. In assenza di tale caratteristica e, cioè, in presenza di un ambiente statico ed immutabile, non avrebbe senso condurre indagini statistiche su qualsiasi fenomeno 1 Per le differenze intercorrenti tra media aritmetica, geometrica ed armonica si rinvia al capitolo successivo. In esso, alla definizione di ciascuna delle summenzionate voci, si accompagnano anche molteplici esempi volti a rendere maggiormente chiare le differenze concettuali e, quindi, applicative, tra le diverse tipologie. 18 20 Introduzione Figura 2 - Esempi di distribuzioni con stessa media e varianza diversa. Essa può essere verificata attraverso l’utilizzo di grafici e quantificata con indici che di variabilità: 1. assoluta, se espressi in unità di misura; 2. relativa, se espressi in forma adimensionale, cioè senza riferimento ad alcuna unità di misura. Gli indici di forma. La posizione e la variabilità di una distribuzione di frequenza non esauriscono le informazioni contenute nei dati. Può, infatti, accadere che due variabili statistiche possano avere la stessa posizione e la stessa variabilità, ma differire per il peso dei valori più grandi o più piccoli rispetto al valore centrale, a causa del comportamento differenziato delle “code” della distribuzione. Ricorriamo, quindi, ai cc.dd. indici di forma che indicano il modo in cui i dati sono distribuiti. 19 Introduzione 21 Figura 3 - Distribuzioni simmetriche e asimmetriche. Le relazioni statistiche. Con la teoria delle relazioni, la statistica si propone, a scopo prevalentemente previsionale, di studiare i possibili condizionamenti, influenze ed attrazioni che possono verificarsi tra i caratteri. Èevidente che i caratteri debbono essere logicamente collegabili. La relazione tra caratteri può essere studiata in vari modi, soprattutto tenendo presente la loro natura: - dipendenza (o indipendenza) assoluta: studia l’influenza tra i caratteri attraverso l’analisi delle sole frequenze; dipendenza in media: esprime, generalmente, il concetto di dipendenza di una variabile da una 20 22 Introduzione - - mutabile. Considera le informazioni desumibili dalla variabile. Si parlerà di dipendenza (o indipendenza) in media; regressione: esprime il concetto di dipendenza funzionale tra due variabili. Si parlerà, in questo caso, di dipendenza interpolativa, distinguendo tra: a. dipendenza funzionale: presuppone la possibilità di individuare l’antecedenza di una variabile rispetto ad un’altra; b. concordanza o discordanza: si valuta l’interdipendenza come notizia aggiuntiva a quella della dipendenza. Si parlerà, in questo caso, di correlazione. cograduazione: esprime il concetto di relazione tra graduatorie. Può esser interpretata come una misura della coerenza tra diversi atteggiamenti e/o giudizi espressi da diversi individui per la stessa situazione. La rappresentazione analitica di una variabile. Premesso che ogni fenomeno quantitativo ha una propria legge evolutiva, la rappresentazione analitica di una variabile ha lo scopo di indagare sulla forma di tale legge, studiarla, determinarne i parametri, rappresentare l’andamento che il fenomeno dovrebbe “teoricamente” avere se non fosse turbato, nelle sue determinazioni ed evoluzioni, da cause accidentali e/o sistematiche. Si basa essenzialmente sui principi dell’interpolazione matematica i cui principi però non possono essere rigidamente seguiti anche in campo statistico. 21 Introduzione 23 Figura 4 - Interpolazione matematica versus interpolazione statistica. La statistica inferenziale. La Statistica si può classificare in: a) descrittiva o deduttiva: partendo dal generale (popolazione), lo descrive deducendone le caratteristiche; b) inferenziale o induttiva: partendo dal particolare (campione)2 ne osserva le caratteristiche, lo descrive e cerca di estenderle (inferirle, appunto) al generale (popolazione). Dal latino “in fero”, cioè “portare dentro”, la statistica inferenziale s’interessa quindi di estendere il significato delle misure della Statistica descrittiva a una popolazione, partendo dal presupposto di aver studiato una parte di essa. Si basa essenzialmente sulle leggi della probabilità; comporta, quindi, lo studio dei principi della probabilità. Si articola in tre sezioni: a) Stima dei parametri: definizione degli stimatori, definizione della stima, metodi di stima (puntuale, intervalli di confidenza, massima verosimiglianza). 2 Il campione è detto casuale o aleatorio quando è ottenuto con un procedimento che offre ad ogni elemento della popolazione la stessa probabilità di entrare a farne parte (equiprobabilità). 22 24 Introduzione b) Verifica delle ipotesi: test d’ipotesi parametrici, metodi decisionali, teoria degli errori, modello di regressione. c) Metodi non parametrici: test di adattamento e test d’indipendenza. La statistica a più dimensioni Con tale termine s'intende quella parte della statistica in cui l'oggetto dell'analisi è per sua natura formato da almeno due componenti, come spesso accade nell'ambito di scienze quali l’Economia, le Scienze Sociali, la medicina, la biologia, ecc.. Fanno parte della statistica a più dimensioni metodi quali: - analisi della correlazione canonica e analisi delle componenti principali. - analisi fattoriale. - analisi delle corrispondenze. - analisi dei cluster. - analisi discriminante. - analisi della regressione multipla. Glossario Ogni capitolo si conclude con un paragrafo intitolato glossario che raccoglie tutti i termini tecnici specifici della disciplina, utilizzati nel capitolo. La sua funzione è duplice: da una parte, costituisce un strumento utile per il lettore non ancora avvezzo alla terminologia tecnica per potersi concentrare specificamente sulla terminologia e assimilarla prima e meglio; dall’altro, anche una guida per lo studente che, dopo aver studiato i contenuti delle sezioni precedenti, 23 Introduzione 25 potrà agevolmente verificare di aver assimilato i punti più importanti del capitolo. In questo capitolo, abbiamo imparato i seguenti concetti: - Carattere = oggetto dell’indagine (es. altezza, peso, reddito, sesso, titolo di studio, ecc...). - Dato = osservazione che si fa di un carattere su un’unità statistica. - Unità statistica = soggetto dell’indagine (appartenente al collettivo oggetto di studio). - Modalità = stato del carattere (l’altezza, il peso, ecc. di un’unità statistica). - Successione di dati = insieme delle modalità osservate. - Distribuzione di frequenza per valori singoli di modalità: consiste nell’organizzare la successione dei dati in funzione delle modalità e del numero di volte che esse si ripetono (= frequenza).