APPUNTI di ANALISI DEI DATI 1 Introduzione La Statistica opera sempre con collettivi: propone i metodi di raccolta per ottenere informazioni su una congrua dotazione di osservazioni e le sintesi per descrivere questo insieme o per inferire caratteristiche dell’insieme più vasto e generale alla quale questo insieme, per ipotesi, appartiene. Tradotto in termini tecnici: la statistica propone metodi per accumulare informazioni su un campione di unità statistiche e le sintesi per descrivere (statistica descrittiva) questo campione o per inferire (statistica inferenziale) caratteristiche della popolazione (o universo statistico) dalla quale il campione è stato estratto. L’osservazione partecipante di una società primitiva da parte di un antropologo e, più in generale, lo studio di caso non sono indagini statistiche, perché operano con una sola unità in osservazione. La Statistica opera in condizioni di incertezza. In pratica non interessano le costanti o i fenomeni deterministici ma solo i fenomeni che hanno una componente stocastica. Solo in presenza di indeterminatezza serve la statistica. Come sostenuto da Albert Einstein, “nella misura in cui le nostre proposizioni sono certe, non ci dicono nulla sulla realtà; nella misura in cui ci dicono qualcosa sulla realtà, non sono certe...” Caratteri rilevati su unità statistiche L’obiettivo di uno studio statistico è una popolazione di riferimento che prende il nome di universo statistico. Sono esempi di universo statistico la popolazione degli elettori italiani in un sondaggio svolto in occasione di elezioni politiche imminenti e la popolazione delle famiglie italiane in occasione del censimento, ma anche la popolazione di cavie di un laboratorio o la popolazione di motori prodotti da un’industria meccanica. La popolazione è formata da unità elementari chiamati unità statistiche (o casi). L’unità statistica è l’unità minima in cui si suppone per ipotesi di poter scomporre la popolazione. Nelle ricerche sociali quasi sempre l’unità statistica coincide con un individuo, come nel caso dell’elettore intervistato per il sondaggio. Non è detto che, in generale, l’unità statistica non sia ulteriormente decomponibile, come nel caso dell’elettore. Per esempio il motore è ulteriormente suddivisibile nei vari componenti, ma, una volta fissato il motore montato e finito come unità statistica per uno studio, questo aspetto non è di alcun interesse. Non è detto che l’unità statistica coincida con l’unità di rilevazione (cioè l’unità raggiunta sul campo dagli strumenti della ricerca) come nel caso dell’elettore e del motore. Per esempio il Censimento decennale della popolazione usa come unità di rilevazione le famiglie e poi apprende le informazioni sui membri del nucleo familiare, che sono le unità statistiche. Sulle unità statistiche si rilevano i caratteri di interesse, cioè le manifestazioni dei fenomeni oggetto di studio della ricerca. Utilizzando uno schema estremamente semplificato, si possono distinguere i caratteri osservabili sulle unità statistiche in tre grandi gruppi: caratteri qualitativi rappresentabili con mutabili (dette anche mutabili sconnesse, variabili qualitative, nominali o categoriali); caratteri ordinabili rappresentabili con ordinali (dette anche variabili ordinali o ordinabili); caratteri quantitativi rappresentabili con variabili metriche (dette anche variabili quantitative). Osservazione Alcuni autori ritengono l’uso del termine “variabile” non adatto ai caratteri qualitativi in quanto il concetto di variazione contiene il concetto di differenza quantificabile. I caratteri qualitativi, quindi, non variano, ma mutano, pertanto è più corretto parlare di mutabili. Nel linguaggio comune i due termini sono spesso trattati come sinonimi. La distinzione tra caratteri dipende dalla quantità e qualità di manipolazioni permesse sui caratteri rilevati, le quali stabiliscono anche una gerarchia. Al livello più basso della struttura gerarchica si trovano le mutabili. Una mutabile rappresenta un carattere rilevato attraverso un numero finito di modalità (o categorie). Esempio La mutabile “genere” ha due sole modalità (è dicotomica): ‘maschio’ e ‘femmina’, la mutabile “colore dell’iride” ha sette modalità (è politomica): ‘rosso’, ‘arancio’, ‘giallo’, ‘verde’, ‘azzurro’, ‘indaco’ e ‘violetto’. Alle modalità di una mutabile si può applicare solo l’operatore matematico di uguaglianza (=). Questo significa che date due unità statistiche sulle quali è stato rilevato un carattere qualitativo, come il genere di due individui, si può solo stabilire se le due unità sono uguali, cioè i due individui sono entrambi maschi (o entrambe femmine), o diverse, cioè un maschio e una femmina. Una ordinale rappresenta un carattere rilevato attraverso un numero finito di modalità (o categorie) sulle quali è stabilito un criterio di ordinamento. Esempio La mutabile “titolo di studio” di un gruppo di iscritti a un ufficio di collocamento ha quattro modalità: ‘elementare’, ‘media inferiore’, ‘media superiore’, ‘laurea’ e ‘laurea specialistica’. Alle modalità di una ordinale si può applicare, oltre all’operatore di uguaglianza, anche un operatore d’ordine (<). Questo significa che date due unità statistiche sulle quali è stato rilevato un carattere ordinabile, come il titolo di studio di due individui, si può stabilire se le due unità sono uguali o diverse e anche stabilire se il titolo di studio di una è maggiore o minore di quello dell’altra, per esempio un individuo laureato che ha un titolo di studio più elevato di un individuo diplomato. Approfondimento. Le dicotomie. I caratteri che possono manifestarsi con due sole modalità si chiamano dicotomici (o dicotomie) e sono, in generale, da considerare casi particolari delle mutabili, come il “genere”. Talvolta una dicotomia serve a rappresentare la presenza/assenza di una caratteristica (spesso indicate convenzionalmente con i codici ‘0’ e ‘1’) e alcune scuole (e i rispettivi modelli statistici) considerano questo tipo di caratteri come forme degeneri di variabili quantitative. In questa introduzione ai concetti di base si privilegia la natura qualitativa delle dicotomie e si riserva loro uno spazio specifico nell’ambito dell’analisi delle mutabili. Per approfondimenti… Al livello più alto della struttura gerarchica si trovano le variabili metriche. Una variabile metrica rappresenta un carattere rilevato attraverso valori numerici e una fissata unità di misura. Esempio La variabile metrica “peso in kilogrammi” degli atleti tesserati da una società sportiva è costituita dai numeri interi compresi tra un minimo, dato dal peso dell’atleta più gracile, e un massimo, dato dal peso dell’atleta più grosso. Ai valori di una variabile metrica si possono applicare, oltre agli operatori di uguaglianza e d’ordine, l’operatore matematico somma (+). Questo significa che date due unità statistiche sulle quali è stato rilevato un carattere quantitativo, come il peso di due atleti, si può stabilire se le due unità sono uguali o diverse, se un individuo è più pesante o più leggero dell’altro e anche calcolare la somma tra i due pesi (per esempio prima di fare entrare i due atleti in un ascensore) o la differenza (–). Le variabili metriche si dividono, a loro volta, in variabili metriche su scala a intervalli e variabili metriche su scala a rapporti. Le variabili metriche su scala a intervalli si distinguono da quelle su scala a rapporti perché hanno uno zero di natura convenzionale. Esempio La variabile metrica “temperatura in gradi centigradi” è su scala a intervalli perché lo zero è stabilito convenzionalmente in prossimità della temperatura in cui l’acqua si trasforma in ghiaccio. La variabile metrica “reddito annuo lordo in Euro” è, invece, su scala a rapporti. Infatti lo zero non è convenzionale, ma rappresenta l’assenza di redditi. Le variabili metriche su scala a rapporti occupano nella gerarchia un livello più alto di quelle su scala a intervalli perché aggiungono un ulteriore operatore matematico: il rapporto (/). Questo significa che date due unità statistiche sulle quali è stato rilevato un carattere quantitativo su scala a rapporti, come il reddito di due contribuenti, si può stabilire se il reddito è uguale o diverso, se un contribuente guadagna di più o di meno dell’altro, a quanto ammonta la differenza e anche calcolare il rapporto tra i due redditi (per esempio, stabilire che un contribuente percepisce un reddito doppio dell’altro). Con una variabile metrica su scala a intervalli questa operazione è priva di senso. Esempio Se oggi la temperatura è di 20°C e ieri la temperatura era di 10°C, posso dire che la temperatura di oggi è diversa da quella di ieri, che è maggiore e che la differenza è di 10°C, ma non ha alcun senso fare il rapporto tra i due valori e affermare che oggi c’è il doppio di caldo di ieri. Infatti, il valore zero della scala centigrada non è interpretabile come “assenza di calore” e traducendola in un’altra scala, come quella Farenheit, sebbene le temperature osservate rimangano le stesse, il ragionamento non sarebbe più valido. Per una sintesi dei tipi si veda lo schema in tabella 1: Tabella 1. Tipi di caratteri e operatori ammessi. = (≠) = Ordinali (≠) = Quantitative su scala a intervalli (≠) = Quantitative su scala a rapporti (≠) Mutabili > (<) > + (<) (-) > + / (<) (-) (×) Approfondimento. Altre tassonomie per i caratteri. La classificazione proposta ha il pregio di essere semplice e intuitiva, ma non è l’unica possibile e, probabilmente, nemmeno la migliore in assoluto. I tipi proposti non sono categorie esaustive e nemmeno mutuamente esclusive, perché ci sono vaste zone d’ombra nel passaggio da un livello della gerarchia a quello immediatamente adiacente. In letteratura si trovano altre classificazioni che fanno riferimento a concetti complementari come finito/infinito, continuo/discreto e che presentano problemi differenti. Immaginare caratteri con una quantità infinita o finita di manifestazioni possibili è abbastanza immediato. Non altrettanto si può dire per i concetti di continuo e discreto ed è difficile pensare a una definizione che sia al tempo stesso intuitiva e rigorosa. A livello intuitivo si può dire che un carattere quantitativo è continuo se tra due valori osservati è sempre possibile osservare infiniti valori intermedi, viceversa, se tra due valori osservati ci sono solo un numero finito o nessun valore intermedio, si tratta di una variabile discreta. Ai fini pratici può anche andare bene; mentre a rigori non è sufficiente (soprattutto se si pensa al concetto di continuità per le funzioni e si fa riferimento alla funzione di Cauchy). In matematica si introducono i concetti di dominio continuo e discreto facendo riferimento all’isomorfismo con l’insieme dei numeri reali e naturali rispettivamente. Ritornando ai tipi proposti, le variabili ordinabili e le mutabili sono necessariamente discrete e finite, in quanto possono assumere solo un numero finito di modalità. Hanno una natura qualitativa e non sono frutto di operazioni di misurazione o conteggio. Le variabili quantitative possono essere continue o discrete e possono assumere un numero finito o infinito di valori. Le variabili quantitative continue possono assumere necessariamente un numero infinito di valori. Le variabili quantitative frutto della misurazione di un carattere possono sempre assumere un numero potenzialmente infinito di valori diversi, numero limitato solo dalla precisione dello strumento di misura adottato o, eventualmente, dalla natura dell’oggetto della misurazione. Generalmente si tratta di variabili metriche continue, assimilabili a numeri reali e, non a caso, vengono rappresentate graficamente come punti su una retta. La variabile quantitativa “altezza” di un gruppo di giovani reclute può assumere tutti i valori compresi tra un minimo (l’altezza della recluta più bassa mai osservata nella storia) a un massimo (l’altezza dell’individuo più alto) e la misurazione dipende dall’unità di misura scelta, cioè dalla precisione dello strumento adottato. La precisione scelta può teoricamente aumentare dal centimetro, al millimetro, al decimo di millimetro e così via all’infinito ed è abbastanza intuitivo comprendere che, per la continuità del carattere osservato, se è possibile aumentare la precisione dello strumento all’infinito, allora non possono esistere due unità statistiche uguali (ipotesi, naturalmente, poco utile ai fini pratici). Le variabili quantitative discrete possono essere a valori finiti o infiniti. Le variabili quantitative frutto di una misurazione in senso lato come il conteggio possono assumere un numero potenzialmente infinito di valori diversi. Si tratta di variabili metriche discrete, assimilabili a numeri naturali. La variabile quantitativa “numero di auto transitate in un anno in un parcheggio” può assumere come valori tutti i numeri interi tra zero e infinito (almeno in linea teorica). Le variabili quantitative discrete a valori finiti, sebbene siano per definizione di natura quantitativa, hanno spesso tratti in comune con le variabili ordinali. Per esempio si consideri la variabile “voto in trentesimi esito di un esame universitario”, si tratta di una variabile quantitativa discreta che può assumere come valori i 23 numeri naturali compresi tra 18 e 30, oppure di una variabile ordinale con 24 modalità associate ai 23 voti compresi tra 18 e 30 a cui si aggiunge la categoria ‘30 e lode’? Trasformazione dei caratteri Durante l’analisi delle informazioni raccolte può essere utile trasformare un carattere e passare da un tipo a un altro. Data la gerarchia esistente, questa trasformazione è consentita solo nell’ottica della declassazione, cioè del passaggio da un livello a un livello inferiore. La trasformazione, quindi, comporta sempre una riduzione della portata informativa dei dati. Una variabile quantitativa può essere trasformata in ordinale attraverso una riduzione in classi. In questa operazione bisogna fare attenzione al trattamento dei valori estremi, cioè alle osservazioni che si collocano in prossimità dei bordi che delimitano le classi (il limite inferiore, o destro, e il limite superiore, o sinistro). Esempio La variabile “peso in kilogrammi” degli atleti può essere riorganizzata in sei classi di peso: (<50), [5060), [60-70), [70-80), [80-90) e [≥90). La prima classe contiene tutti i pesi inferiori a 50 Kg (50 escluso), e l’ultima tutti i pesi superiori a 90 Kg (90 compreso). Utilizzando una notazione matematica le classi proposte sono chiuse a sinistra e aperte a destra, questo vuol dire che, per esempio, un individuo che pesa esattamente 50 Kg viene collocato nella seconda classe, perché contiene il limite inferiore, e un individuo che pesa esattamente 60 Kg viene collocato nella terza. La riduzione in classi di una variabile quantitativa può essere un percorso scelto per semplificare la lettura dei dati, oppure dovuto a un imprevisto nel momento della rilevazione che aggiunge una o più categorie al posto dei valori numerici. Esempio La variabile “voto in trentesimi”, esito di un esame universitario, diventa ordinale per la presenta della categoria ’30 e lode’. Questa categoria, pur garantendo la relazione d’ordine (si tratta, infatti, del voto più elevato), aggiunge una modalità non traducibile univocamente in un valore numerico. Analogamente una variabile quantitativa può essere addirittura ridotta a nominale per la presenza di una o più categorie che non sono traducibili in un valore numerico e non garantiscono nemmeno la relazione d’ordine, come nel caso di una categoria ‘l’individuo rifiuta la misurazione’. Una ordinale può essere ridotta a mutabile ignorando l’ordine esistente tra le classi o per la presenza di una o più categorie che non garantiscono la relazione d’ordine. Esempio Una variabile ordinale “valutazione di un servizio” è stata definita su una scala percettiva a quattro modalità: ‘ottimo’, ‘sufficiente’, ‘insufficiente’ e ‘pessimo’, può essere necessaria una categoria aggiuntiva ‘non risponde’ perché un rispondente non fornisce la propria valutazione. In questo modo si ottiene una mutabile in quanto si perde l’ordinabilità delle categorie. Una mutabile si trova al livello più basso della scala gerarchica e non può, ovviamente, essere ulteriormente declassata. Tuttavia, nell’ottica di una trasformazione che comporta perdita di informazione, è possibile ridurre il numero di modalità per aggregazione, cioè fondendo nella stessa modalità due o più modalità della formulazione originaria. Esempio Un’azienda produttrice di cancelleria desidera conoscere i gusti di un campione di bambini nei confronti dei colori scelti dal grafico per la nuova linea di quaderni. Ai bambini intervistati viene chiesto di indicare il colore preferito tra dieci copertine: ‘giallo sole’, ‘giallo ocra’, ‘rosso Ferrari’, ‘rosso amaranto’, ‘rosa baby’, ‘celeste baby’, ‘blu elettrico’, ‘blu avio’, ‘blu navy’, ‘verde bosco’ e ‘verde acido’. A partire da queste 11 categorie si decide di semplificare l’analisi utilizzando solo quattro categorie: ‘gradazioni di giallo’, ‘gradazioni di rosso’, ‘gradazioni di blu’ e ‘gradazioni di verde’. In seconda battuta, si semplifica ulteriormente il carattere riducendolo a una dicotomia: ‘tonalità calde’ e ‘tonalità fredde’ come indicato in tabella 2. Tabella 2. Esempi di aggregazione di modalità. 1. giallo sole 2. giallo ocra 3. rosso Ferrari 4. rosso amaranto 5. rosa baby 6. celeste baby 7. blu elettrico 8. blu avio 9. blu navy 10. verde bosco 11. verde acido gradazioni di giallo gradazioni di rosso gradazioni di blu tonalità calde tonalità fredde gradazioni di verde La matrice dati Le informazioni disponibili sull’oggetto di indagine possono essere di tre tipi: microdati, macrodati e metadati. Un dato micro è una informazione disponibile alla massima disaggregazione possibile. In generale è la rilevazione di un carattere in prossimità di una unità statistica. Un macrodato è invece una sintesi di microdati. Infine, un metadato è un’informazione raccolta dal rilevatore sebbene non prevista dallo strumento di rilevazione. Esempio Il genere rilevato su un individuo è un dato micro, così come il numero annuo di auto transitate in un parcheggio o l’altezza di una recluta. La somma dei pesi di un gruppo di atleti che deve salire su un ascensore è un macrodato, così come il PIL di una nazione o l’indice dei prezzi al consumo. Il rifiuto a collaborare di un disoccupato contattato per un’intervista sul lavoro non regolare è un metadato, così come le sue abilità linguistiche o la percentuale di disoccupati del comune in cui si sta svolgendo la rilevazione. I caratteri rilevati sulle unità statistiche del collettivo oggetto di studio vengono organizzati in una tabella che prende il nome di matrice di dati (microdati). La matrice dati ha le righe intestate alle unità statistiche (in un numero pari alla dimensione del campione osservato) e le colonne ai caratteri (e in numero pari al totale di caratteri rilevati). Ogni cella contiene la rilevazione di un carattere (quello a cui è intestata la relativa colonna) in prossimità di una specifica unità (quella a cui è intestata la relativa riga). Una riga della matrice dati è la successione ordinata di tutte le informazioni relative alla medesima unità statistica e prende il nome di record. Una colonna è la successione ordinata di osservazioni relative al medesimo carattere e prende il nome di seriazione statistica. Esempio Esempi di costruzione della matrice di dati: 1) rilevazione con questionario strutturato; 2) serie storica; 3) rilevazione con intervista aperta La sintesi statistica Già nei primi decenni dello scorso secolo Niceforo scriveva: il metodo statistico ha per iscopo di ridurre grandi masse di osservazioni espresse con quantità o con attributi e fatte su gruppi omogenei di oggetti o sulle manifestazioni, simultanee o successive, del medesimo fenomeno, a pochi ma efficaci valori segnaletici. Tali valori indicano lo stato e le variazioni della massa osservata, ne facilitano i confronti e ne mostrano le relazioni con altre masse; portano lo studioso a scoprire la regola nell’apparente irregolarità con cui le masse studiate si presentano” (Niceforo 1923, pag.1). La statistica serve quindi per passare dalla massa di dati a una sintesi che ne permetta lo studio e la comparazione con altri casi. Le sintesi statistiche possono coinvolgere uno o più caratteri contemporaneamente. Le sintesi più semplici sono, naturalmente, quelle che riguardano un solo carattere. In questo caso di parla di analisi monovariata (o univariata ) in cui si lavora con le informazioni di una sola colonna della matrice dati. Caratteri qualitativi: analisi univariata. Al termine della rilevazione i dati memorizzati nella matrice dati possono essere elaborati. La prima elaborazione per una mutabile è lo spoglio della seriazione statistica, che consiste nel conteggio delle unità statistiche rilevate per ognuna delle modalità. Il risultato di uno spoglio è una tabella di frequenza che rappresenta la distribuzione del carattere, cioè la distribuzione delle unità statistiche rispetto alle modalità previste. Nella tabella di frequenza si riporta per ciascuna modalità il numero di casi presenti nel campione, che prende il nome di frequenza assoluta (tabella 3). Accanto alla frequenza assoluta si calcola la frequenza relativa, cioè la quantità relativa (la proporzione) di casi rilevati per ogni modalità, ottenuta dividendo la frequenza assoluta per il numero di osservazioni. Se moltiplicata per 100, la frequenza relativa fornisce automaticamente la frequenza percentuale. Tabella 3. La tabella di frequenza. frequenza assoluta modalità 1 n1 modalità 2 n2 modalità 3 n3 : : modalità k totale nk N= k i =1 ni n1 N n2 N n3 N : nk N frequenza percentuale % n1 ⋅100 N n2 ⋅ 100 N n3 ⋅ 100 N : nk ⋅ 100 N 1 100 frequenza relativa Esempi Si supponga di avere intervistato 10 individui, quattro maschi e 6 femmine. La tabella di frequenza associata alla mutabile “genere” rilevata sulle 10 unità statistiche è la seguente: Tabella 4. Tabella di frequenza della mutabile “genere”. genere maschio femmina totale f.a. f.rel. % 4 0,4 40 6 0,6 60 10 1 100 Si supponga di avere chiesto a 50 cittadini di un Comune che cosa pensano del lavoro svolto dal proprio Sindaco. La tabella di frequenza associata alla mutabile “opinione” organizzata in tre modalità ‘d’accordo’, ‘non d’accordo’ e ‘indifferente’, più la categoria aggiuntiva ‘non risponde’ è la seguente: Tabella 5. Tabella di frequenza della mutabile “opinione”. opinione d’accordo non d’accordo indifferente non risponde totale f.a. 10 20 12 8 50 f.rel. 0,20 0,40 0,24 0,16 1 % 20 40 24 16 100 Approfondimento. Analisi sui soli casi validi. A volte le frequenze relative vengono proposte sia sul totale (come nel caso delle tabelle proposte), sia sul totale dei soli dati validi, che sono ottenuti dal numero di osservazioni totali meno le non risposte. Tabella 5bis. Tabella di frequenza della mutabile “opinione” con frequenze calcolate sui soli dati validi. Opinione D’accordo non d’accordo indifferente non risponde totale f.a. 10 20 12 8 50 f.rel. 0,20 0,40 0,24 0,16 1 % 20 40 24 16 100 Opinione d’accordo non d’accordo Indifferente non risponde totale validi f.a. 10 20 12 42 f.rel. 0,24 0,48 0,28 1 % 24 48 28 100 L’utilizzo delle frequenze relative sui soli casi validi è un problema quando si vogliono fare confronti, perché i dati mancanti non sono necessariamente costanti rispetto ai caratteri. Il confronto può essere addirittura fuorviante, si veda il seguente caso. Nei giorni precedenti al ballottaggio tra due candidati alla carica di Sindaco, sono stati svolti due sondaggi basati su 3500 interviste telefoniche a elettori. Le percentuali sulle risposte valide hanno visto il candidato A passare da una sostanziale parità con il candidato B nel sondaggio svolto due settimane prima del ballottaggio (50%) a un netto vantaggio nella settimana precedente (55%). Tabella 6. Tabella di frequenza della mutabile “candidato vincente al ballottaggio” con le percentuali sulle risposte valide ottenute in due sondaggi. candidatoA candidato B 15 gg prima 50% 50% 7 gg prima 55% 45% Al ballottaggio il candidato A riesce a vincere, ma, a sorpresa, con un margine molto ridotto e con una bassa affluenza alle urne. I dati del sondaggio vengono rielaborati nuovamente tenendo conto delle interviste totali per capire le ragioni di questo errore nella previsione: Tabella 7. Tabella di frequenza della mutabile “candidato vincente al ballottaggio” con dati assoluti e percentuali in due sondaggi. Candidato A Candidato B non risposte totale validi Totale f.a. 1250 1250 1000 2500 3500 15 gg prima sul totale 36% 36% 28% 100% sui validi 50% 50% 100% - f.a. 1100 900 1500 2000 3500 7 gg prima sul totale 31% 26% 43% 100% sui validi 55% 45% 100% - Da questa ottica si vede chiaramente che le percentuali sulle sole risposte valide erano fuorvianti. Infatti, osservando le percentuali sul totale degli intervistati si vede che nel secondo sondaggio il candidato A, sebbene preferito al candidato B, presenta addirittura una flessione nelle preferenze ed è cresciuta drammaticamente la percentuale delle persone che non rispondono. Segno, probabilmente di un malcontento diffuso nell’elettorato, che ha portato molti a non votare. Il candidato A ha continuato a perdere terreno nei giorni precedenti alla consultazione fino ad avvicinarsi al candidato B e rischiare di perdere il confronto. La tabella di frequenza può essere rappresentata anche attraverso un grafico. I grafici più comuni per le mutabili sono quelli a torta, a nastri e a barra suddivisa. Il grafico a torta rappresenta la distribuzione del carattere attraverso spicchi di un’area circolare. L’area della circonferenza rappresenta il 100% della distribuzione e ogni modalità viene assegnata a uno spicchio di area proporzionale alla propria percentuale. I grafici a nastri (detti anche a bandiera o a barre orizzontali) rappresentano la distribuzione del carattere attraverso strisce di lunghezza proporzionale alla percentuale realizzata da ciascuna modalità. La barra suddivisa rappresenta la distribuzione del carattere su un’unica barra verticale. L’altezza totale della barra rappresenta il 100% della distribuzione e ogni modalità viene assegnata a una porzione della barra di altezza proporzionale alla percentuale realizzata. Nella figura 1 è rappresentato graficamente lo spoglio della variabile “genere” già presentato nella tabella 4 e nella figura 2 quello della variabile “opinione” della tabella 5. Le modalità di una mutabile possono essere rappresentate anche attraverso pittogrammi, disegni in cui si rappresenta una modalità con un disegno e la dimensione del disegno è proporzionale alla frequenza. Figura 1. Rappresentazioni grafiche della distribuzione delle tabelle 4 e 5 a torta: a nastri: a barra suddivisa: 100% femmina 80% maschio 40% femmina 60% maschio 60% f emmina 40% maschio 20% 0 non risponde 16% d' accordo 20% 0,1 0,2 0,3 0,4 0,5 non risponde 60 indifferente 50 non d' accordo indifferente non risponde 30 d' accordo non d' accordo 40% d' accordo 40 non d' accordo indifferente 24% 0% 0,6 0 5 10 15 20 25 20 10 0 1 La prima sintesi che si ricava dalla tabella di frequenza è la moda. La moda è la modalità che si presenta con frequenza massima. La moda della mutabile “genere” della tabella 4 è ‘femmina’ e quella della mutabile “opinione” della tabella 5 è ‘non d’accordo’. Se in una distribuzione ci sono due (o più) modalità che si presentano con frequenza massima si hanno due (o più mode). Si parla di distribuzione bimodale (plurimodale) Oltre alla moda è interessante osservare la dispersione del carattere, cioè distinguere le situazioni in cui c’è una forte concentrazione di casi in prossimità di una modalità dalle situazioni in cui le unità statistiche si distribuiscono uniformemente su tutte le modalità. Al fine di riconoscere i casi di concentrazione/dispersione, si può calcolare l’indice di Gini G: G= k i =1 fi = f i (1 − f i ) ni N dove i è una variabile contatore che indica le modalità, k rappresenta il numero totale di modalità della mutabile e fi la frequenza relativa della i-esima modalità. L’indice G può variare tra zero e un massimo. Assume il valore zero quando c’è massima concentrazione (come nel caso del secondo consulente), raggiunge il valore massimo quando c’è equidistribuzione tra le modalità (come nel caso del primo consulente). L’indice G converge a uno se c’è equidistribuzione e il numero di modalità è così elevato da tendere a infinito. Pertanto, il valore uno è un massimo teorico. Ai fini pratici, data una tabella con k modalità l' indice G varia tra zero e il massimo Gmax ottenibile come rapporto tra il numero di modalità meno uno e il numero di modalità: Gmax = k −1 k Siccome l' indice G ha un massimo che varia al variare del numero di modalità della tabella, per fare confronti si utilizza l' indice di Gini standardizzato (o Gini relativo): Grel = G k = G Gmax k − 1 Grel varia tra zero e uno (valore massimo). Esempio Si osservi la seguente tabella. Sono stati sottoposti all’attenzione di tre consulenti novanta prodotti da pubblicizzare ed è stato chiesto loro di scegliere il mezzo più adatto per la campagna pubblicitaria (TV, radio o stampa). Il primo consulente equidistribuisce i prodotti rispetto ai media, il secondo, invece, li concentra tutti nella stessa categoria, cioè sceglie per tutti la radio, il terzo si colloca in una posizione intermedia rispetto agli altri due. Tabella 8. Scelta del mezzo più adatto per la campagna pubblicitaria di 90 prodotti di tre consulenti interpellati. TV Radio Stampa Totale = primo consulente: secondo consulente: terzo consulente: = f.a. primo consulente 30 30 30 90 − + − f.a. secondo consulente 0 90 0 90 + − = ⋅ f.a. terzo consulente 35 10 45 90 = = ⋅ + ⋅ + ⋅ = − + − + − = ⋅ + ⋅ + ⋅ = La massima concentrazione è quella del secondo consulente, la minima quella del terzo. Esempio: Valutare diverse domande per capire quale formulazione distribuisce meglio i casi tra le modalità: Domanda1: Quanto sei soddisfatto di questo corso? molto soddisfatto soddisfatto insoddisfatto molto insoddisfatto Domanda2: Quanto sei soddisfatto di questo corso? Domanda3: Quanto sei soddisfatto di questo corso? molto soddisfatto soddisfatto indifferente insoddisfatto molto insoddisfatto Domanda4: Su una scala da 1 a 7, dove 7 indica la massima soddisfazione, quanto sei soddisfatto di questo corso? Domanda5: Su una scala da 1 a 10, dove 10 indica la massima soddisfazione, quanto sei soddisfatto di questo corso? Quanto sei soddisfatto di questo corso? Domanda1 molto soddisfatto soddisfatto insoddisfatto molto insoddisfatto Totale n 47 60 43 50 200 fr 0,24 0,30 0,22 0,25 1,00 1-fr 0,77 0,70 0,79 0,75 Domanda2 n 192 fr 0,96 1-fr 0,04 fr(1-fr) 0,04 2 0,01 0,99 0,01 1 0,01 1,00 0,00 5 0,03 0,98 Totale 200 1,00 Domanda3 molto soddisfatto soddisfatto indifferente insoddisfatto molto insoddisfatto Totale n 10 10 160 10 10 200 fr 0,05 0,05 0,80 0,05 0,05 1,00 1-fr 0,95 0,95 0,20 0,95 0,95 Domanda4 n 59 37 3 15 5 48 33 200 fr 0,30 0,19 0,02 0,08 0,03 0,24 0,17 1,00 1-fr 0,71 0,82 0,99 0,93 0,98 0,76 0,84 n 94 3 2 0 15 0 1 1 2 82 200 fr 0,47 0,02 0,01 0,00 0,08 0,00 0,01 0,01 0,01 0,41 1,00 1-fr 0,53 0,99 0,99 1,00 0,93 1,00 1,00 1,00 0,99 0,59 7 6 5 4 3 2 1 Totale Domanda5 10 9 8 7 6 5 4 3 2 1 Totale fr(1-fr) 0,18 0,21 0,17 0,19 0,75 G= Gmax=3/4= 0,75 0,75 0,02 G= 0,08 0,08 Gmax=3/4= fr(1-fr) 0,05 0,05 0,16 0,05 0,05 0,35 Grel=G/Gmax= 0,99 0,75 Grel=G/Gmax= 0,10 G= Gmax=4/5= 0,35 0,80 Grel=G/Gmax= 0,44 fr(1-fr) 0,21 0,15 0,01 0,07 0,02 0,18 0,14 0,79 G= Gmax=6/7= 0,79 0,86 Grel=G/Gmax= 0,92 fr(1-fr) 0,25 0,01 0,01 0,00 0,07 0,00 0,00 0,00 0,01 0,24 0,60 G= Gmax=9/10= 0,60 0,90 Grel=G/Gmax= 0,67 Ordinali: analisi univariata. Anche a partire dallo spoglio di una variabile ordinale si ottiene una tabella di frequenza con le frequenze assolute, relative e percentuali. L’ordinabilità delle categorie permette anche il calcolo delle frequenze cumulate. Data una modalità, la frequenza cumulata si ottiene come somma della frequenza di questa modalità e delle frequenze di tutte le modalità che la precedono nell’elenco. Si possono avere frequenze cumulate assolute, relative e percentuali. Oltre alla moda con le variabili ordinali è possibile calcolare la mediana. La mediana è la modalità associata all’unità statistica che si trova al centro della distribuzione (che si suppone sempre ordinata secondo il criterio di ordinamento). Per rintracciare facilmente la mediana nella tabella di frequenza è sufficiente vedere in prossimità di quale modalità è stata conteggiata l’unità statistica che si colloca (o le due unità statistiche che si collocano) al centro della distribuzione seguendo le frequenze assolute o dove cade il 50% della percentuale cumulata (o dove si raggiunge il valore 0,5 della frequenza relativa cumulata). Nel caso in cui si abbia un numero di unità statistiche pari e le due unità centrali si collochino in due modalità consecutive, si hanno due modalità mediane per la distribuzione. Esempio Si osservi la tabella 9. Sui 90 prodotti da pubblicizzare dell’esempio precedente è stata rilevata la “qualità del prodotto” attraverso una variabile ordinale con quattro modalità (dal ‘primo livello’, che rappresenta i prodotti di qualità migliore, al ‘quarto livello’, che rappresenta i prodotti di qualità più scadente). Tabella 9. Qualità di 90 prodotti da pubblicizzare qualità f.a. primo livello secondo livello terzo livello quarto livello totale 12 25 11 42 90 f.a. cumulata 12 37 48 90 – f.r. 0,13 0,28 0,12 0,47 1 f.r. cumulata 0,13 0,41 0,53 1 – % 13 28 12 47 100 % cumulata 13 41 53 100 – La frequenza cumulata ci serve per affermare che il 41% dei prodotti è almeno di (primo o) secondo livello, che poco più della metà (53%) dei prodotti non è di qualità troppo scadente, etc. La moda è costituita dalla modalità ‘quarto livello’. Nel caso in questione, se si suppone di mettere idealmente in fila tutti i 90 prodotti a partire da quelli di primo livello, seguiti da quelli di secondo livello, di terzo e di quarto, etc., è chiaro che la distribuzione si divide a metà in prossimità del 45° e 46° prodotto (se il numero di unità statistiche è pari si hanno due unità centrali di riferimento, se, invece, il numero di unità statistiche è dispari solo una). I due prodotti centrali sono di ‘terzo livello’, che è la modalità mediana della distribuzione. Nella descrizione della distribuzione di un carattere ordinale si possono impiegare i quantili. I quantili rappresentano un criterio di ripartizione della distribuzione in parti uguali. I quantili più utilizzati sono i quartili, i decili e i percentili. Il primo quartile di una distribuzione è la modalità dove si è cumulata un quarto della distribuzione totale, il secondo quartile coincide con la mediana, il terzo quartile è la modalità dove si è cumulato il 75% della distribuzione e il quarto quartile coincide con l’ultima modalità (che rappresenta il 100% della percentuale cumulata). Analogamente, il primo decile rappresenta il primo decimo della distribuzione e coincide con la modalità in cui si è raggiunto il 10% della percentuale cumulata. Il primo percentile rappresenta il primo centesimo della distribuzione e coincide con la modalità in cui si è raggiunto l’1% della percentuale cumulata. Il quinto decile e il cinquantesimo percentile coincidono con la mediana. Per quanto riguarda i grafici, si utilizzano per le ordinali le stesse rappresentazioni viste per le mutabili; con l’accorgimento di disporre le modalità secondo il criterio di ordinamento. Per quanto riguarda la dispersione, si può, naturalmente, utilizzare l’indice di Gini, oppure gli scarti dalla mediana. (work in progress). Calcolo della mediana in un caso in classi (approssimazione lineare). Definizione di funzione di ripartizione empirica Variabili quantitative: analisi univariata. Una variabile quantitativa può essere rappresentata con una tabella di frequenza solo se è stata ridotta in classi. In seguito a questa operazione è chiaro che si possono calcolare tutte le sintesi previste per mutabili e ordinali (moda, mediana, percentili, frequenze relative, cumulate, indice di Gini, etc.). Anche in questo caso si possono utilizzare tutti i grafici visti per le mutabili con l’accorgimento di rispettare l’ordine delle modalità. Per le variabili quantitative si ha un tipo di grafico in più che tiene conto dell’ampiezza delle classi: l’istogramma. L’istogramma assomiglia a un grafico a nastri (normalmente con le barre verticali), ma la base dei rettangoli è proporzionale all’ampiezza delle classi e l’area di questi rettangoli (non l’altezza come nel caso del grafico a nastri) è proporzionale alla frequenza della classe. Esempio Si osservi l’esempio riportato nella tabella 10 in cui è rappresentata la frequenza per classi d’età di ampiezza diversa relative a un campione di individui. Tabella 10. Distribuzione di un campione per classi d’età non omogenee classe d’età 0-20 20-30 30-40 40-60 60-70 totale ampiezzaclasse 20 10 10 20 10 % 20 20 40 10 10 100 Per tenere conto della diversa ampiezza delle classi, si ottiene il seguente istogramma: 0- 20 20-30 30-40 40- 60 60-70 Rappresentazione grafica attraverso il box-plot (diagramma a scatola con baffi) Un rettangolo i cui estremi sono il primo e terzo quartile (Q1 e Q3), tagliato da una linea all' altezza della mediana (Q2). Abitualmente vengono aggiunte due righe (detti anche baffi) corrispondenti ai valori distanti 1,5 volte la distanza interquartile (IQR=Q3-Q1) a partire rispettivamente dal primo e dal terzo quartile. Il box-plot può essere utilizzato per la comparazione di distribuzioni e per l' identificazione di valori anomali (quelli che restano fuori dai "baffi") Sulla seriazione di una variabile quantitativa è possibile calcolare la media. Se si indica con la media calcolata sul campione e con xi il carattere rilevato sulla i-esima unità statistica, con i contatore delle unità statistiche da 1 a N (numerosità totale): = = La media rappresenta il baricentro della distribuzione. La somma degli scarti dalla media è sempre pari a zero: = ( − )= Quindi la media è il valore che annulla la somma degli scarti. Inoltre, la media è il valore che rende minima la somma degli scarti quadratici: = ( − ) = Gli scarti quadratici sono la base per il calcolo della varianza campionaria e dello scarto tipo campionario. Nella popolazione la varianza è la media degli scarti quadratici e rappresenta quanto i valori sono dispersi intorno alla media. La varianza può assumere valori tra zero e infinito. Assume il valore zero quando tutte le osservazioni presentano un valore pari alla media e cresce al crescere della dispersione. La varianza è un indice quadratico; per riportare la misura della dispersione sulla stessa scala delle osservazioni, si utilizza lo scarto tipo (o deviazione standard, o standard deviation o scarto quadratico medio). Lo scarto tipo campionario s è la radice quadrata della varianza. N s= i =1 (xi − x )2 N −1 Esempio La tabella 11 riporta la valutazione in trentesimi ottenuta da 10 studenti di un gruppo di lavoro. La media è 26. Calcoliamo, ora, di quanto ciascuna osservazione si scosta (in più o in meno) da questa media, arrivando, quindi, al quadrato dei singoli scarti, positivi e negativi. Tabella 11. Valutazione ottenuta dai 10 studenti del primo gruppo di lavoro. studente 1 2 3 4 5 6 7 8 9 10 voto x 22 23 24 26 26 27 27 27 28 30 260 gruppo 1 voto medio x 26 26 26 26 26 26 26 26 26 26 s= x−x -4 -3 -2 0 0 1 1 1 2 4 0 ( x − x )2 16 9 4 0 0 1 1 1 4 16 52 52 = 2,40 9 Tabella 12. Valutazione ottenuta dai 10 studenti del secondo e terzo gruppo di lavoro. studente 1 2 3 4 5 6 7 8 9 10 x 25 25 25 26 26 26 26 27 27 27 260 gruppo 2 x x−x 26 -1 26 -1 26 -1 26 0 26 0 26 0 26 0 26 +1 26 +1 26 +1 0 ( x − x )2 1 1 1 0 0 0 0 1 1 1 6 studente 1 2 3 4 5 6 7 8 9 10 x 26 26 26 26 26 26 26 26 26 26 260 gruppo 3 x x−x 26 0 26 0 26 0 26 0 26 0 26 0 26 0 26 0 26 0 26 0 0 ( x − x )2 0 0 0 0 0 0 0 0 0 0 0 Indicando con 1, 2 e 3 i dati relativi ai tre gruppi: x1 = x2 = x3 = 260 = 26 10 s1 = 52 = 2,40 9 s2 = 6 = 0,82 9 s3 = 0 =0 9 Si osserva che le medie sono uguali nei tre gruppi, ma il primo gruppo ha un profitto molto più variabile del secondo e il terzo è un caso limite che non mostra alcuna variabilità. Utilizzo dello scarto tipo e dei punteggi z per la valutazione dei dati anomali Il quoziente fra lo scarto dalla media e lo scarto tipo si chiama scarto ridotto, chiamato più comunemente scarto standardizzato o punteggio z (z-score). I punteggi z possono essere utilizzati per confrontare distribuzioni o per individuare i valori anomali di una distribuzione. Per riconoscere facilmente quali valori si possono considerare significativamente superiori (o inferiori) alla media si può applicare la seguente regola empirica: i punteggi z compresi nell' intervallo (–2, +2) (cioè inferiori a 2 in valore assoluto) non sono significativi; i punteggi z superiori a 2 o inferiori a –2 (cioè superiori a 2 in valore assoluto) possono essere considerati insoliti (sono valori che si possono verificare aleatoriamente con una probabilità di circa il 5%); i punteggi z superiori a 3 o inferiori a –3 (cioè superiori a 3 in valore assoluto) possono essere considerati molto insoliti (sono valori che si possono verificare aleatoriamente con una probabilità inferiore all' 1%). La media proposta (che prende il nome di media aritmetica) è un caso particolare di media ponderata, concetto che viene introdotto al fine di tenere conto del diverso peso assegnato alle unità statistiche. In generale una media ponderata si ottiene fissando un sistema di pesi. Nella somma il valore di ogni unità statistica xi va moltiplicato per il proprio peso pi e il tutto viene diviso per la somma dei pesi: = ⋅ = = La media aritmetica è un caso particolare di media ponderata con pesi assegnati alle unità statistiche tutti pari a uno (o, comunque, tutti uguali). Esempio Si supponga che un contadino debba calcolare il profitto medio ottenuto con la coltivazione di un appezzamento. L’appezzamento è diviso in quattro parti indicate con le lettere A, B, C, D. Il ricavo ottenuto è così distribuito: A B C D 1000€ 1200€ 300€ 1500€ Siccome la distribuzione non è in parti uguali, il calcolo del profitto medio deve tenere conto delle dimensioni di ciascun campo: A C D B Il campo A occupa il 40% dell’appezzamento, B il 10%, C il 30% e D il 20%. Pertanto si possono assegnare alle quattro unità statistiche i pesi 0,4 0,1 0,3 e 0,2 rispettivamente. La media ottenuta è 910€: = ⋅ + ⋅ + ⋅ + ⋅ =