MANUALE di statistica Statistica e fenomeni collettivi Statistica e fenomeni collettivi .................................................................... 2 L’unità statistica ........................................................................................ 2 Collettivo statistico o popolazione statistica ................................................... 2 Popolazione o campione ............................................................................. 3 Caratteri dell’unità statistica ........................................................................ 3 Le modalità del carattere ............................................................................ 3 Uguaglianza di due unità ............................................................................ 3 Caratteri quantitativi (variabili) e caratteri qualitativi (mutabili) ....................... 3 Caratteri qualitativi sconnessi e ordinati ........................................................ 4 Caratteri quantitativi continui e discreti ......................................................... 4 Le distribuzioni statistiche ........................................................................... 4 Distribuzioni di quantità .............................................................................. 5 Distribuzioni di frequenza ........................................................................... 5 Gli indici di posizione .................................................................................. 5 La media aritmetica. ............................................................................ 5 La moda. ........................................................................................... 6 La mediana. ....................................................................................... 6 Quantili – Quartili – Percentili ...................................................................... 7 Misure di dispersione.................................................................................. 8 la varianza e lo scostamento quadratico medio ........................................ 8 Tabelle di frequenza (semplici) e tabelle a doppia entrata ................................ 9 Dati bivariati ........................................................................................... 10 Coefficiente di correlazione lineare ............................................................. 10 Retta di regressione ................................................................................. 11 Il concetto di probabilità ........................................................................... 12 L'inferenza statistica ................................................................................ 13 Il campionamento statistico ...................................................................... 13 Le indagini censuarie................................................................................ 14 Le rappresentazioni grafiche...................................................................... 14 Diagramma a barre ........................................................................... 14 Istogramma ..................................................................................... 14 Diagramma a settori circolari (torta) .................................................... 15 Diagramma di dispersione o a punti ..................................................... 15 Grafici dinamici ....................................................................................... 16 Statistica e fenomeni collettivi 1 Se si osserva un gruppo piuttosto folto di persone, ad esempio in fila per entrare allo stadio, non si è in grado di affermare di quanti individui è composto il gruppo. Per saperlo si dovrà contarli uno ad uno, perché nessuno è in grado di valutare esattamente la consistenza di un folto gruppo di persone senza contarle. L’operazione che si deve fare è forse la più importante, ma certo la più semplice, operazione della statistica: il conteggio; in base ad esso si perviene alla conoscenza del numero delle persone (o in genere delle unità statistiche) che costituiscono il gruppo (il collettivo). I fenomeni che la nostra mente non può conoscere con una sola osservazione, ma che apprende attraverso la sintesi delle osservazioni sulle singole unità che compongono una collettività, vengono abitualmente chiamati fenomeni collettivi o di massa. Essi, per essere conosciuti quantitativamente con precisione, richiedono dunque l’esecuzione di numerose osservazioni di fenomeni più semplici che sono detti quindi, per contrapposizione, fenomeni individuali o singoli. Sono, ad esempio, fenomeni collettivi la natalità, la nuzialità e la mortalità, le cui misure si ottengono contando l’insieme dei fenomeni individuali cui attengono (nascite, matrimoni o morti) di un certo periodo e, se necessario, mettendo a confronto i valori ottenuti con quello relativo ad un altro fenomeno collettivo: l’ammontare della popolazione. All’incapacità della mente di percepire con una sola osservazione i fenomeni collettivi si provvede con la statistica, che è perciò la tecnica che ha come scopo la conoscenza quantitativa dei fenomeni collettivi. L’unità statistica L’oggetto dell’osservazione di ogni fenomeno individuale che costituisce il fenomeno collettivo è detto unità statistica. Per esempio, è un’unità statistica ciascun individuo di una popolazione, ciascun nato, ciascun morto, ogni coppia di sposi, ciascun emigrato ecc., a seconda del fenomeno oggetto di indagine. Collettivo statistico o popolazione statistica Il collettivo statistico, detto anche popolazione o, con termine più propriamente statistico, universo, è l'insieme delle unità statistiche a cui riferire i risultati di un'indagine. Quando si parla di “popolazione statistica”, pertanto, non necessariamente ci si riferisce all’ambito della demografia ma a qualunque fenomeno collettivo. 1 Per una parte del manuale si è utilizzata la Fonte: http://www.istat.it/it/files/2012/03/introduzione.zip 2 Popolazione o campione In statistica si può effettuare una rilevazione o sull’intera popolazione (cfr. definizione alla voce collettivo statistico o popolazione statistica), come avviene per i censimenti, o su una parte di essa, che si denomina “campione”. Le relative indagini sono dette allora “campionarie” e rappresentano la maggior parte delle indagini effettuate con l’ausilio di tecniche statistiche. Questo avviene per varie ragioni: di costo, di tempo, organizzative. Effettuare un’indagine statistica su una porzione, più o meno grande, della popolazione anziché sull’intera popolazione è infatti più semplice, rapido ed economico. La statistica ha studiato molti ed efficaci sistemi, con l’ausilio di strumenti matematici e probabilistici, sia per costruire i campioni in modo efficiente e rigoroso sia per riportare le informazioni raccolte attraverso il campione all’intera popolazione e misurare il grado di attendibilità delle stime. Caratteri dell’unità statistica Le unità statistiche presentano delle caratteristiche che si indicano con il nome di caratteri. Ogni unità statistica è portatrice, generalmente, di una molteplicità di caratteri. Si consideri un gruppo di studenti universitari. Per ognuno di essi si può determinare l’età, la statura, il peso, il sesso, il colore dei capelli, il gruppo sanguigno, il numero dei fratelli, la nazionalità, la religione, il luogo di residenza, la facoltà cui è iscritto, l’anno di corso ecc. Si dice che l’età, la statura, il sesso ecc. sono tutti caratteri di ciascuna unità (nell’esempio: studente). Le modalità del carattere Ciascun carattere è presente in ogni unità con una determinata modalità: per esempio, se uno studente è di nazionalità italiana e un altro è di nazionalità francese, diciamo che nel primo il carattere nazionalità presenta la modalità “italiana”, mentre nell’altro la modalità “francese”. Uguaglianza di due unità Per qualunque carattere è sempre possibile riscontrare l’uguaglianza o la disuguaglianza delle modalità presentate dal carattere in due unità diverse. Diciamo uguali due unità, rispetto ad uno o più caratteri da esse posseduti, se ognuno di quei caratteri è presente in ciascuna delle due unità con la stessa modalità. Caratteri quantitativi (variabili) e caratteri qualitativi (mutabili) I caratteri presenti in una unità statistica sono generalmente di natura assai diversa. Nei casi in cui questi possano essere espressi da numeri, ossia siano misurabili, ossia per essi sia possibile definire un’unità di misura cosicché le modalità siano numeri che è possibile sommare o sottrarre fra loro (numeri cardinali), si dice che siamo in presenza di caratteri quantitativi (ad esempio il peso, l’altezza, il numero 3 dei fratelli ecc.) e il carattere assume la denominazione specifica di “variabile”; in tutti gli altri casi si è generalmente in presenza di caratteri qualitativi (ad esempio: il colore dei capelli o la nazionalità): in tali casi il carattere è definito “mutabile”. Caratteri qualitativi sconnessi e ordinati I caratteri qualitativi, a loro volta, possono distinguersi in sconnessi oppure ordinati a seconda che sia possibile o meno graduarne la diversità. Ad esempio, il carattere qualitativo “religione” è sconnesso: noi diciamo che le religioni ebraica e musulmana sono diverse e che diverse sono pure quella cristiana e musulmana ma non possiamo graduare le diversità secondo un criterio logico/ordinato; invece per il carattere “titolo di studio” possiamo dire, per esempio, non solo che i titoli “licenza elementare” e “licenza media” sono diversi e che lo sono anche “licenza elementare” e “diploma di scuola secondaria superiore” ma anche che è possibile ordinarli per importanza. Un’altra importante distinzione: Caratteri quantitativi continui e discreti I caratteri quantitativi vengono a loro volta distinti in caratteri continui e in caratteri discontinui (e fra questi ultimi vengono individuati anche i caratteri discreti). Un carattere quantitativo è detto continuo se, comunque si fissino due valori (entro l’intervallo in cui il carattere è osservabile), tutti i valori intermedi possono essere assunti come modalità del carattere (si pensi al “peso” e anche all’”età” se misurata in anni, mesi, giorni, ore, minuti). Un carattere che non sia continuo è detto discontinuo. Un carattere discontinuo è denominato discreto se, comunque si fissi una sua modalità (interna all’intervallo in cui il carattere è osservabile), esiste un intervallo di cui la modalità è il centro – in cui, all’infuori di essa, nessun altro valore può essere assunto come modalità del carattere. Ad esempio, il “numero dei fratelli” è un carattere discreto: infatti, mentre si possono avere 3 fratelli, non se ne possono avere 2,7 o 2,8 o 2,9 o 3,1 e così via… e quindi questi ultimi valori non possono essere assunti come modalità del carattere “numero dei fratelli”. Le distribuzioni statistiche L’effetto dell’operazione di determinazione della modalità con cui ognuno dei caratteri si presenta in ciascuna unità del collettivo è la “distribuzione” del collettivo secondo i caratteri considerati. Il nome “distribuzione” deriva dal fatto che mediante essa si indica come le modalità dei caratteri si distribuiscono nelle unità del collettivo. Si distinguono distribuzioni di quantità e distribuzioni di frequenza. 4 Distribuzioni di quantità La distribuzione di quantità è una organizzazione di dati in forma tabellare tale che ad ogni modalità di una certa variabile si fa corrispondere una quantità (assoluta o relativa), idealmente trasferibile tra le unità della popolazione. Quindi la distribuzione di quantità esplicita come l’ammontare complessivo del fenomeno si distribuisce fra le modalità (le categorie, le unità amministrative, i gruppi sociali e così via). Tali rappresentazioni sono molto diffuse. Esempi: immatricolati per corso di laurea, incidenti stradali per mese dell’anno, reati denunciati per tipologia ecc. Distribuzioni di frequenza La distribuzione di frequenza è una organizzazione di dati in forma tabellare tale che ad ogni modalità di una certa variabile (qualitativa o quantitativa) si fa corrispondere la rispettiva frequenza (assoluta o relativa). Quindi la distribuzione di frequenza esplicita quante volte (in assoluto se trattasi di frequenza assoluta, oppure in rapporto al totale se trattasi di frequenza relativa) una determinata modalità si presenta nel collettivo in esame. Se ad esempio considerassimo la distribuzione dei ragazzi iscritti ad una scuola secondaria di 2° grado secondo il carattere «età», potremmo ottenere una tabella, contenente le frequenze assolute e percentuali, simile alla seguente: Studenti di una scuola secondaria di secondo grado secondo il carattere età Età N. studenti Valori percentuali Meno di 15 anni 55 6,7 15 anni 154 18,6 16 anni 167 20,2 17 anni 145 17,5 18 anni 182 22,0 19 anni e oltre 124 15,0 Totale 827 100,0 Gli indici di posizione Lo scopo principale di un valore medio è di fornire un valore numerico capace di rappresentare sinteticamente tutti i dati di un certo insieme. I valori medi più utilizzati sono • la media aritmetica; • la moda; • la mediana. La media aritmetica è l’indice di posizione di un collettivo statistico maggiormente utilizzato e si ottiene sommando tutti gli elementi del collettivo e dividendo il risultato per la dimensione dello stesso. . 5 Nella formula, M rappresenta la media aritmetica, x1, x2,…, xn sono i valori assunti dalla variabile e n la numerosità della popolazione o del campione. Vediamo un semplice esempio di calcolo della media aritmetica per la variabile “altezza”, all’interno di un piccolo gruppo di studenti: Altezza di alcuni studenti (cm) A B C D E F G H I Somma delle altezze Media aritmetica (somma delle altezze divisa per 145 154 162 170 165 146 162 168 150 1.422 158 9, numero degli studenti) La moda di un collettivo, distribuito secondo un carattere, è la modalità prevalente del carattere ossia quella a cui è associata la massima frequenza. Vediamo meglio, al solito, con un esempio; osserviamo la possibile distribuzione degli studenti di una classe secondo la variabile “colore degli occhi”: . Studenti di una classe suddivisi in base al colore degli occhi Valore assoluto Valore percentuale Marrone 18 62,1 Nero 6 20,7 Azzurro 3 10,3 Verde 2 6,9 Totale 29 100,0 La moda di questa distribuzione sarà la modalità “marrone”, come si evince facilmente dalla tabella. La mediana è un indice di posizione di una distribuzione di dati disposti in ordine crescente e corrispondente al valore che divide il collettivo in due parti, per cui una metà degli elementi dell’insieme di dati sarà minore o uguale alla mediana, mentre la restante sarà superiore o uguale. La mediana suddivide ogni distribuzione ordinata in due distribuzioni aventi ciascuna una numerosità (o una quantità) che è il 50% della numerosità (o della quantità) della distribuzione totale. Cerchiamo di capire meglio con un altro esempio. Osserviamo la tabella seguente, che riporta la distribuzione di un gruppo di studenti per classi di peso. Si riporta anche il calcolo delle frequenze assolute cumulate, che servono per il calcolo della mediana. Tali frequenze cumulate si calcolano sommando tra loro via via le frequenze assolute. La prima, 12, sarà uguale alla prima frequenza, la seconda, 35, alla somma di 12 e 23, la terza, 70, alla somma di 12, 23 e 35 e così via. Il significato delle frequenze cumulate è il seguente: gli studenti che hanno un peso . 6 fino a 50 kg sono 12, quelli che hanno un peso fino a 55 kg sono 35, fino a 60 sono 70 e così via. Studenti suddivisi per classi di peso Peso Frequenze assolute Al di sotto dei 50 kg 12 Dai 50 ai 55 kg 23 Dai 55 ai 60 kg 35 Dai 60 ai 65 kg 32 Dai 65 ai 70 kg 24 Al di sopra dei 70 kg 8 Totale 134 Frequenze cumulate 12 35 70 102 126 134 Se dividiamo 134 per due otteniamo 67, per cui la classe mediana della distribuzione è la classe “dai 55 ai 60 kg”; infatti se osserviamo le frequenze cumulate la classe precedente arriva a 35 studenti mentre la classe in esame arriva a 70 studenti. Dunque la classe suddetta “contiene” il valore mediano della distribuzione, è dunque la classe mediana della distribuzione. In altri termini, in corrispondenza del 67mo dei 134 studenti - ordinati in modo crescente secondo il peso - si osserva un peso che è superiore al peso della metà degli studenti e inferiore a quello dell’altra metà: esso si colloca quindi come peso centrale nella successione ordinata dei pesi misurati su ciascuno dei 134 studenti. Nell’esempio, poiché non sono resi disponibili i pesi individuali ma solo le classi di peso, ci dobbiamo accontentare dell’affermazione per cui la classe mediana è 55-60, quella in cui è classificato il 67mo studente. Quantili – Quartili – Percentili Si è visto che la mediana suddivide ogni distribuzione ordinata in due distribuzioni aventi ciascuna una numerosità (o quantità) pari al 50% della numerosità (o della quantità) della distribuzione totale. Talvolta può essere utile suddividere la distribuzione in q distribuzioni parziali, aventi ciascuna la q-esima parte della numerosità (o quantità) della distribuzione totale. I quantili sono le n parti in cui è stata suddivisa una distribuzione. Per q = 3 si parla di terzili, per q = 4 di quartili, per q = 5 di quintili, per q = 6 di sestili, per q = 10 di decili, per q = 100 di centili. Di questi, i più usati sono i quartili, che dividono la distribuzione del carattere (le cui modalità sono state preventivamente poste in ordine crescente o decrescente) in quattro parti aventi ognuna il 25% della numerosità (o della quantità) totale, mentre la distribuzione rimanente è il 75% del totale: Il I quartile è il limite superiore della distribuzione cui corrisponde il 25% della numerosità (o della quantità) totale, mentre la distribuzione rimanente rappresenta il 75% del totale; il II quartile è il limite superiore della seconda distribuzione e quindi separa nella distribuzione totale due distribuzioni che hanno ciascuna il 50% della numerosità (o quantità) della distribuzione totale: conseguentemente il II quartile coincide con la mediana; 7 il III quartile può essere visto come il limite superiore della distribuzione cui corrisponde il 75% dell’ammontare della distribuzione totale e, simultaneamente, come il limite inferiore della distribuzione relativa al 25% del totale. Se torniamo alla distribuzione sopra descritta, relativa ad un gruppo di studenti suddivisi per classi di peso, possiamo determinare i suoi quartili, per esemplificare quanto sopra detto. Se dividiamo la numerosità complessiva pari a 134 per 4 otteniamo 33,5. A questo punto analizziamo nuovamente le frequenze cumulate. Il primo quartile sarà il peso che cade all’interno della classe “dai 50 ai 55 kg”, il secondo, coincidente con la mediana, sarà, come già visto, nella classe “dai 55 ai 60 kg” e il terzo (stavolta dobbiamo “cercare” la cumulata che contiene il valore 100,5 = 33,5 x 3) nella classe “dai 60 ai 65 kg”. Misure di dispersione Si tratta di indici che danno una misura o della variabilità dei valori della distribuzione rispetto a una media o di quanto i valori stessi differiscono tra di loro. Le misure più utilizzate a tale scopo sono la varianza e lo scostamento quadratico medio essi sono indici della variabilità del carattere, ovvero di quanto i valori rilevati si discostino dalla media. Lo scostamento quadratico medio si calcola come radice quadrata della varianza. Ecco la formula della varianza: . Nella suddetta formula σ² rappresenta la varianza (mentre la sua radice quadrata, σ, rappresenterebbe lo scostamento quadratico medio), N è la numerosità della popolazione, xi i valori assunti dalla variabile e μ la media aritmetica. Utilizziamo un altro esempio per capire meglio. Stavolta presentiamo i dati relativi a due distinte distribuzioni, riferite alle altezze di due piccoli gruppi di studenti: Altezza di un gruppo M di studenti (cm) Altezza A 166 B 162 C 169 D 163 Somma delle altezze 660 Media aritmetica 165 Scostamento dalla media 1 -3 4 -2 8 Altezza di un gruppo P di studenti (cm) Altezza E 174 F 157 G 169 H 160 Somma delle altezze 660 Media aritmetica 165 Scostamento dalla media 9 -8 4 -5 Se osserviamo le distribuzioni delle altezze dei due gruppi M e P possiamo notare come entrambe abbiano come media aritmetica il valore 165 cm. Tuttavia, mentre nel caso del gruppo M i valori sono tutti molto vicini a tale media, per cui gli scostamenti da essa sono piccoli, nel caso del gruppo P, pur in presenza di una media uguale a quella del gruppo M, gli scostamenti sono molto più grandi. Potremo, quindi, concludere che la varianza (e dunque lo scostamento quadratico medio) è molto più alta per il gruppo P che per il gruppo M. E’ importante calcolare tali indici di dispersione, oltre a quelli di posizione come la media aritmetica o la mediana. Calcolando, infatti, nell’esempio precedente la sola media aritmetica avremmo potuto concludere che le due distribuzioni sono simili tra loro; invece, calcolando anche gli scostamenti dalla media, possiamo osservare come esse siano in realtà molto difformi tra loro, pur presentando la medesima media aritmetica. Tabelle di frequenza (semplici) e tabelle a doppia entrata Una tabella di frequenza semplice è uno strumento di sintesi e presentazione di come un carattere oggetto di rilevazione si distribuisce all’interno di un collettivo. Un esempio di tabella di frequenza semplice è la tabella già utilizzata per spiegare il concetto di moda e che ripresentiamo di seguito: Studenti di una classe suddivisi in base al colore degli occhi Valore assoluto Valore percentuale Marrone 18 62,1 Nero 6 20,7 Azzurro 3 10,3 Verde 2 6,9 Totale 29 100,0 Una tabella a doppia entrata è uno strumento di sintesi necessario per riportare i risultati della rilevazione di due caratteri effettuata contemporaneamente sulla popolazione oggetto di indagine. In una tabella a doppia entrata si registra quante volte ogni possibile combinazione di modalità dei due caratteri rilevati si presenta contemporaneamente. Per fare un esempio riportiamo una tabella a doppia entrata prodotta dall’Istat: 9 Popolazione residente in Italia per sesso e ripartizione geografica al 1 Gennaio 2011 Ripartizioni geografiche Italia Nord-Occidentale Italia Nord-Orientale Italia Centrale Italia Meridionale Italia Insulare Totale Fonte: http://demo.istat.it Maschi Femmine Totale 7.833.670 5.672.547 5.755.106 6.889.163 3.262.788 29.413.274 8.286.397 5.970.647 6.195.216 7.297.210 3.463.698 31.213.168 16.120.067 11.643.194 11.950.322 14.186.373 6.726.486 60.626.442 Dati bivariati Coppia di caratteri corrispondenti alle unità statistiche di un collettivo che possono essere rappresentati attraverso tabelle a doppia entrata. Coefficiente di correlazione lineare In una tabella a doppia entrata, se esiste una chiara relazione tra i caratteri, è possibile già osservarla. Qualora si sia osservata tale relazione, attraverso la rappresentazione grafica sul piano cartesiano è ancora più evidente se e quale tipo di relazione esiste. Quando, attraverso un grafico di dispersione (vedi i due esempi di grafici di dispersione nel paragrafo seguente, dedicato alla retta di regressione), si constata l’esistenza di un’associazione lineare tra variabili, si può misurare la maggiore o minore forza con cui le variabili si associano attraverso il coefficiente di correlazione (r), la cui formula è: dove: è la covarianza fra la variabile X e la variabile Y. Gli altri simboli delle formule rappresentano: sxx e syy le varianze, rispettivamente, della variabile x e della variabile y che, sotto radice, rappresentano i rispettivi scostamenti quadratici medi, xi e yi i valori assunti dalle variabili x e y, x e y sovrascritti i valori medi delle due variabili. Potremmo, per semplificare, dire che per correlazione si intende una relazione tra due variabili tale che a ciascun valore della prima variabile corrisponda con una certa regolarità un valore della seconda. La correlazione si dice diretta o positiva quando variando una variabile in un senso anche l'altra varia nello stesso senso (alle stature alte dei padri corrispondono stature alte dei figli); si dice inversa o negativa quando variando 10 una variabile in un senso l'altra varia in senso opposto (a una maggiore produzione di grano corrisponde un prezzo di vendita minore). Prendiamo in considerazione due esempi per chiarire ancor meglio il concetto. Nel primo, di correlazione positiva, consideriamo l’altezza e il peso di un gruppo di studenti: Altezza e peso di un gruppo di studenti Altezza (cm) A 149 B 152 C 155 D 157 E 159 F 161 G 166 H 173 Peso (kg) 45 51 52 58 62 60 61 68 Si può notare come all’aumentare dell’altezza degli studenti anche il loro peso tende ad aumentare, com’è prevedibile che sia. Vediamo ora un secondo esempio, di correlazione negativa, relativo alla produzione annua e al prezzo del vino: Produzione annua di vino e prezzo medio al litro Produzione annua di vino Prezzo medio (migliaia di ettolitri) (in euro) 2004 60.000 3,10 2005 58.500 4,30 2006 57.500 5,10 2007 57.000 5,20 2008 54.500 5,80 2009 54.000 5,90 2010 53.700 6,10 2011 51.000 7,20 al litro In questo secondo caso si può invece notare come al diminuire della produzione annua di vino aumenti il prezzo medio di un litro di vino. Retta di regressione Nel caso di un insieme di dati bivariati, la cui rappresentazione in un grafico suggerisce l’esistenza di una relazione lineare tra le variabili presentate, sarà possibile approssimare una retta a questo insieme di punti. Tra i metodi più conosciuti per approssimare un insieme di dati con una retta vi è quello dei minimi quadrati che consiste nel determinare la retta (la cui equazione è del tipo y=a+bx) che rende minima la somma dei quadrati degli scarti [yi – (a+bxi)] tra i valori reali di y e quelli ottenuti sulla retta che si intende tracciare. Questa retta prende il nome di retta di regressione o dei minimi quadrati. Cerchiamo di capire meglio con due esempi. 11 Riprendiamo i dati delle due tavole presentate con riferimento al coefficiente di correlazione lineare e rappresentiamo tali dati in due grafici, disegnando per entrambi la suddetta retta di regressione, la quale riesce a rappresentare al meglio le “nuvole” di punti, cioè quella retta che, fra tutte quelle possibili, rende minima la somma dei quadrati delle differenze fra i valori effettivamente osservati (le ordinate dei punti) e le corrispondenti ordinate misurate sulla retta: I due grafici presentati sono detti grafici di dispersione o a punti e sono la rappresentazione grafica più adatta a dati bivariati. Il concetto di probabilità Il concetto di probabilità è diventato con il passare del tempo la base di diverse discipline scientifiche. In particolare su di esso si basa la statistica inferenziale. In probabilità si considera un fenomeno osservabile esclusivamente dal punto di vista della possibilità o meno del suo verificarsi, prescindendo dalla sua natura. Tra due estremi, detti evento certo (ad esempio: lanciando un dado si ottiene un numero compreso tra 1 e 6) ed evento impossibile (ottenere 1 come somma dei 12 punteggi ottenuti dal lancio di due dadi), si collocano eventi più o meno probabili (aleatori). Secondo la definizione classica di probabilità si definisce probabilità di un evento il rapporto tra il numero dei casi favorevoli al verificarsi dell’evento e il numero dei casi possibili, purché questi ultimi siano tutti equiprobabili. Nel tempo si sono date, tuttavia, anche altre definizioni più complesse e articolate del concetto di probabilità (definizione frequentista, definizione soggettiva e definizione assiomatica). Uno degli elementi di base della probabilità è il calcolo combinatorio. L'inferenza statistica L’inferenza statistica è il procedimento per cui si inducono le caratteristiche di una popolazione dall'osservazione di una parte di essa, detta campione, selezionata solitamente mediante un esperimento casuale (aleatorio). Possiamo definire l’inferenza statistica un processo cognitivo in un certo senso opposto al calcolo delle probabilità. Cerchiamo di capire meglio con un esempio… Data un'urna con composizione nota di 7 palline rosse e 3 palline bianche, utilizzando le regole del calcolo delle probabilità possiamo dedurre che, se estraiamo una pallina a caso dall'urna, la probabilità che essa sia rossa è 0,7. Si ha invece un problema di inferenza statistica quando abbiamo un'urna di cui non conosciamo la composizione, estraiamo n palline a caso, ne osserviamo il colore e, a partire da questo, cerchiamo di inferire la composizione dell'urna. Il campionamento statistico Il campionamento statistico (che si appoggia sulla teoria dei campioni o teoria del campionamento) sta alla base dell'inferenza statistica. In particolare una rilevazione si dice campionaria quando è idonea a fare inferenza, consente cioè di desumere dal campione stesso informazioni relative all'intera popolazione. Le modalità di selezione del campione sono: scelta di comodo (campionamento per quote); scelta ragionata (campionamento ragionato); scelta casuale (campionamento casuale); scelta probabilistica (campionamento probabilistico). Nella pratica quotidiana dei sondaggi di opinione e delle ricerche di mercato vengono usati tutti e quattro gli approcci. La scelta di un tipo di campionamento avviene in base alle proprietà degli stimatori di alcuni parametri oppure per tener conto di problemi di costo, necessità di ridurre il carico sui rispondenti o altro. I concetti di base del campionamento sono: base di campionamento; popolazione d'analisi e popolazione di rilevazione; piano di campionamento e disegno di campionamento; errore di campionamento. 13 Le indagini censuarie, al contrario, riguardano l'intera popolazione statistica e pur essendo più affidabili riguardo ai parametri oggetto d'indagine soffrono di: maggiori costi; tempi più lunghi; risorse necessità di investire molte risorse sul controllo della qualità della rilevazione. Le rappresentazioni grafiche Diagramma a barre È un grafico generalmente usato per caratteri qualitativi, ma non solo, che si costruisce mediante un sistema di assi cartesiani, ponendo in orizzontale le frequenze del carattere e in verticale le modalità; le barre sono dei rettangoli di altezza costante e base proporzionale alla frequenza di ciascuna modalità. Ecco un esempio, che rappresenta i dati della tabella posta ad esempio del calcolo della mediana: Istogramma È un grafico generalmente usato per caratteri quantitativi continui; si basa su un sistema di assi cartesiani, in cui sull’asse delle ascisse si pongono le modalità e sull’asse delle ordinate le densità di frequenza (pari al rapporto fra le frequenze e l’ampiezza delle classi). È costituito da tanti rettangoli quante sono le modalità del carattere, con base pari all’ampiezza di ciascuna classe ed area pari alle frequenze relative (l’altezza è quindi data dalle densità di frequenza). Il dato importante, quindi, in un istogramma non è tanto l’altezza dei singoli rettangoli quanto la loro area. Presentiamo un esempio, che rappresenta i dati della tavola introdotta per spiegare il concetto di distribuzione di frequenza: 14 Diagramma a settori circolari (torta) Si costruisce suddividendo un cerchio in tanti settori quante sono le modalità del carattere; l’angolo di ciascun settore è proporzionale alla frequenza assoluta (o relativa). Come per gli altri tipi di grafico ecco un esempio, che descrive i dati della tavola presentata per spiegare il concetto di moda: Diagramma di dispersione o a punti Rappresentazione grafica per valori bivariati, in cui ogni coppia di dati (xi, yi) è rappresentata da un punto di coordinate (xi, yi) in un sistema di assi cartesiani. Per due esempi vedi il paragrafo sulla retta di regressione. 15 Grafici dinamici Rendere l’informazione statistica più facilmente comprensibile ed accessibile a tutti, trasformare le statistiche in conoscenza è possibile grazie allo sviluppo di strumenti, modalità ed approcci innovativi, quali le visualizzazioni dinamiche. Per capire di che si tratta si può andare al link: http://scuoladistatistica-lab.istat.it/explorer/example.html 16