L’ABC DELLA STATISTICA 1) Perché si chiama così. La statistica si chiama “statistica” perché fu così battezzata nel XVII (diciassettesimo) secolo (quello che va dal 1.1.1601 al 31.12.1700) col significato di “scienza dello stato”. Era, infatti, l’attività volta a raccogliere e ordinare informazioni utili all’amministrazione pubblica: entità e composizione della popolazione, movimenti migratori, mutamenti anagrafici, tavole di natalità e mortalità, dati sui commerci, le importazioni e le esportazioni, sui raccolti, sulla distribuzione della ricchezza, sull’istruzione e la sanità. 2) Cosa è e a cosa serve la statistica. Questo paragrafo ( 2) ), con questo carattere, l’ho copia-incollato dal sito dell’ISTAT. Se vuoi approfondire ti basta cliccare sul link qui a fianco. http://www3.istat.it/servizi/studenti/valoredati/Cap1/Cap1_1.htm La statistica è un metodo di studio di caratteri variabili rilevabili su collettività, avente lo scopo di sintetizzare le informazioni disponibili e di estendere induttivamente i risultati a casi più generali. La statistica, quindi, tratta caratteri, cioè aspetti della realtà osservabili (lo stato di una spiaggia, la professione di una persona che lavori) e variabili nel senso che possono assumere espressioni differenti (balneabile, inquinata; calzolaio, scrittore, deputato, regista); essi devono poter essere rilevati sui soggetti che li esprimono (cioè le unità statistiche); questi ultimi devono appartenere a una collettività (un unico dato rilevato su un singolo individuo è privo di interesse per la statistica). Gli scopi della statistica sono di duplice natura: sintetizzare e generalizzare. Sintetizzare significa predisporre i dati raccolti in una forma (tabelle, grafici, sintesi numeriche) che consenta di comprendere meglio i fenomeni rispetto ai quali è stata eseguita la rilevazione. La sintesi viene incontro all’esigenza di semplificare, che a sua volta deriva dalla limitata capacità della mente umana di gestire informazioni articolate o complesse o multidimensionali. I metodi orientati a soddisfare questa finalità appartengono alla statistica descrittiva. Il secondo scopo, generalizzare, è quello di estendere il risultato dell’analisi effettuata sui dati di un gruppo limitato di unità statistiche (campione) all’intera collettività di appartenenza (universo, o popolazione). L’estensione avviene secondo metodi di induzione che rappresentano il contenuto della statistica inferenziale (o induttiva). Ogni giorno utilizziamo la statistica, in molti casi senza accorgercene. In attesa alla fermata di un autobus osserviamo le automobili che passano; contiamo quelle di fabbricazione italiana e straniera, quelle con un solo passeggero e quelle con più passeggeri. Usiamo mentalmente i metodi della statistica descrittiva. Le automobili di fabbricazione straniera sono prevalenti. Riusciamo a calcolare approssimativamente quanti passeggeri viaggiano mediamente su ciascuna vettura (dividendo il totale approssimato dei passeggeri per il totale, anch'esso approssimato, delle autovetture). Notiamo l’intensificarsi del traffico mano a mano che passano i minuti. Facciamo inferenze, seppure non sorrette dal rigore dei metodi: le fabbriche straniere stanno invadendo il mercato italiano; il mezzo di trasporto privato è dispendioso; prevedibilmente, arriveremo in ritardo a scuola o al posto di lavoro. Quotidianamente siamo bersagliati da dati statistici. Spesso, le informazioni sono riferite nel contesto di una notizia descritta dal quotidiano che leggiamo o fornita in un telegiornale; qualche volta i dati sono offerti sotto forma di tabelle o grafici; altre volte si tratta di percentuali o di medie. Per questo è necessario attrezzarsi in forma adeguata per valutarli criticamente. Questi strumenti minimi di analisi dovrebbero far parte del bagaglio culturale di ogni cittadino. 3) Qualche definizione. Il primo passo dell’attività statistica è la raccolta di dati. Questa prima fase deve essere ben organizzata per risparmiare fatica nelle operazioni successive e permettere, attraverso una corretta impostazione del lavoro di analisi, di giungere a informazioni corrette e quindi utili sul fenomeno di cui si sono rilevati i dati. Si dice unità statistica la minima unità della quale si raccolgono i dati. Si dice popolazione l’insieme delle unità statistiche oggetto di studio. Si dicono caratteri le proprietà che sono oggetto di rilevazione. 1 Così, in una indagine statistica sulla statura degli studenti delle scuole reggiane, ognuno di voi è una “unità statistica”, l’insieme degli iscritti alle scuole di Reggio forma la “popolazione” e la statura è il “carattere” rilevato. I caratteri possono essere qualitativi o quantitativi. I caratteri qualitativi vengono indicati mediante espressioni verbali. Sono caratteri qualitativi lo stato civile (celibe o nubile, coniugato/a, ecc.), il sesso (maschio o femmina), il colore degli occhi (chiari, castani, neri; ma anche, grigi, azzurri, verdi, castani, neri). I caratteri quantitativi sono esprimibili numericamente e si dividono in discreti e continui. I caratteri (quantitativi) discreti, come il numero degli alunni di una classe o di reti segnate in una partita di calcio, quasi sempre sono quelli che possono essere numerati (nel senso di contati) e che quindi possono assumere solo determinati valori, quasi sempre numeri interi. I caratteri (quantitativi) continui, quali i pesi, le stature e più in generale le grandezze che possono essere “misurate” e non “contate”, possono assumere qualsiasi valore in un dato intervallo (anche se usualmente si impiegano numeri decimali finiti). 4) Statistica induttiva e statistica descrittiva. Sorge una discussione fra Miriana e Annalisa. Miriana afferma che i reggiani vanno al cinema assai raramente, in media non più di 3 volte all’anno. Annalisa sostiene invece che, con l’apertura dell’Emiro e dei Petali, il cinema è tornato di moda, e i reggiani ci vanno, in media, almeno dieci volte l’anno. Miriana e Annalisa, per risolvere l’appassionante questione, decidono di dedicare qualche tempo a un’indagine statistica. Avendo così tanto da studiare tutti giorni, le nostre hanno poco tempo, e allora evidentemente non possono intervistare tutti i reggiani: si limiteranno quindi a un campione opportunamente scelto. Ma a questo punto devono subito porsi due interrogativi: quale deve essere l’ampiezza del campione affinché la stima sia attendibile e si possa essere ragionevolmente certi di aver individuato, con un accettabile margine di errore, il dato cercato? Basterà intervistare trenta persone, o ne occorreranno cento, oppure mille? a) b) come si può essere sicuri che il campione non sia distorto, ma sia rappresentativo dell’intera popolazione? È evidente che sarebbe scorretto condurre l’indagine all’uscita di un cinema (M. e A. intuiscono che la probabilità di incontrare lì persone a cui piace andarci – e quindi che presumibilmente ci vanno molte volte l’anno – è maggiore di quella di imbattersi in soggetti a cui il cinema fa schifo – e quindi non ci vanno mai –), o fra gli ospiti di una casa di riposo (la cui frequentazione delle sale cinematografiche è prevedibilmente tutt’altro che assidua); è meno ovvio, invece, se è preferibile intervistare le persone per strada oppure per telefono o nei parcheggi dei supermercati piuttosto che in quelli dell’ospedale. La situazione proposta è un tipico problema di statistica induttiva (o inferenziale) : la rilevazione dei dati, anziché sull’intera popolazione, è eseguita su una parte di essa, detta campione, e dall’esame di quest’ultimo si desumono informazioni (quanto attendibili?) sulla prima (come ho ricopiato dall’ISTAT nel paragrafo 2), la statistica induttiva svolge cioè la funzione di generalizzare). Si tratta di questioni piuttosto complesse, la cui soluzione richiede la conoscenza di alcuni elementi della teoria della probabilità. Di statistica induttiva, poiché vi ho promesso che per svolgere l’argomento “statistica” userò solo la matematica più elementare, non ci occuperemo. 2 Qui, infatti, mi limito ad alcuni elementi di statistica descrittiva, il cui compito è organizzare in modo facilmente dominabile (nel senso di utilizzabile) i dati raccolti sulla popolazione in esame. Gli strumenti della statistica descrittiva permettono di descrivere un fenomeno in modo efficace e immediato, cioè di sintetizzarlo (anche questo è già stato scritto nel paragrafo 2)), sollevando dalla fatica di leggere e interpretare troppi dati. Più precisamente, ci concentreremo su alcuni parametri con i quali si riassumono i dati rilevati, e quindi parleremo dei due strumenti più utilizzati dalla statistica (descrittiva): le medie e gli indici di dispersione. Più avanti, al paragrafo ), tratteremo l’importante aspetto delle rappresentazioni grafiche dei dati. 5) Le medie. Il concetto di media è del tutto familiare, in quanto l’uomo è per natura incline a riassumere dati discordanti per poter concentrare l’attenzione sull’intensità media di un carattere e poter più facilmente confrontare dati omogenei relativi a popolazioni diverse (ricordo che uso il termine “popolazione” nel suo significato tecnico visto più sopra ). Molte nostre valutazioni e decisioni sono assunte, talvolta inconsciamente, facendo riferimento a valori medi. Così diciamo che il clima di Napoli è più caldo di quello di Torino, che gli italiani del Nord hanno un reddito maggiore di quelli del Sud, che i maschi sono più alti delle femmine, e così via. Dicendo questo, però, non vogliamo sostenere che a Napoli fa sempre più caldo che a Torino o che tutti gli abitanti del nord guadagnano di più di quelli del Sud o che non ci siano femmine più alte di qualche maschio. Le nostre affermazioni sotto intendono il concetto di media che viene colto da tutti anche se non è esplicitato. Da una sequenza di dati si possono ottenere varie medie, che assumono nomi diversi. Qualsiasi sia il tipo di media scelto, essa è un valore opportunamente scelto e compreso fra il minimo e il massimo dei dati. In tutti i casi, la media è un numero che ne sintetizza molti, e consente di averne una visione unitaria, ovviamente nascondendo la molteplicità dei dati da cui è ottenuta. Così, il reddito medio pro capite (= a testa) degli italiani è un valore unico, utile per fare confronti con altre nazioni o con periodi passati, ma non evidenzia che i redditi sono molto diversi e che ci sono persone al di sotto della soglia della povertà, mentre altre hanno redditi altissimi; oppure: la statura media ci consente di dire che gli svedesi sono, in media, più alti degli italiani, ma non evidenzia che molti italiani sono più alti di parecchi svedesi ecc. . Prenderemo in esame le seguenti medie: a) moda, b) mediana, c) media aritmetica semplice, d) media aritmetica ponderata e (forse) di media armonica. Non ci occuperemo invece, a meno che non me lo chiediate, di media quadratica e media geometrica, poiché vengono usate per fenomeni abbastanza particolari. 5a) Moda Si dice moda il carattere o il valore cui corrisponde la massima frequenza. Esempio 1a. La sequenza di numeri 5, 6, 8, 8, 8, 12, 12, 14 ha moda 8. La sequenza di numeri 5, 6, 8, 8, 8, 12, 14, 14, 14 ha due mode: 8 e 14. Nella sequenza di numeri: 1, 2, 3, 4, 5, 6 si potrebbe anche dire, a stretto rigore, che vi sono sei mode; ma è più ragionevole concludere che in questo caso la moda non esiste. 3 Esempio 2a. Si rileva il numero delle stanze di ciascuno dei 16 appartamenti di un condominio: Numero delle stanze 2 3 4 5 6 7 Frequenze 1 3 8 2 1 1 16 numero appartamenti del condominio La moda è 4 (stanze per appartamento) perché è quella la tipologia di appartamento più frequente. Esempio 3a. Il direttore di una catena di negozi di scarpe vuole provare a includere, fra gli articoli da vendere, anche un certo modello di una nuova marca. Decide di acquistare, almeno all’inizio, un solo paio per ognuno dei suoi tanti punti vendita in modo da ridurre al minimo l’investimento iniziale e, mettendolo nelle vetrine dei suoi tanti negozi, poter valutare correttamente l’apprezzamento del pubblico. Volendo minimizzare il costo di questa sua prima fornitura decide quindi acquistare un’unica misura. Per individuare quale misura è più opportuno scegliere, chiede la misura del piede a venti abituali clienti, ottenendo i seguenti dati: 36, 42, 41, 44, 34, 39, 38, 39, 37, 34, 40, 39, 35, 37, 39, 36, 39, 42, 45, 37 . La moda è 39, e la scelta cadrà, evidentemente, su questa misura perché ad essa corrisponde la massima frequenza (pari a 5) del campione. In questo modo, a parità di investimento nell’acquisto, la catena di negozi massimizzerà il ricavo di vendita. (E’ chiaro che il campione di soli 20 clienti è troppo piccolo per essere affidabile, ma mi scocciava scriverne di più). 5b) Mediana La mediana è il valore che occupa il posto di mezzo, quando i dati sono disposti in ordine crescente. In altre parole, i dati che la seguono sono tanti quanti quelli che la precedono. Esempio 1b. I voti di Pierino, intelligente ma discontinuo e scansafatiche, sono, in ordine crescente: 4, 5, 5, 6, 7, 8, 9 . Il voto che occupa il posto di mezzo è 6, nel senso che ce ne sono tre più bassi e tre più alti. Notate che la mediana, come la moda ma a differenza della media aritmetica (vedi 4c più avanti), può essere usata anche quando i dati non hanno carattere numerico: è sufficiente che possano essere disposti in ordine crescente. Ad esempio, sostituendo i voti con dei giudizi: gravemente insufficiente, insufficiente, insufficiente, sufficiente, discreto, buono, ottimo. La mediana è “sufficiente”, mentre la media non si può calcolare. Esempio 2b. Consideriamo le seguenti sequenze di numeri e giudizi: (a): 7, 15, 18, 18, 19, 23 (b): mediocre, discreto, discreto, ottimo (c): 9, 15, 16, 18, 19, 30 (d): mediocre, discreto, buono, ottimo . . Quando i dati sono in numero pari esistono non uno, ma due valori centrali (18 e 18 in (a), discreto e discreto in (b), e 16 e 18 in (c) e discreto e buono in (d)) 4 Se i valori centrali coincidono, è naturale assumerli come mediana, per cui in (a) la mediana è 18 e in (b) è “discreto”. Se invece non coincidono, ma sono numeri, allora si assume come mediana la loro media aritmetica: in (c) la mediana è, quindi, (16 +18) / 2 = 17. Se, infine, i due dati centrali non coincidono e non hanno carattere numerico, come in (d), non si può parlare di mediana. Esempio 3b. La seguente tabella mostra la distribuzione delle età dei capi famiglia degli Stati Uniti nell’anno (di grazia, perché sono nato io) 1956: Età del capo famiglia fino a 25 25-29 30-34 35-44 45-54 55-64 65-74 75 o più Numero in milioni 2,22 4,05 5,08 10,45 9,47 6,63 4,16 1,66 Numero progressivo 2,22 6,27 11,35 21,80 31,27 37,90 42,06 43,72 --------------------- 43,72 (milioni di capofamiglia) Il totale delle frequenze è, in milioni, 43,72 e la sua metà è 21,86 (43,72 /2 = 21,86). Poiché la somma delle frequenze delle prime quattro classi è 21,8 (2,22 + 4,05 + 5,08 + 10,45 = 21,8) e quindi (seppure di poco) inferiore a tale valore, l’età mediana si colloca all’inizio della quinta classe. Possiamo concludere che l’età mediana dei capi famiglia è (di pochissimo superiore a) 45 anni, nel senso che quelli più giovani rispetto a tale età sono tanti quanti quelli più vecchi. Moda e mediana hanno un vasto campo di applicazione, ma può succedere che, cambiando alcuni dei dati anche in modo vistoso, restino del tutto invariate. Ciò in qualche caso toglie efficacia a tali medie e sembra andare contro il senso comune. Consideriamo, ad esempio, i voti di Sara: Voti del primo quadrimestre: 1, 5, 5, 5, 6, 6, 6 Voti del secondo quadrimestre: 4, 5, 5, 5, 6, 8, 10 La mediana è 5 e vi sono due mode: 5 e 6. La mediana è 5 e l’unica moda è 5. Il netto miglioramento dei voti di Sara nel secondo quadrimestre rispetto a quelli del primo non viene recepito da queste due medie (la moda e la mediana). Infatti: la sostituzione dell’1 iniziale con il 4 e di due 6 con un 8 e un 10 non ha portato alcun beneficio alla mediana e, paradossalmente, l’8 e il 10 hanno sortito l’effetto di far sparire, delle due mode, quella favorevole (6) dando così l’idea che Sara nel secondo quadrimestre sia peggiorata. Ecco allora che più spesso si utilizzano le altre medie, (m. aritmetica semplice, m. aritmetica ponderata e le altre che non facciamo) che tengono conto di tutti i dati, indipendentemente dal loro ordine. Variando, anche di poco, anche uno solo dei dati, queste altre variano con continuità e senza salti. Queste medie, però, si possono usare solamente per dati numerici e non con quelli qualitativi. 5 5c) Media aritmetica semplice Dati n valori X1, X2,..., Xn, si dice media aritmetica semplice (o semplicemente media aritmetica o media) il valore che si ottiene dividendo la loro somma per il loro numero n . indicando con Ma la media aritmetica, in formula si ha: X1+ X 2 +...+Xn Ma = ----------------------n Esempio 1c. La media aritmetica Ma dei numeri 3, 7, 8, 9, 11 e 16 è: Ma = (3 + 7 + 8 + 9 +11+16) / 6 = 54 / 6 = 9 Esempio 2c. In un cantiere lo stipendio mensile dei quattro apprendisti è 800 €, dei venti operai è 1.200 €, del capocantiere 2.400 € . La media aritmetica degli stipendi è in euro: Ma = (4 x 800 + 20 x 1.200 +1 x 2.400) / 25 = 29.600 / 25 = 1.184 La media aritmetica è di gran lunga la più nota e usata delle medie. Il suo uso acritico e indiscriminato deve però essere evitato: non è vero che, se io ho due polli e tu nessuno, è come se avessimo un pollo a testa (come si sente dire, per denigrare la statistica, da chi non conosce la statistica ma solo il più rozzo dei suoi strumenti, la media aritmetica); così come non è vero che per due amiche sia indifferente andare in vacanza con due ragazzi alti 180 cm, oppure con uno alto 120 cm e l’altro alto 240 cm. È invece indifferente se su un ascensore, di portata massima 240 Kg, salgono tre persone il cui peso è 50 Kg, 70 Kg e 120 Kg rispettivamente, o tre persone tutte del peso di 80 Kg. In generale, ogni qualvolta ha senso sommare i dati, l’uso della media aritmetica è appropriato. In tal caso essa esprime quale sarebbe l’intensità costante del carattere in esame, se fosse ripartita in parti uguali. 5d) Media aritmetica ponderata Spesso, anziché la media aritmetica semplice, si usa la media ponderata: assegnati agli n valori X1, X2, ..., Xn i pesi p1, p2, ..., pn proporzionali all’importanza che vogliamo loro attribuire, la media aritmetica ponderata (o semplicemente “media ponderata”) è: X1 x p1 + X 2 x p2 + ... + X n x pn ------------------------------------------------------p1 + p2 + ... + pn Esempio 1d. In una verifica di contabilità ci sono tre esercizi, i primi due brevi, facili e su una parte trascurabile del programma; il terzo impegnativo e su una parte importante del programma. L’insegnante, ritenendo corretto assegnare – nella valutazione complessiva della prova – più importanza al terzo esercizio rispetto agli altri due, dà peso 1 a ognuno dei primi due esercizi e peso 3 al terzo esercizio ( in altre parole: il terzo esercizio è considerato tre volte più importante di ognuno degli altri due ). I voti che hai preso sono: 1° esercizio: 9; 2° esercizio: 10; La media aritmetica è un bel (9 + 10 + 2) / 3 = 7; 3° esercizio: 2. purtroppo il voto nella verifica sarà solo 5, infatti: (9 x 1 + 10 x 1 + 2 x 3) / (1 + 1 + 3) = 25 / 5 = 5 La media ponderata dei voti (5) esprime meglio di quella aritmetica (7) la reale preparazione dello studente (ammesso che le considerazioni dell’insegnante circa l’importanza degli argomenti siano ragionevoli. Le mie lo sono sempre.). 6 Esempio 2d. Supponiamo che in Italia l’intera spesa per alimentazione si concentri su tre cibi: pane, carne e verdura. Supponiamo poi che nel corso del 2013 il prezzo della carne sia aumentato dell’1%, quello della frutta e verdura del 3% e quello del pane del 32% . Supponiamo infine che gli italiani destinino alla carne il 50% della spesa per alimenti, alla frutta e verdura il 40% e al pane il rimanente 10%. Incremento prezzo % spesa sul totale Genere alimentare nel corso del 2013 spesa alimentare Pane + 32% 10% Carne + 1% 50% Verdura + 3% 40% Media aritmetica incrementi (1% + 3% + 32%) / 3 = 36 / 3 Media ponderata incrementi (1% x 0,5 + 3% x 0,4 + 32% x 0,1) / (0,5 + 0,4 + 0,1) 12,0% 4,9% La media ponderata dell’aumento dei prezzi (4,9%) esprime meglio di quella aritmetica (12%) il reale maggior costo che le famiglie devono sopportare ora, rispetto all’anno precedente, per l’alimentazione. 5e) Media armonica Anticipo subito che la media armonica può apparire, leggendo la sua definizione, molto astratta, scarsamente utile e lontana dalla realtà. Questa media, invece, ha importanti applicazioni pratiche, soprattutto in campo economico. Ma vediamo la definizione: Dati n valori X1, X2,..., Xn, si dice media armonica l’inverso della media aritmetica dei loro inversi; . indicando con MA la media armonica, in formula si ha: 1 MA = n --------------------------------------------------------- 1 -------- X1 1 + -------- +…+ X2 da cui: MA = --------------------------------------------------------- 1 1 -------- -------- Xn 1 + X1 1 -------- +…+ X2 -------- Xn ----------------------------------------------------- n Esempio 1e. Percorro 21 Km alla velocità di 30 Km/h e altri 21 Km alla velocità di 70 Km/h. Qual è la velocità media? La risposta corretta non si ottiene facendo la media aritmetica delle due velocità: Media aritmetica delle velocità: (30 + 70) / 2 = 50 Km/h . . e nemmeno facendo la media ponderata con le due distanze percorse a velocità diverse: [(30 x 21) + (70 x 21)] / (21 + 21) = 50 km/h (la ponderata coincide con la semplice perché i pesi sono uguali). 2 La media corretta è quella armonica: -------------------------------------------- 1 ------- = 42 km/h 1 + 30 -------- 70 Infatti: dette s1 e s2 le lunghezze (uguali) dei due tratti e v1 e v2 le due velocità, il tempo t1 impiegato nel primo tratto è t1 = s1 / v1 = 21/ 30 = 0,7 ore; il tempo t2 impiegato nel secondo tratto è t2 = s2 / v2 = 21/ 70 = 0,3 ore. Il tempo complessivo è quindi (0,7 + 0,3) pari a un’ora. La media corretta è quindi 42 km/h, cioè proprio la media armonica delle due velocità. Ecco ora un’applicazione della media armonica in economia (frenate l’entusiasmo): 7 Un metodo efficace per effettuare buoni investimenti a lunga scadenza è destinare a intervalli costanti la stessa somma all’acquisto dello stesso bene. In questo modo se ne acquista un’elevata quantità quando i prezzi sono bassi e una quantità modesta quando i prezzi sono alti, ottenendo un prezzo medio di acquisto più basso di quanto avverrebbe acquistando ogni volta una quantità costante di quel bene . Esempio 2e. Un risparmiatore investe, in ciascuno di tre acquisti successivi, 2.400 € per comperare monete d’oro la cui quotazione è una volta di 80 €, la seconda 60 € e la terza volta di 40 €. Qual è il prezzo medio di acquisto? Il profano direbbe (80 + 60 + 40) / 3 = 60 €, e sbaglierebbe. Infatti: Il risparmiatore acquista la prima volta 2.400 / 80 = 30 monete, la seconda volta 2.400 / 60 = 40 monete e la terza volta 2.400 / 40 = 60 monete. Complessivamente spende (2.400 x 3 =) 7.200 € per procurarsi (30 + 40 + 60 =)130 monete, ognuna delle quali gli è quindi costata mediamente 7.200 / 130 = 55,38 €. Tale prezzo, come si verifica facilmente, è proprio la media armonica dei due prezzi d’acquisto. 3 La media corretta è quella armonica: --------------------------------------------------- 1 ------- 80 6) 1 + -------- 60 = 55,38 1 + --------- 40 Gli indici di dispersione. Le medie riassumono in un unico valore il fenomeno studiato, ma non forniscono alcuna informazione sulla sua variabilità. Esempio 1a. Si scopre che Marte è abitato da una specie intelligente simile alla nostra. Misurate le altezze di sette marziani adulti, si trova che moda, mediana e media aritmetica coincidono e valgono 170 cm. Una possibile sequenza di dati che soddisfa tali condizioni è questa: (a) 169, 169, 170, 170, 170, 171, 171 La variabilità è piccolissima e pare che l’altezza dei marziani sia quasi costante. Anche per quest’altra sequenza, però, moda, mediana e media aritmetica sono tutte pari a 170: (b) 161, 163, 170, 170, 173, 175, 178 La variabilità riscontrata è maggiore ed è simile a quella della statura umana. Ma anche per questa terza serie di marziani moda, mediana e media aritmetica sono di 170: (c) 80, 100, 120, 170, 170, 250, 300 La variabilità ora è notevole: su Marte ci sono nani e giganti. Risulta quindi evidente che, ai fini di una descrizione sintetica ma significativa, è necessario definire dei parametri che indichino la dispersione dei dati o anche (è l’altra faccia di una stessa medaglia) la loro maggiore o minore concentrazione attorno a un valore medio. 8 5a) Campo di variazione Il campo di variazione, è la differenza fra il minimo e il massimo dei valori osservati. Il campo di variazione è la più immediata e semplice misura della variabilità. Nell’esempio 1a. dei marziani, il campo di variazione è 2 cm per la serie di dati (a), 17 cm per (b), 220 cm per (c) e risulta notevolmente significativo (= dà una idea valida della variabilità dell’altezza dei marziani). Purtroppo, però, il campo di variazione è, nella maggior parte dei casi, un misuratore troppo rozzo della variabilità per essere utile. Ciò perché tiene conto soltanto dei due valori estremi e non è influenzato in alcun modo da quelli intermedi. Esempio 2a. Prendiamo tre classi, (a) (b) e (c), tutte con 20 alunni e stessa media complessiva di voti in pagella dei loro alunni (la media, e anche la mediana, nelle tre classi è sempre 6): nella classe (a) ci sono un 2, un 10 e ben diciotto 6, (2 + 10 + 6 x 18) / 20 = 6 di media aritmetica; nella classe (b) ci sono sei 2, sei 10 e otto 6, (2 x 6 + 10 x 6 + 6 x 8) / 20 = 6 di media aritmetica; nella classe (c) ci sono nove 2, nove 10 e solo due 6 (2 x 9 + 10 x 9 + 6 x 2) / 20 = 6 di media aritmetica. Che la variabilità del profitto scolastico sia decisamente diversa nelle tre classi è evidente: la classe (a) è formata da alunni il cui profitto è decisamente omogeneo (sono tutti sufficienti tranne un caso disastroso e un campione), mentre nelle altre due l’andamento scolastico è nettamente più differenziato. Il campo di variazione (pari per tutte a 8), però, non denuncia minimamente questa diversità fra le tre classi. Si deve quindi ricorrere a indici di dispersione meno rozzi. 5b) Lo scarto semplice medio. Chiamiamo scarto la differenza fra il valore che assume il carattere di ogni unità statistica e il valore della media (una media qualsiasi: moda, mediana, media aritmetica ecc.); in parole più semplici: scarto = valore del dato – media dei dati. Essendo la media un valore compreso fra il minimo e il massimo dei dati, alcuni scarti saranno positivi e altri negativi e più o meno si compenseranno gli uni con gli altri. Anzi, nel caso della media aritmetica gli scarti si compensano perfettamente, vale a dire che la somma degli scarti è, nella media aritmetica, sempre uguale a zero. La dimostrazione è riquadrata qui sotto, ma non è essenziale capirla. Però provateci, che è abbastanza semplice vi fa bene. Se non ci saltate fuori, fa niente. Infatti, se assegniamo n valori X1, X2,..., Xn e indichiamo con M la loro media aritmetica, il valore dei vari scarti sarà: X1 – M, X2 – M, ..., Xn – M. La somma degli scarti diventa quindi: Ssc. = (X1 – M) + (X2 – M) +... + (Xn – M) che, raccogliendo M, posso scrivere anche così: Ssc. = (X1 + X2 + ...+ Xn) – n M e quindi, sostituendo a M il suo (X 1+ X 2 +...+X n) significato, diventa: Ssc. = (X1 + X2 + ...+ Xn) – n ---------------------------------- . Semplificando per n il n sottraendo, rimane: Ssc. = (X1 + X2 + ...+ Xn) – (X1 + X2 + ...+ Xn) e quindi Ssc. = 0 (c.d.d). La somma degli scarti calcolati da qualsiasi altra media sarà diversa da zero, ma comunque piccola e poco significativa. Sommare gli scarti così come sono, quindi, serve a nulla, poiché porta sempre allo stesso risultato, qualunque siano i valori di cui vogliamo sapere la variabilità. 9 È allora naturale considerare non gli scarti, ma i loro valori assoluti . Si dice valore assoluto di un numero il numero stesso, se è positivo o nullo; considerato è negativo. Lo si indica racchiudendolo fra due barre verticali: | |. Ad esempio, | +7 | = +7; | –3 | = +3; | –9 | = +9 . il suo opposto, se il numero Lo scarto semplice medio da una media M è la media aritmetica dei valori assoluti degli scarti da M. Calcoliamo, per le sequenze di dati dell’esempio 1, lo scarto semplice medio dal valore 170. Per (a) lo scarto semplice medio è pari a: |169 – 170| + |169 – 170| + |170 – 170| + |170 – 170| + |170 – 170| + |171 – 170| + |171 – 170| --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 7 Scarto semplice medio in (a) = (1 + 1 +0 + 0 + 0 + 1 + 1) / 7 = 4/7 = 0,57 cm, che significa: mediamente la statura di ogni marziano si differenzia da quella media di poco più di mezzo centimetro. Per (b) lo scarto semplice medio è pari a: |161 – 170| + |163 – 170| + |170 – 170| + |170 – 170| + |173 – 170| + |175 – 170| + |178 – 170| ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 7 Scarto semplice medio in (b) = (9 + 7 + 0 + 0 + 3 + 5 + 8) /7 = 32 / 7 =4,57 cm, che significa: mediamente la statura di ogni marziano si differenzia da quella media di 4,57 centimetri. Per (c), infine, lo scarto semplice medio vale: |80 – 170| + |100 – 170| + |120 – 170| + |170 – 170| + |170 – 170| + |250 – 170| + |300 – 170| ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ 7 Scarto semplice medio in (c) = (90 + 70 + 50 + 0 + 0 + 80 +130) / 7 = 420 / 7 = 60 cm, che significa: mediamente la statura di ogni marziano si differenzia da quella media di ben 60 cm. Se provate a calcolare lo scarto semplice medio (rispetto alla media di 6) nell’esempio 2 delle tre classi (non evidenzio tutti i passaggi per risparmiare tempo, ma credo sia ugualmente comprensibile ) troviamo: scarto semplice medio nella classe (a), dove ci sono diciotto 6, un 2 e un 10: (4 + 4 + 18 x 0) / 20 = 0,4 (mediamente gli alunni si scostano dal profitto medio della classe per 4 decimi di voto: la classe è omogenea) nella classe (b), dove ci sono sei 2, sei 10 e otto 6: [(|2 – 6|) x 6 + (|10 – 6|) x 6 + (|6 – 6|) x 8] / 20 = 2,4 (in media il profitto degli studenti differisce per 2,4 voti da quello medio della classe: vi è molta variabilità ) nella classe (c) ci sono nove 2, nove 10 e solo due 6: [(|2 – 6|) x 9 + (|10 – 6|) x 9 + (|6 – 6|) x 2] / 20 = 3,6 (in media ogni alunno ha 3,6 voti in più o in meno della media della classe, il cui profitto risulta quindi estremamente vario.) 10 5c) Lo scarto quadratico medio (o deviazione standard). Questo paragrafo (tre pagine) è piuttosto difficile. Mancando il tempo per spiegarlo adeguatamente in classe, non preoccuparti se qualcosa non ti risulta comprensibile o anche se ci capisci nulla: non lo inserirò nel programma svolto. Tu, però, prova ugualmente a capirlo: male non ti fa. Un altro indice di dispersione è lo scarto quadratico medio, che si indica con s ed è cosi definito: [ (X1− M)2 + (X 2− M)2 + … + (X n − M)2 ] / n s = Calcoliamo, per ciascuna sequenza di dati dei marziani, lo scarto quadratico medio dal valore 170. Per (a): s= 2 2 2 [(169 – 170) + (169 – 170) + (170 – 170) + (170 – 170)2 + (170 – 170)2 + (171 – 170)2 + (171 – 170)2] / 7 (12 + 12 + 02 + 02 + 02 +12 + 12) / 7 = 4/7 = = 0,57 = 0,75 (scarto quadratico medio) Per (b): s= 2 2 2 [(161 – 170) + (163 – 170) + (170 – 170) + (170 – 170)2 + (173 – 170)2 + (175 – 170)2 + (178 – 170)2] / 7 (92 + 72 + 02 + 02 + 32 +52 + 92) / 7 = 245/7 = = 35 = 5,9 (scarto quadratico medio) Per (c): s= 2 2 2 [(80 – 170) + (100 – 170) + (120 – 170) + (170 – 170)2 + (170 – 170)2 + (250 – 170)2 + (300 – 170)2] / 7 (902 + 702 + 502 + 02 + 02 +802 + 1302) / 7 = Caso (a) (b) (c) scarto sempli- scarto quace medio dratico medio 0,57 4,57 60,0 0,75 5,9 74,5 38.800/7 = = 5.543 = 74,5 (scarto quadr. medio) Dal raffronto qui di fianco si vede che lo scarto quadratico medio, o “deviazione standard”, è un indice più sensibile dello scarto semplice medio. Lo scarto semplice medio e lo scarto quadratico medio sono indici di dispersione significativi in quanto tengono conto di tutti i dati (e non solo dei due estremi, il minore e il maggiore, come fa il campo di variazione ). Il secondo, nonostante sia matematicamente più complicato, è il più usato in statistica la per ragione che tento di spiegare nelle prossime due pagine. Perché lo scarto quadratico medio si usa più spesso del semplice. Supponiamo di aver rilevato, attraverso interviste a un campione rappresentativo, il numero di persone – suddivise per classi di età – che l’altra sera hanno seguito la trasmissione “Ballarò”. I dati sono: classi di età (anni) frequenza da 0 a 10 0 da 10 a 20 8 da 20 a 30 20 da 30 a 40 53 da 40 a 50 62 da 50 a 60 30 da 60 a 70 32 da 70 a 80 13 da 80 a 90 5 da 90 a 100 2 Per dare l’idea del fenomeno con più efficacia e immediatezza è opportuno ricorrere a un grafico che evidenzi la “distribuzione delle frequenze”. Il grafico risultante è quello qui di fianco: Non avendo a disposizione le singole età, per calcolare la media aritmetica dell’età degli spettatori ipotizziamo che gli appartenenti a una fascia di età abbiano tutti l’età centrale della fascia. 11 Tanto per fare un po’ di esercizio, calcoliamo la media aritmetica dell’età degli spettatori: (il primo prodotto che appare – 5x0 – significa che vi sono zero spettatori della 1^ fascia di età di valore centrale 5; poi 8 con età media 15 anni ecc. ) (5x0+15x8+25x20+35x53+45x62+55x30+65x32+75x13+85x5+95x2) / (0+8+20+53+62+30+32+13+5+2) = 47 anni. E’ realistico pensare che se l’indagine avesse riguardato, invece di “Ballarò”, Dragon Ball o i Pokemon, allora la distribuzione delle frequenze sarebbe stata molto spostata a sinistra, verso le fasce d’età più basse, e la media delle età magari risultava di 12 invece che 47. In entrambi i casi, comunque, le frequenze risultano avere una distribuzione particolare, non prevedibile con esattezza senza una indagine statistica. Ora, è importante sapere che per molti fenomeni, al contrario del caso precedente, accade che le frequenze di un dato carattere abbiano una distribuzione prevedibile, la cosiddetta “distribuzione normale”, ossia si distribuiscano in modo simmetrico e decrescente rispetto al valore della loro media, valore al quale spetta la massima frequenza. L’andamento delle frequenze è, in questi casi, rappresentato quindi da una curva a campana, detta “curva di Gauss”. (Il tedesco Carl Friedrich Gauss fu un genio straordinario che, nella prima metà dell’800, diede un impulso formidabile alla matematica, alla statistica, alla geometria e fu anche un fisico e un astronomo di rilievo ). I fenomeni reali in cui questo si verifica sono molti: stature, pesi, i valori delle analisi del sangue, i valori ottenuti con misurazioni ripetute di una stessa grandezza ecc. . Nelle “distribuzioni normali” il valore massimo è dato, come ho già detto, dalla media aritmetica (ma anche dalla moda e dalla mediana, in quanto tutte e tre queste medie hanno lo stesso valore). Imparato questo, si può cominciare a capire perché la “deviazione standard” (e cioè lo scarto quadratico medio) è un dato importante: infatti, la forma più o meno slanciata della “campana” dipende dal suo valore ( dal valore dello scarto quadratico medio). Nelle figure qui sopra sono rappresentate due distribuzioni normali che hanno stesso valore medio M e diversa ampiezza dovuta a differenti scarti quadratici medi: in quella a sinistra lo scarto quadratico medio s è maggiore e la curva è quindi meno ripida (le frequenze decrescono più dolcemente da entrambe le parti di M), in quella a destra s è minore e la curva è più ripida (le frequenze sono più addensate intorno al valore medio e decrescono più rapidamente quando ci si allontana da entrambe le parti di M). Si può dimostrare che, quando un carattere ha distribuzione normale, allora certamente: 1) 68,27% dei dati è compreso fra M – s e M + s, 2) il 95,45% dei dati è compreso fra M – 2s e M + 2s, 3) il 99,73% dei dati è compreso fra M – 3s e M + 3s. Come già ho scritto, le curve a campana (Gauss-like) possono descrivere molti fenomeni. Supponiamo di considerare l'altezza degli italiani maschi. Analizziamo un campione rappresentativo di 1.000 soggetti. Otterremo una curva a campana, centrata attorno a una media, ipotizziamo di 174 cm . Se la "deviazione standard" fosse 10 cm, circa il 95% (e precisamente il 95,45%) dei soggetti analizzati sarebbe compreso fra 154 cm e 194 cm. (174 – 2 x 10 e 174 + 2 x 10). Ancora, se tra 1000 persone adulte si osserva un peso medio di 83 Kg con uno scarto quadratico medio di 10 Kg, si può affermare che circa 683 persone (il 68,27% di mille) hanno un peso compreso fra 73 e 93 Kg, circa 954 (il 95,45% di mille) persone hanno un peso compreso tra 63 Kg e 103 Kg e circa 997 (il 99,73% di mille) hanno un peso compreso fra 53 e 113 Kg. Oppure ancora: se le lampadine prodotte da una ditta hanno una durata media di 900 ore con uno scarto quadratico medio di 30 ore, si può affermare che il 68,27% delle lampadine avrà una durata compresa fra 870 ore e 930 ore, e la quasi totalità delle lampadine (il 99,73%) avrà una durata compresa fra 810 e 990 ore. 12 7) La rappresentazione grafica dei dati. Quest’ultimo paragrafo è frutto di un copia incolla quasi completo. L’ho preso da una dispensa tratta dal sito dell’Istat, più precisamente da questo indirizzo: http://www.istat.it/servizi/studenti/valoredati/Cap4/Cap4_4_3.htm . Chi volesse approfondire, fare esercizi o divertirsi altrimenti, si colleghi pure. Di mio, qui, c’è solo l’inserimento dei grafici a linee (che l’Istat si è scordata di trattare nella sua dispensa), e questo ammonimento: qualunque sia il grafico scelto, è obbligatorio citare sempre la fonte dei dati! I principali tipi di grafici Esiste una grande varietà di rappresentazioni grafiche. I grafici più semplici e nello stesso tempo più efficaci e comunemente utilizzati sono: 1) i grafici a settori circolari (grafici a torta); 2) i grafici a barre; 3) gli istogrammi; 4) i grafici a linee (diagrammi cartesiani); 1) 5) i grafici a punti. I grafici a settori circolari (grafici a torta) I grafici a torta sono efficaci quando si vuole evidenziare il peso delle varie parti rispetto al totale. L’ampiezza dei singoli settori (l’ampiezza delle fette di torta) è proporzionale alla frequenza della modalità con cui si presenta il fenomeno indagato. Supponiamo di voler rappresentare la seguente distribuzione: Tabella 14 - Raccolta di rifiuti urbani differenziata per tipo di rifiuto. Italia - Anno 2001 (in tonnellate e composizioni percentuali) Il grafico a settori circolari calcolato sui valori percentuali che ne deriva è il seguente: Ogni settore del grafico rappresenta (in frequenza assoluta o, nell'esempio proposto, percentuale) il peso assunto da ciascuna modalità. 2) I grafici a barre Sono molto utilizzati per rappresentare la frequenza con cui si presentano le modalità di un carattere qualitativo (come sesso, religione praticata). Per esempio, abbiamo rilevato il carattere Sesso di 118 bambini di una scuola elementare. Sono risultati 75 bambini e 43 bambine. Possiamo visualizzare i risultati ottenuti in questo modo: L'asse verticale è graduato e serve per indicare la frequenza (assoluta, come nell’esempio, o relativa) con cui le modalità si presentano. L'asse orizzontale serve soltanto come base di appoggio dell'elemento grafico (le 13 due barre). Se le modalità fossero numerose, potrebbe essere più efficace rappresentare il grafico ruotandolo sul foglio, ponendo cioè le barre orizzontalmente anziché verticalmente. Ad esempio, la seguente distribuzione degli studenti che frequentano lo stesso insegnamento in 20 università: si può rappresentare sul grafico che segue (nella pagina successiva): È anche possibile rappresentare contemporaneamente sullo stesso grafico due o più caratteri in diverse situazioni (di luogo o di tempo), come i dati presenti nella tabella 13 - Raccolta di rifiuti urbani per regione - Anno 2001 (in tonnellate) 14 Dal grafico è evidente la netta prevalenza in Italia della raccolta non differenziata dei rifiuti, nonché la variabilità geografica. Inoltre, soltanto per motivi di scala, non sono leggibili nel grafico i valori della modalità Rifiuti ingombranti per il Centro e per il Mezzogiorno. Il dato è invece presente in tabella (Tabella 13), alla quale bisogna quindi sempre riferirsi se si è interessati a un’informazione numerica precisa. 3) Gli istogrammi Si usano per rappresentare graficamente dati quantitativi suddivisi in classi. Ogni frequenza è rappresentata dall'area di un rettangolo, la cui base è uguale all'ampiezza della classe e l'altezza è pari alla densità di frequenza, cioè al rapporto tra la frequenza della classe e l'ampiezza della classe stessa. Classi di uguale ampiezza Nota che l'ampiezza di ogni classe di età in questa tabella è uguale a 5. Infatti, l'età è una variabile quantitativa continua e la classe 20-24 corrisponde all'intervallo continuo [20,25) che ha ampiezza 5. Il simbolo "[" sta a significare che l'età 20 è compresa in quella classe, mentre il simbolo ")" sta a significare che l'età 25 non è compresa. Nel grafico che segue rappresentiamo gli intervalli continui. 15 Classi di ampiezza diversa In questo secondo caso, si deve tenere conto del fatto che le classi hanno ampiezza diversa. La differenza fra la frequenza 26 nella classe 50-59 e la frequenza 20 nella classe 30-49 è molto meno marcata in base alle densità di frequenza di quanto lo sarebbe se si confrontassero le frequenze senza tener conto della diversa ampiezza delle classi. Anche se grafici a barre e istogrammi appaiono simili, sono concettualmente diversi: 4) I grafici a linee (diagrammi cartesiani) In genere, i grafici a linee si utilizzano per rappresentare fenomeni che si evolvono ( = che cambiano) con continuità nel tempo. L’asse delle ascisse (= l’asse orizzontale) rappresenta il tempo, mentre sull’asse delle ordinate (= l’asse verticale) vengono indicate le modalità del carattere, cioè la sua intensità. I punti del piano cartesiano (= dell’area del diagramma) che rappresentano le coppie di dati disponibili (data e relativa intensità) vengono uniti fra loro in modo da fermare una linea spezzata. Fonte: Istat 16 5) I grafici a punti Si usano per rappresentare il valore assunto da due variabili su una stessa unità statistica (per esempio il peso e l'altezza di una persona, oppure l'età e il suo reddito mensile). Attraverso questa rappresentazione è possibile verificare visivamente se le due variabili sono connesse, cioè se il comportamento di una è legato al comportamento dell'altra. Il grafico si costruisce su un piano individuato da due assi perpendicolari fra loro, graduati e orientati. Su ciascun asse è riportata l'unità di misura di una delle due variabili considerate. Le unità statistiche sono poi riportate sul piano nel modo seguente: ogni unità è rappresentata da un punto; i punti sono individuati attraverso le rispettive coordinate. Per esempio abbiamo rilevato su 10 atleti il peso (in Kg) e l'altezza (in cm). Allora, indicando con X il peso e con Y l'altezza, avremo: Fonte: Esempio a fini didattici Sul grafico ciascun atleta è rappresentato da un simbolo e dal nome. La posizione di ognuno sul piano è individuata dal punto di incrocio di due rette perpendicolari ai due assi che passano per i punti che indicano il peso e l'altezza dell'atleta. Così per esempio il punto che rappresenta Ettore si trova all'intersezione di due rette perpendicolari agli assi. La prima, sull'asse X, individua il livello relativo al peso di Ettore (Kg 69) e la seconda sull'asse Y, il livello corrispondente alla sua altezza (cm 179). Se non ci interessa il riferimento dei dati ai singoli atleti possiamo fare a meno di differenziare i simboli corrispondenti. Osservazione La disposizione dei punti sul piano permette di identificare con immediatezza eventuali relazioni esistenti fra le due variabili. 17 Se ad esempio osserviamo la seguente situazione: Atleti per peso e altezza: relazione lineare positiva tra le due variabili Figura G. 1 - Fonte: Esempio a fini didattici si individua visivamente l'esistenza di una relazione lineare positiva tra le due variabili; lineare in quanto i punti tendono a disporsi lungo una retta. Positiva perché quando i valori di una variabile crescono anche quelli dell'altra variabile crescono e viceversa (al diminuire dei valori di una anche i valori dell'altra diminuiscono). Se invece i punti si dispongono sul piano in questo modo: Figura G. 2 - Fonte: Atleti per prestazioni effettuate nei 400 metri piani e nel salto in alto: relazione lineare negativa tra le due variabili Esempio a fini didattici rileviamo l'esistenza di una relazione lineare negativa tra le due variabili; lineare in quanto come nel grafico precedente i punti tendono a disporsi lungo una retta; negativa perché all'aumentare dei valori assunti da una variabile, i valori assunti dall'altra tendono a diminuire. 18