contenuti di statistica

annuncio pubblicitario
CONTENUTI DI STATISTICA
CLASSE V
MODULI
UNITA’ DIDATTICHE
U.D. 1 Origini e sviluppo della
statistica……….pag. 3
U.D. 2 La statistica nella Roma
antica…….....pag. 5
1_CENNI GENERALI E LINEAMENTI
STORICI
U.D. 3 La caduta dell’impero romano ai
giorni nostri…..pag. 5
U.D. 4 L’organizzazione statistica
italiana…..pag. 6
U.D. 1 L’unità statistica.……pag. 8
2_L’UNITA’ STATISTICA ED I SUOI
CARATTERI
U.D. 2 I caratteri dell’unità statistica
………….…….pag. 10
U.D. 3 I caratteri quantitativi…pag. 22
U.D. 4 I caratteri qualitativi.…pag. 14
U.D. 1 Rivelazione e spoglio dei
dati……pag. 15
3_L’INDAGINE STATISTICA
U.D. 2 Sistemazione dei dati: serie e
seriazione……pag. 18
U.D. 3 Variabili e mutabili
statistiche……pag. 20
U.D. 4 Rappresentazioni
grafiche……pag. 21
U.D. 1 L’unità statistica.……pag. 8
2_L’UNITA’ STATISTICA ED I SUOI
CARATTERI
U.D. 2 I caratteri dell’unità statistica
………….…….pag. 10
U.D. 3 I caratteri quantitativi…pag. 22
U.D. 4 I caratteri qualitativi.…pag. 14
U.D. 1 Rivelazione e spoglio dei
dati……pag. 15
3_L’INDAGINE STATISTICA
U.D. 2 Sistemazione dei dati: serie e
seriazione……pag. 18
U.D. 3 Variabili e mutabili
statistiche……pag. 20
U.D. 4 Rappresentazioni
grafiche……pag. 21
U.D. 1 La media aritmetica……pag. 23
4_LE SINTESI DELLE
DISTRIBUZIONI SEMPLICI
SECONDO IL CARATTERE
QUANTITATIVO
U.D. 2 La media geometrica….pag. 25
U.D. 3 La media armonica……pag. 27
U.D. 4 La media quadratica......pag. 28
U.D. 1 Il campo di variazione e lo scarto
semplice medio……………….pag. 29
5_GLI INDICI DI VARIABILITA’
U.D. 2 Lo scarto quadratico
medio…………………………pag. 31
U.D. 3 La distribuzione
gaussiana………………….….pag. 33
MODULO 1
U.D. 1 ORIGINI E SVILUPPO DELLA STATISTICA
La misura quantitativa dei fenomeni sociali ha una storia antica. In Egitto
si rilevava l'ammontare della popolazione già ai tempi della prima
dinastia e durante la seconda si rilevavano vari beni a fini fiscali. Durante
le dinastie successive si tenevano elenchi delle famiglie dei soldati, dei
dipendenti statali, delle merci. Sotto la ventesima dinastia si tenevano
liste delle abitazioni e dei loro abitanti.
In Israele il primo censimento fu fatto ai tempi del soggiorno nel Sinai
(da cui il libro dei Numeri della Bibbia) e altri ne seguirono. Anche
l'immenso impero cinese ha sempre curato i censimenti, che nell'epoca
dei Ming avevano cadenza decennale. Non si hanno invece notizie di
censimenti nella Grecia antica, ma venivano registrati ogni anno i nati
dell'anno precedente.
In genere, le origini della statistica nella concezione più moderna, si
fanno risalire a quella che un economista e matematico inglese, William
Petty (1623 - 1687), chiamo "aritmetica politica", ovvero "l'arte di
ragionare mediante le cifre sulle cose che riguardano il governo"; tra le
cose che maggiormente stavano a cuore al governo, del resto, vi erano
l'entità della popolazione e la quantità di ricchezza che essa aveva a sua
disposizione, dalle quali dipendeva in ultima analisi la forza degli Stati in
competizione tra loro. Demografia e calcolo del reddito nazionale furono
quindi gli ambiti in cui si esercitò la creatività dei primi "aritmeti
politici".
Nel primo campo un autentico precursore fu John Graunt (1620 - 1674),
un mercante londinese, che tramite lo studio dei registri di mortalità,
riuscì per primo a rilevare l'approssimativa costanza di certi rapporti
demografici e a costruire una prima e rudimentale "tavola della
mortalità". Le sue Natural and Political Observations on the Bills of
Mortality risalente al 1662 possono essere considerate a buon diritto
come l'opera fondatrice della demografia. Il metodo statistico elaborato
da Graunt per il settore demografico fu poi ripreso da William Petty, che
nel suo Fuve Essays on the Political Arithmetic del 1690 espose i principi
fondamentali della nuova disciplina.
Nei medesimi anni, venne data alle stampe l'opera di un altro grande
aritmeta politico, Gregory King (1648 - 1712), il quale nelle sue Natural
and Political Observations and Conclusion upon the State and Condition
of England risalente al 1698 formulò una stima della popolazione e del
reddito totale dell'Inghilterra, giungendo a conclusioni ritenute
abbastanza veromisili. In Francia un tentativo simile venne effettuato dal
ministro del re Luigi XIV ed economista Sebastien de Vauban (1633 1707), che stimò la popolazione del Regno di Francia intorno ai venti
milioni di abitanti - valutazione condivisa dalgi storici attuali.
Ai problemi statistici si interessarono anche alcune delle menti più
brillanti dell'epoca: il fisico olandese Christiaan Huygens (1629 - 1695)
elaborò delle tavole di mortalità, l'astronomo inglese Edmund Halley
(1656 - 1742) avanzò una serie di ipotesi sul numero di abitanti dei vari
Paesi europei, mentre in Germania il grande filosofo Gottfried Leibniz
(1646 - 1716) suggerì la creazione di un ufficio statale di statistica.
Nel frattempo, in concomitanza con lo sviluppo di queste prime ed ancora
rudimentali metodologie demografiche, ci si cominiciò a porre questo
tipo di problemi anche per quanto concerneva la storia precedente: ciò
indusse a guardare in modo critico e diffidente ai dati forniti da quegli
autori del passato che avevano cercato di quantificare il numero di
abitanti di un territorio, le dimensioni di un esercito, i morti per
un'epidemia, ecc. Un contributo importante, sotto questo profilo, venne
da uno dei più grandi pensatori del XVIII secolo, lo scozzese David
Hume (1711 - 1776) il cui Of the Populousness of Ancient Nations diede
inizio alla demografia storica. In tale testo Hume rilevò come le cifre
tramandateci dagli antichi fossero particolarmente inaffidabili, non solo
perché le loro stime non avevano basi solide, ma anche perché i numeri di
ogni tipo contenuti negli antichi manoscritti sono stati soggetti ad un'
alterazione molto maggiore di qualsiasi altra parte del testo, in quanto
ogni altro tipo di alterazione modifica il senso e la grammatica ed è
quindi più facilmente individuata dal lettore e dal trascrittore. In Italia
venne creato un Ufficio Statistico Nazionale nel 1861, che poi diventò
ISTAT nel 1926.
MODULO 1
U.D. 2 LA STATISTICA NELLA ROMA ANTICA
U.D. 3 LA CADUTA DELL’IMPERO ROMANO AI
GIORNI NOSTRI
La rilevazione dei cittadini e dei loro beni ebbe grande importanza nella
Roma antica. Il primo censimento fu ordinato da Servio Tullio e si ebbero
poi censimenti con periodicità quinquennale dalla fine del VI secolo a.C.,
decennale a partire da Augusto.
La caduta dell'impero romano comportò la sospensione di tali attività per
secoli, fino alla ricostituzione di organismi statali da parte dei Carolingi.
Il sorgere dei Comuni, poi delle signorie, delle repubbliche marinare e
degli Stati nazionali comportò una progressiva frammentazione non solo
politica, ma anche amministrativa. Già dal XII secolo si ebbero
rilevazioni statistiche in Italia, da Venezia alla Sicilia, con obiettivi
prevalentemente fiscali. Ebbero poi crescente importanza le registrazioni
su nascite, matrimoni e morti effettuate dalle parrocchie, iniziate in Italia
ed in Francia fin dal XIV secolo.
L'esigenza di quantificare i fenomeni oggetto di studio, ossia di
analizzarli e descriverli in termini matematici, fu una tendenza tipica del
XVII secolo: non fu solo l' Universo ad essere concepito come un grande
libro "scritto in caratteri matematici" - come aveva affermato Galileo
Galilei -, ma si diffuse anche la convinzione che fosse possibile studiare
la società tramite strumenti di tipo quantitativo.
MODULO 1
U.D. 4 L’ORGANIZZAZIONE STATISTICA ITALIANA
L'ISTAT, Istituto Nazionale di Statistica, è un ente di ricerca pubblico,
italiano le cui attività comprendono:
•
•
•
•
censimenti sulla popolazione,
censimenti sull'industria, sui servizi e sull'agricoltura,
indagini campionarie sulle famiglie (consumi, forze di lavoro,
aspetti della vita quotidiana, salute, sicurezza, tempo libero,
famiglia e soggetti sociali, uso del tempo, etc.) e
numerose indagini economiche (contabilità nazionale, prezzi,
commercio estero, istituzioni, imprese, occupazione, etc.).
Fu istituito come Istituto Centrale di Statistica nel 1926 (legge 9 luglio
1926, n. 1162), durante il Fascismo, per raccogliere, in forma
organizzata, alcuni dati essenziali riguardanti lo Stato. È stato in seguito
riorganizzato, con il decreto legislativo 6 settembre 1989, n. 322 che ha
istituito il Sistema Statistico Nazionale (SISTAN) e ha dettato norme sui
compiti e l'organizzazione dell'ISTAT, cambiandone tra l'altro la
denominazione in Istituto Nazionale di Statistica.
Attuale presidente dell'Istat è l'economista Enrico Giovannini.
Istituto nazionale di statistica
Ruolo
L'Istat è il principale[produttore di statistica ufficiale a supporto dei
cittadini e dei decisori pubblici.
Per statuto, la realizzazione di indagini, studi e analisi è finalizzata alla
produzione di statistica ufficiale e a soddisfare il bisogno informativo
espresso dalla collettività. Le rilevazioni di pubblico interesse sono
stabilite dal Programma statistico nazionale, il documento che regola
l'attività di produzione statistica.
L'Istat svolge un ruolo di indirizzo, coordinamento, assistenza tecnica e
formazione all'interno del Sistema statistico nazionale (Sistan). Il Sistema
è stato istituito con il decreto legislativo 322/89 per razionalizzare la
produzione e diffusione delle informazioni e ottimizzare le risorse
destinate alla statistica ufficiale. Del Sistan fanno parte l'Istat, gli uffici di
statistica centrali e periferici delle amministrazioni dello Stato, degli enti
locali e territoriali, delle Camere di Commercio, di altri enti e
amministrazioni pubbliche, e altri enti e organismi pubblici di
informazione statistica. Il lavoro di preparazione del Programma statistico
nazionale viene effettuato da circoli di qualità composti da esperti
provenienti dagli uffici statistici di tutto il Sistan.
L'Istituto è coinvolto nella costruzione del Sistema statistico europeo
(regolamento CE 322/97) e produce informazioni che dovrebbero
ispirarsi ai principi fondamentali della statistica ufficiale: imparzialità,
affidabilità, pertinenza, efficienza, riservatezza e trasparenza. Per
garantirne la qualità, nel 2005 la Commissione europea ha adottato il
Codice delle statistiche europee che fissa 15 principi chiave cui gli istituti
di statistica devono attenersi nella produzione e diffusione
dell'informazione statistica.
Oltre i confini dell'Europa, l'Istat partecipa ai processi
standardizzazione e sviluppo della statistica internazionale.
di
Organizzazione
La sede centrale dell'Istat è a Roma. Una rete di uffici regionali
rappresenta l'Istituto su tutto il territorio nazionale. In ogni regione e
provincia autonoma è presente infatti una struttura che opera a stretto
contatto con gli enti locali.
Organi dell'Istituto sono il Presidente, il Consiglio, il Comitato di
indirizzo e coordinamento dell'informazione statistica e il Collegio dei
revisori dei conti.
Inoltre, presso la Presidenza del Consiglio dei ministri, è istituita la
Commissione per la garanzia dell'informazione statistica con il compito
di vigilare sull'imparzialità e la completezza dell'informazione prodotta.
MODULO 2
U.D. 1 L’UNITA’ STATISTICA
La statistica è la scienza che ha come fine lo studio quantitativo e
qualitativo di un "collettivo". Studia i modi (descritti attraverso formule
matematiche) in cui una realtà fenomenica - limitatamente ai fenomeni
collettivi - può essere sintetizzata e quindi compresa.
Con il termine statistica, nel linguaggio di tutti i giorni, si indicano anche
semplicemente i risultati numerici (le statistiche richiamate nei
telegiornali, ad esempio: l'inflazione, il PIL etc.) di un processo di sintesi
dei dati osservati.
UNITÀ STATISTICHE E POPOLAZIONE
L’oggetto dell’osservazione di ogni fenomeno individuale che costituisce
il fenomeno collettivo `e detto unità statistica.
L’insieme delle unità statistiche costituisce il collettivo o popolazione.
Esempi di unità statistiche:
- ciascun individuo di una popolazione,
- ciascun una coppia di sposi,
- ogni esercizio industriale.
Prima di qualunque indagine risulta essenziale delimitare con precisione
la popolazione che si vuole esaminare.
Esempi di popolazione:
 tutti gli occupati di una data regione in un dato momento,
tutte i clienti di un azienda in un dato anno,
tutti gli studenti universitari iscritti in una università
entro il 30 settembre 2001.
POPOLAZIONE E CAMPIONE
Le informazioni disponibili, di interesse per l'analisi statistica possono
costituire:
Popolazione: se il collettivo comprende tutte le unità omogenee
rispetto ad una caratteristica comune;
Campione: se il collettivo in esame costituisce un sottoinsieme della
popolazione di riferimento.
- consente di ridurre costi e di approfondire alcuni aspetti…
Problema della rappresentatività
…. Esperimento……
Nel primo caso l'analisi dei dati rilevati consente di raggiungere
l'obiettivo dell'analisi statistica che è quello di descrivere le caratteristiche
della popolazione di riferimento
Nel secondo caso l'analisi dei dati rilevati è uno strumento per pervenire a
conoscenze sulla popolazione di riferimento
Attenzione, anche in presenza di rilevazioni complete non possiamo
giungere alla formulazione di modelli di validità generale, le conclusione
valgono per quella popolazione (…superpopolazione: la pop. osservata è
la determinazione di un modello sottostante…)
UNITA STATISTICHE E UNITA DI RILEVAZIONE
L’unità di rilevazione a volte può non coincidere con l’unità statistica che
forma il collettivo.
Ad esempio:
Censimenti demografici:
unità statistica: individuo
unità di rilevazione: famiglia
Censimenti industriali:
unità statistica: unità locale
unità di rilevazione: impresa
Attenzione
La definizione corretta dell’unità che e dell’unità di rilevazione `e
condizione fondamentale per l’esattezza della ricerca. L’inclusione o
esclusione errata di numerose unita può portare a cambiamenti
significativi nella popolazione e quindi a conclusioni fuorvianti.
MODULO 2
U.D. 2 I CARATTERI DELL’UNITA’ STATISTICA
CARATTERI E MODALITA'
CARATTERI, fenomeni, variabili
Il carattere di una unità statistica è una caratteristica degli elementi della
popolazione, è l'aspetto rilevato in corrispondenza di ogni unità statistica
MODALITA'
Sono le differenti forme secondo cui si manifesta il carattere, Sono le
categorie o i valori che ciascun carattere presenta in corrispondenza di
ogni unità statistica
Requisiti di un carattere in base a cui effettuare un’analisi di dati:
1) il carattere deve poter assumere modalità differenti;
2) più elementi delle popolazione possono avere la stessa modalità del
carattere;
3) devono esistere almeno due elementi delle popolazione per cui il
carattere si presenta con modalità differenti.
Ad esempio, il personale di un’azienda può essere descritto in base a:
sesso, età, anzianità di lavoro, salario, numero di figli a carico, comune di
residenza, et .
Requisiti delle modalità:
devono essere
1) esaustive, cioè in grado di interpretare qualunque manifestazione del
carattere (importanza della modalità "altro")
2) mutuamente esclusive, ogni elemento della popolazione deve
possedere una sola modalità del carattere (settore di attività specificare "prevalente");
LE SCALE DI MISURAZIONE DEI CARATTERI
Nomenclatura italiana
1. caratteri qualitativi o variabili qualitative o variabili categoriali o
mutabili):
sconnessi o ordinati (attributi);
2. caratteri quantitativi o variabili quantitative (misure, numeri).
Nomenclatura anglosassone
1. un carattere è espresso su scala nominale (sconnessa) se per le sue
modalità `e possibile affermare soltanto se sono uguali o diverse -fenomeni dicotomici;
2. un carattere è espresso su scala ordinale se `e possibile soltanto dare
un ordine alle sue modalità (ovviamente oltre a uguali o diverse) -codifica numerica…, quantificazione…;
3. un carattere è espresso su scala a intervalli se il carattere `e
(quantitativo) misurabile a partire da un’origine arbitraria; per tali
modalità possiamo definire non solo rapporti di maggiore/minore ma
distanze - Rimane arbitraria l'unità di misura e l'origine del sistema di
misurazione (lo zero)
Esempio: la temperatura
4. un carattere è espresso su scala a rapporti o proporzionale se il
carattere `e (quantitativo) misurabile a partire da uno zero assoluto.
Per tali caratteri è univoca e naturale la fissazione dell'origine, che
corrisponde all'assenza del fenomeno (è arbitraria l'unità di misura)
Esempi: reddito, numero di componenti di una fam., occupati,
fatturato, PIL,
Corrispondenze fra le due nomenclature:
A. carattere qualitativo sconnesso può essere espresso su scala nominale
B. carattere qualitativo ordinato può essere espresso su scala ordinale
C. carattere quantitativo può essere espresso su scala a intervalli o di
rapporti (quest'ultima è più frequente)
MODULO 2
U.D. 3 I CARATTERI QUANTITATIVI
I caratteri quantitativi possono essere:
1) discreti: l'insieme delle modalità assumibili può essere messo in
corrispondenza biunivoca con un insieme di numeri interi (sono,
quindi in numero finito, o un'infinità numerabile)
Es.: valore aggiunto, fatturato,
2) continui: l'insieme delle modalità assumibili può essere messo in
corrispondenza biunivoca con un insieme di numeri reali
Es.: numero di addetti, numero di clienti, numero di incidenti sul
lavoro…
…un carattere continuo, al momento della rilevazione, della misura,
può assumere solo un numero finito di modalità
La scala di misurazione secondo la quale sono espressi i caratteri rilevati
condiziona con riferimento alle metodologia statistiche applicabili
E' possibile passare da una scala a quelle precedenti ( e ciò comporta una
perdita di informazioni) ma non il viceversa
I caratteri più semplici sono quelli che comportano solo due modalità
chiamati anche caratteri dicotomici:
un salariato può essere di sesso maschile o femminile;
un individuo può avere più o meno di 65 anni;
un pezzo meccanico può essere funzionante o difettoso.
Il numero di modalità di un carattere varia a seconda del grado di
dettaglio dell’informazione disponibile. Ad esempio il carattere
“tipologia dell’utente Enel” può comportare i casi seguenti:
due modalità: privato, azienda;
tre modalità: privato, professionista, azienda;
quattro modalità: privato, professionista, azienda, ente pubblico;
cinque modalità: privato, professionista, azienda, ente pubblico, non
dichiarato (se, in un’inchiesta, alcune persone rifiutano di rispondere a
tale domanda).
MODULO 2
U.D. 4 I CARATTERI QUALITATIVI
Un carattere qualitativo esprime una qualità, ovvero dei valori non
numerici (il genere o il credo religioso).
•
•
Un carattere qualitativo ordinale (o ordinato o ordinabile) assume
valori che posseggono naturalmente un ordine, ovvero che possono
essere disposti lungo una scala (gli attributi "pessimo", "cattivo",
"mediocre", "buono" e "ottimo").
Un carattere qualitativo nominale (o sconnesso) assume valori che
non posseggono alcun ordine naturale (le malattie o i giorni della
settimana)
MODULO 3
U.D. 1 RILEVAZIONE E SPOGLIO DEI DATI
Le rilevazioni statistiche
La prima operazione da compiere per analizzare un fenomeno collettivo,
è quella della rilevazione, la quale consiste nella raccolta dei dati statistici
riguardanti i fenomeni individuali che compongono il fenomeno
collettivo oggetto dell’indagine. Una rilevazione statistica può avere
caratteristiche diverse e può essere:
saltuaria o continua pubblica o privata parziale o totale
diretta o indiretta preliminare o definitive
Ad esempio un censimento è una rilevazione saltuaria, pubblica e totale.
Per avere i dati dei nati in una certa popolazione (o la quotazione di
alcune merci) si richiedono, invece, rilevazioni continue, pubbliche e
complete.
Una rilevazione statistica richiede, innanzitutto, l’esatta definizione del
fenomeno da rilevare ed occorre anche stabilire il modo, il tempo, e lo
spazio in cui essa deve essere effettuata e quali sono gli organi ed i mezzi
interessati alla rilevazione.
Il modo secondo cui può essere condotta la rilevazione si distingue in:
automatica quando deriva da dichiarazioni provenienti direttamente dalle
persone interessate (es. le rilevazioni dell’ufficio di stato civile per le
nascite, i morti, i matrimoni, ecc.); riflessa quando i dati vengono raccolti
da appositi rilevatori (es. il censimento).
Riguardo al tempo la rilevazione può essere:
continua quando le rilevazioni vengono registrate man mano che i
fenomeni si verificano; periodica quando viene effettuata ad intervalli
regolari di tempo (es. il censimento);
occasionale quando viene compiuta senza alcuna periodicità (es. la
rilevazione dei danni provocati da una guerra, oppure i sondaggi politici).
35Gli organi che eseguono le rilevazioni statistiche possono pubblici o
privati. Le rilevazioni compiute dagli organi pubblici riguardano
fenomeni di interesse pubblico come, ad esempio, quelle di carattere
demografico ed economico. In Italia il principale organo pubblico dedito
agli studi di statistica è l’ISTAT. Le rilevazioni private sono compiute da
imprese commerciali su determinati fenomeni che rivestono particolare
interesse di ricerca per alcuni privati.
Per quanto riguarda i mezzi con i quali possono essere condotte le
rilevazioni statistiche diciamo soltanto che per le rilevazioni automatiche
si usano registri, ruoli, ecc., mentre per quelle riflesse si usano dei
questionari.
Lo spoglio dei dati
Una volta ultimata la raccolta delle unità statistiche si riunisce tutto il
materiale e si procede a controlli di natura diversa per cercare di
eliminare inesattezze ed errori. Una volta eseguiti i controlli si passa allo
spoglio ed alla classificazione dei risultati raggruppando gli elementi
raccolti secondo i caratteri prestabiliti formando delle tabelle di spoglio.
Queste sono costituite da varie colonne o righe che sono riferite ai diversi
caratteri del fenomeno collettivo che sono stati oggetto della rilevazione.
In ciascuna colonna (o riga) vengono riportati i rispettivi dati di frequenza
che sono stati rilevati. Le tabelle statistiche si dividono in semplici,
complesse e a doppia entrata.
Le tabelle semplici sono prospetti nei quali sono elencate le modalità
qualitative o quantitative del fenomeno in esame ed a fianco le relative
frequenze o intensità. Esempio. Riportiamo una tabella semplice
riguardante la distribuzione di una popolazione di 10.000 individui
secondo la statura suddivisa in classi di intensità di 10cm in 10cm a
partire dall’altezza di 120cm:
Le tabelle complesse possono ritenersi una composizione di tabelle
semplici che presentano dati statistici riguardanti più fenomeni.
Quando lo spoglio delle unità statistiche è stato effettuato secondo due
caratteri (ad esempio numero di abitanti e numero di stanze per unità
abitative), l’osservazione di ogni unità statistica conduce a due risultati.
Allora per la rappresentazione di queste distribuzioni statistiche si fa uso
delle tabelle a doppia entrata:
Le modalità del primo carattere sono rappresentate dal tipo di scuola,
mentre quelle del secondo carattere sono rappresentate dalla professione
del padre. In questo caso tanto le modalità del primo carattere quanto
quelle del secondo sono qualitative.
MODULO 3
U.D. 2 SISTEMAZIONE DEI DATI: SERIE E
SERIAZIONE
Prima di procedere all’elaborazione dei dati bisogna fare una distinzione
fra le distribuzioni statistiche provenienti da caratteri qualitativi da quelle
provenienti da caratteri quantitative.
Orbene definiamo serie statistica una distribuzione statistica a carattere
qualitativo. Chiameremo invece seriazione statistica una distribuzione
avente carattere quantitativo. Così, ad esempio, una distribuzione di dati
statistici riguardanti una popolazione ripartita secondo la professione
degli abitanti costituisce una serie statistica. Così è pure una serie
statistica la distribuzione degli individui di una collettività secondo il
colore degli occhi.
Se invece consideriamo una distribuzione di dati statistici riguardanti la
ripartizione dei contribuenti secondo l’ammontare delle imposte cui sono
soggetti, si ha una seriazione poiché la modalità assunta a base della
ripartizione è di carattere quantitativo. Costituisce anche una seriazione la
ripartizione di 1000 conteiner di un cargo secondo classi di peso. Quindi,
per distinguere una serie da una seriazione è sufficiente stabilire se il
carattere è qualitativo o quantitativo.
Tra le serie statistiche rivestono particolare importanza le serie temporali
( o serie storiche) e quelle di luogo (o territoriali). Sono serie temporali
quelle in cui viene esposta la distribuzione di un dato fenomeno nel
tempo. Tipici esempi ne sono i dati statistici relativi alle produzioni
industriali nei vari anni, quelli relativi alla natalità (o mortalità) distinti
per giorni, mesi, anni, ecc. A loro volta le serie storiche possono essere
statiche (quando non vi sono variazioni apprezzabili) e dinamiche
(quando il fenomeno preso in considerazione tende a diminuire o ad
aumentare).
Una serie è di luogo (o territoriale) quando la distribuzione del fenomeno
avviene nello spazio. Ad esempio, la serie dei nati in Italia in un dato
anno distinti per regione costituisce una serie territoriale. Per concludere
possiamo dire che, rispetto alla disposizione da darsi alle modalità del
fenomeno preso in considerazione, le serie statistiche si distinguono in:
a) Serie rettilinee che sono quelle le cui modalità vengono disposte
secondo un ordine logico o naturale dal principio alla fine (es. è rettilinea
la serie temporale dei nati vivi in Italia, di anno in anno, dal 1991 al 2001;
b) Serie cicliche che sono quelle le cui modalità si succedono secondo un
ordine logico il quale però si ripete ciclicamente. Ne costituiscono un
tipico esempio quelle che espongono dati relativi alle stagioni;
c)
Serie sconnesse che sono quelle le cui modalità non necessitano di
alcun ordine. È sconnessa, ad esempio, la serie che rappresenta la
distribuzione di una data popolazione secondo la professione o la
religione degli individui.
MODULO 3
U.D. 3 VARIABILI E MUTABILI STATISTICHE
È detto studio della connessione lo studio si occupa della ricerca di
relazioni fra due variabili statistiche o fra una mutabile e una variabile
statistica o fra due Mutabili statistiche. È di notevole interesse perché
permette di individuare legami fra fenomeni diversi. Tale e può essere
effettuato sia sull’intera popolazione statistica, sia su un campione
estratto da essa.
Esistono metodi diversi per la ricerca della connessione secondo che si
vogliano esaminare i legami fra due variabili, oppure fra due mutabili,
oppure fra una variabile e una mutabile.
In statistica è più importante lo studio della connessione fra due variabili,
studio che si può effettuare o ricercando se una variabile è dipendente
dall’altra, oppure se si influenzano reciprocamente.
MODULO 3
U.D. 4 RAPPRESENTAZIONI GRAFICHE
In statistica si usano le rappresentazioni grafiche come tecnica di
presentazione dei dati che affianca la presentazione in forma tabellare,
con lo scopo di aiutare l'analisi e il ragionamento.
Cenni storici
Si ritiene che la nascita di questa tecnica sia dovuta a William Playfair
verso la fine del Settecento, quando utilizzò decine di diagrammi
(soprattutto serie storiche, ma anche il primo diagramma a barre) nel suo
Commercial and Politica Atlas del 1786 e introdusse il diagramma a torta
nel Statistical Breviary del 1801.
Chiaramente ciò non nacque all'improvviso e sarebbe impossibile senza
l'introduzione del sistema cartesiano e della geometria analitica da parte
di Cartesio nel 1637 (appendice La Géometrie in Discours de la
Méthode).
Nel 1760 un matematico svizzero, Johann Heinrich Lambert (Mulhouse,
1728-1777), fece uso di grafici di elevata qualità nella sua opera
Photometria.
Lambert-Adolphe-Jacques Quételet (vissuto nell'Ottocento) fece ampio
ricorso ai metodi grafici e in un certo senso li sistematizzò.
I primi cartogrammi vengono attribuiti a A.W.Crome, economista
tedesco, con la sua Producten-Karte von Europa del 1782. Un autore
francese, C.T.Minard, introdusse i cartogrammi a bande proporzionali e li
utilizzò per rappresentare i flussi di passeggeri tra le diverse stazioni
ferroviarie.
Tecniche
•
diagramma
o diagramma areale
 diagramma circolare (o diagramma a torta)
o istogramma
o diagramma a barre
 diagramma a colonne
diagramma a nastri
o diagramma cartesiano
 diagramma semilogaritmico
o diagramma triangolare
o box-plot o box-and-whisker Plot (diagramma a scatola o
diagramma a scatola e baffi)
o piramide delle età
o diagramma stem-and-leaf (diagramma ad albero e foglie)
o diagramma di Lexis
o Scatola di Edgeworth-Bowley
dendrogramma
cartogramma
o mappa coropleta (Choropleth map)
grafo
ideogramma
semivariogramma

•
•
•
•
•
MODULO 4
U.D. 1 LA MEDIA ARITMETICA
Media aritmetica semplice
La media aritmetica semplice è la media così come viene intesa
comunemente. Viene usata per riassumere con un solo numero un
insieme di dati su un fenomeno misurabile (per esempio, l'altezza media
di una popolazione). Si chiama media aritmetica di più dati statistici tra la
media e i dati stessi.
Viene calcolata sommando i diversi valori a disposizione, i quali vengono
divisi con il numero complessivo di valori.
Formule
La formula della media aritmetica semplice
è:
ovvero utilizzando il simbolo della sommatoria;
Caratteristiche
La media, come tutti gli indici di posizione, ci dice all'incirca l'ordine di
grandezza (la posizione sulla scala dei numeri, appunto) dei valori
esistenti.
In particolare dice che: se abbiamo N valori, con media Ma, allora per
conoscere la somma di tutti questi valori è sufficiente moltiplicare N con
Ma. Ci permette così di avere un'idea della quantità complessiva
conoscendo soltanto il valore medio e quanti valori ci sono.
Che si tratti di un indicatore di posizione lo si verifica facilmente, in
quanto se aggiungiamo a tutti i valori una stessa quantità allora la media è
anch'essa aumentata di quella stessa quantità. Inoltre, se moltiplichiamo
tutti i valori con un determinato numero, allora anche la media aritmetica
viene moltiplicata con tale numero.
Esempi
Problema:
•
•
Abbiamo cinque bambini: Alessandro, Beatrice, Carmelo, Davide e
Esmeralda.
Alessandro ha 5 cioccolate, Beatrice e Davide una sola, mentre
Carmelo ed Esmeralda hanno ciascuno due cioccolate.
Mediamente, quante cioccolate hanno i cinque bambini? .
Soluzione: I 5 bambini hanno (in ordine alfabetico) 5, 1, 2, 1 e 2
cioccolate. Dunque:
media = (5 + 1 + 2 + 1 + 2) / 5 = 11 / 5 = 2,2
Perciò possiamo dire che mediamente i cinque bambini hanno 2,2
cioccolate ciascuno e messi insieme ne hanno 11.
È vero che in realtà nessuno dei cinque bambini ha 2,2 cioccolate: o ne
hanno di più o ne hanno di meno. Scopriamo però che se anche Monica,
Nando, Ottavio e Pinuccia hanno mediamente 2,5 cioccolate a testa,
allora il primo gruppo di bambini ha complessivamente più cioccolate del
secondo.
Infatti 2,5·4 = 10 è più piccolo di 11.
Altro esempio: Abbiamo 5 sacchetti di castagne che pesano mediamente
200 grammi. Moltiplicando 200 g con 5, otteniamo che stiamo tenendo in
mano un chilo di castagne. Non sappiamo però se tutti i sacchetti sono di
circa 200 g. Potrebbe anche darsi che ce ne sia uno da mezzo chilo, uno
da due etti e tre da un etto. Non lo possiamo sapere conoscendo soltanto
la media.
MODULO 4
U.D. 2 LA MEDIA GEOMETRICA
La media geometrica (semplice) è l'N-esima radice del prodotto di tutti
gli N valori.
La media geometrica viene usata soprattutto quando i diversi valori
vengono per loro natura moltiplicati tra di loro e non sommati. Esempio
tipico sono i tassi di crescita (anche i tassi d'interesse o i tassi
d'inflazione), adeguatamente modificati.
In questi casi è più corretto usare questo tipo di media al posto di quella
aritmetica, perché ha caratteristiche utili in quelle situazioni.
Caratteristiche e limiti
Una caratteristica è che valori piccoli (rispetto alla media aritmetica) sono
molto più importanti di valori grandi. In particolare, è sufficiente la
presenza di un unico valore nullo, per rendere nulla la media, sia quella
semplice che quella ponderata. Va ancora notato che la media geometrica
non è altro che la "media di potenza" quando s tende a zero
Media geometrica semplice
Formula
In formula si può definire la media geometrica
come:
Esempi
Negli ultimi cinque anni sono stati rilevati i seguenti tassi d'inflazione:
3,2% per il 1997, 2,7% (1998), 2,8% (1999), 2,2% (2000) e 3,2% (2001).
Trattandosi di valori relativi e percentuali, li trasformiamo anzitutto
dividendo con 100 e poi sommando loro 1. Otteniamo così per gli ultimi
cinque anni dei fattori di moltiplicazione pari a: 1,032 1,027 1,028 1,022
1,032
Moltiplicando
tra
di
loro
questi
Estraendo la radice quinta, si ottiene
che è la media geometrica cercata.
cinque
valori
otteniamo
MODULO 4
U.D. 3 LA MEDIA ARMONICA
La media armonica
reciproci.
è il reciproco della media aritmetica dei
Particolarmente utile per qualche tipo di variabili come ad esempio per
calcolare la velocità media lungo un percorso.
È vietato usare valori nulli per ovvi motivi, mentre sono leciti valori
negativi.
Valori (sia positivi che negativi) vicini allo zero, sono molto più
importanti di valori grandi. Infatti se in autostrada percorriamo metà del
percorso a 120 km/h, e l'altra metà a 10 km/h, la velocità media
complessiva è molto più vicina a 10 che a 120.
Esempi
Sia il tratto A che il tratto B sono lunghi 120 km. Percorrendo il primo
tratto a 120 km/h impieghiamo 1 ora, per fare il secondo tratto a 10 km/h
impieghiamo 12 ore. Complessivamente impieghiamo 13 ore,
percorrendo così l'intero percorso ad una media di 240 km/13h =
18,46 km/h.
Utilizzando la media armonica otteniamo lo stesso risultato equivalente a:
Mh = 2 / (1/120 + 1/10)
18,46
= 2 / (0,00833 + 0,1)
= 2 / 0,10833
=
MODULO 4
U.D. 4 LA MEDIA QUADRATICA
Si dice media quadratica Mq di n valori x1,x2,...,xn, la radice quadrata
della media aritmetica dei quadrati dei valori.
Fra tutte le medie prese in considerazione, la media quadratica è quella
che viene maggiormente influenzata dai valori molto piccoli e molto
grandi della distribuzione e quindi viene usata per evidenziare i valori che
si discostano molto dai valori centrali.
Si ricorre alla media quadratica quando nella distribuzione sono presenti
sia valori positivi che negativi.
Nel caso di una distribuzione di frequenze di n valori x1,x2,...,xn con i
relativi pesi p1, p2,...,pn si ha la media quadratica ponderata.
MODULO 4
U.D. 1 IL CAMPO DI VARIAZIONE E LO SCARTO
SEMPLICE MEDIO
Campo di variazione
È il più semplice da calcolare ed è dato dalla differenza fra il maggiore e
il minore dei valori rilevati. Talvolta il campo di variazione si esprime
indicando, invece della differenza fra il maggiore e il minore dei valori
rilevati, gli estremi dell’intervallo. Il campo di variazione è un indice
molto semplice da calcolare, ma di scarsa importanza perché tiene conto
solo dei valori estremi e non degli altri.
Scostamento semplice medio
Un altro indice di variabilità è lo scostamento semplice medio, che è la
media aritmetica dei valori assoluti degli scarti xi da un valore medio. Si
utilizzano due scostamenti semplici medi:
lo scostamento semplice medio dalla media aritmetica:
lo scostamento semplice medio dalla mediana:
Le precedenti relazioni sono date per una seriazione; nel caso di serie è
sufficiente porre yi = 1. Per la proprietà caratteristica della mediana, lo
scostamento semplice medio dalla mediana è minore di qualsiasi
scostamento semplice medio delle xi da qualunque valore. Nelle
applicazioni si preferisce usare s , invece di SM, poiché s evidenzia
meglio gli scarti maggiori in valore assoluto.
Indici di variabilità relativa
Tutti gli indici di variabilità sono definiti indici di variabilità assoluta e
sono espressi nella stessa unità di misura del fenomeno considerato; nel
caso occorra confrontare più distribuzioni che siano espresse con diverse
unità di misura, si ricorre agli indici di variabilità relativa. Tali indici si
calcolano facendo il rapporto fra gli indici di variabilità assoluta e
l’intensità media del fenomeno. Il più usato è il coefficiente di variabilità
del Pearson dato dall’espressione:
Gli altri indici hanno espressione:
Gli indici di variabilità relativa hanno quindi la caratteristica di essere
dei numeri puri, indipendenti cioè dall’unità di misura prescelta, e
permettono di confrontare più distribuzioni.
MODULO 4
U.D. 2 LO SCARTO QUADRATICO MEDIO
Scarto quadratico medio e varianza
Consideriamo gli scarti dei valori dalla media aritmetica, ossia le
differenze xi-M. Per valutare la maggiore o minore dispersione dei valori
dalla media aritmetica, si cerca un valore medio degli scarti. Abbiamo già
visto che la media aritmetica degli scarti è zero e pertanto non è
significativa. Uno degli indici più utilizzato è lo scarto quadratico medio.
Si definisce scarto quadratico medio la media quadratica, semplice o
ponderata, degli scarti dei valori dalla media aritmetica.
Nel caso di serie si ha:
Nel caso di seriazioni, dette yi le frequenze, si ha:
Lo scarto quadratico medio è tanto più piccolo quanto più i dati sono
prossimi al valore medio ed è uguale a zero se e solo se i dati sono tutti
eguali fra loro. Il quadrato dello scarto quadratico medio s ² è detto
varianza. Per il calcolo della varianza s ², o dello scarto quadratico medio
s , si può utilizzare una formula che si ottiene con semplici passaggi. La
ricaviamo per le serie, notando che una relazione analoga vale per le
seriazioni.
La varianza è eguale alla differenza fra la media aritmetica semplice o
ponderata dei quadrati dei valori e il quadrato della media.
Se i dati sono raggruppati in classi, come per il calcolo della media, si
prende come xi il valore centrale di ogni classe anche se questo comporta
un errore di approssimazione dovuto proprio al raggruppamento. Lo
scarto quadratico medio è un indice della dispersione dei dati molto
sensibile per misurare l’esistenza dei dati che si scostano molto dal valore
medio. Lo scarto quadratico medio (o la varianza) sono utilizzati per
determinare un modello teorico del fenomeno.
MODULO 4
U.D. 3 LA DISTRIBUZIONE GAUSSIANA
La gaussiana (curva di Gauss) è un concetto matematico abbastanza
avanzato, ma che ha notevoli implicazioni con il mondo reale. Molte
persone ritengono la matematica arida e finiscono per odiarla ("non sono
portato per i numeri"). Questa posizione può essere senz'altro giustificata
da un insegnamento troppo nozionistico della materia, insegnamento che
fa danni notevoli perché si riscontra che chi ha scarso spirito matematico
ben difficilmente comprende a fondo la realtà. Per spirito matematico non
s'intende la conoscenza delle scienze matematiche, ma la comprensione
(a volte intuitiva) di ciò che della matematica ha un'applicazione
concreta, anzi concretissima.
È vero che molte nozioni sono assolutamente inutili per chi non le userà
poi nella sua professione. Pensiamo alla trigonometria, utilissima a un
ingegnere, ma inutile a una commessa, a un giornalista ecc. Che
importanza "pratica" (cioè per la comprensione del mondo) ha sapere che
sen2a+cos2a=1? Nessuna. La stessa cosa invece non può dirsi per altri
concetti: la curva di Gauss (da Karl Friedrich Gauss, grande matematico
tedesco) ne è un esempio.
Anzi, questo articolo sarà propedeutico a molti altri di alimentazione o di
sport che spiegheranno concetti semplicissimi ma fondamentali.
Armatevi quindi di buona volontà e provate a seguirmi in questa
esposizione divulgativa della curva gaussiana.
La distribuzione
Quando dobbiamo giudicare un evento possiamo descriverlo con la
distribuzione dei suoi possibili valori. Se lancio una moneta il valore testa
ha probabilità 0,5 e idem ne ha il valore croce. Avremo una distribuzione
a due soli valori, ognuno dei quali ha probabilità 0,5. La somma dei
valori possibili dà l'unità (cioè la certezza, o esce testa o esce croce: non
si considera la possibilità che la moneta resti in piedi!).
Se analizziamo la distribuzione di un campione di persone che seguono
un certo programma televisivo per decadi di età, magari otteniamo un
grafico di questo tipo:
Le cose si complicano quando ho molti valori possibili, addirittura
infiniti.
Supponiamo per esempio di effettuare tante misurazioni di una stessa
grandezza con uno strumento; avremo risultati differenti, dovuti
all'inevitabile imprecisione del nostro strumento e del nostro operato, che
sono detti errori accidentali. Se rappresentiamo le misure ottenute su un
grafico, se il numero di misurazioni è molto grande, al limite infinito, la
curva
che
otterremo
è
proprio
la
curva
di
Gauss.
Si tratta di una curva dalla classica forma a campana che ha un massimo
attorno alla media dei valori misurati e può essere più o meno stretta a
seconda della dispersione dei valori attorno alla media; la dispersione si
misura con la deviazione standard: praticamente una delle proprietà della
gaussiana è che il 68% delle misurazioni differisce dalla media meno
della deviazione standard e che il 95% meno di due deviazioni standard:
quindi maggiore è la deviazione standard, più la gaussiana è "aperta" e
più c'è la possibilità che la media (il punto più alto) non sia
rappresentativo di tanti casi.
Anche nel caso della curva di Gauss l'area sottesa dalla curva vale 1
perché la somma delle probabilità di tutti i valori dà 1, cioè la certezza.
Un esempio reale
La distribuzione di Gauss è spesso detta normale. L'aggettivo è
significativo perché indica che moltissimi fenomeni possono essere
descritti da una curva gaussiana o Gauss-like (cioè simile).
Se è vero che la gaussiana vale per una popolazione infinita di
misurazioni e per eventi del tutto casuali, è altresì vero che curve a
campana (Gauss-like) possono descrivere facilmente molti fenomeni; per
detti fenomeni anche i concetti di media e di deviazione standard
continuano a essere validi, anche se spesso solo il primo può essere
definito con una notevole precisione.
Supponiamo di considerare l'altezza degli italiani maschi. Analizziamo
un campione di 1.000 soggetti. Probabilmente otterremmo una curva a
campana, centrata attorno a una media, del tipo 174 cm di media con una
"deviazione standard" di circa 20 cm, cioè il 95% dei soggetti analizzati
sarebbe compreso fra 154 cm e 194 cm.
L'importanza di questi concetti
Siamo sommersi da mail di persone che, dopo aver fatto le analisi del
sangue, si preoccupano che un dato valore sia fuori range. Qual è l'errore
logico che commettono? Di solito uno dei due:
•
•
credere che il range di normalità sia assoluto: al di fuori di esso c'è
patologia;
non conoscere la distribuzione del parametro.
Il primo punto è quello che genera maggiori preoccupazioni; in realtà i
parametri clinici si distribuiscono secondo curve a campana centrate
attorno a una media; i range di riferimento cercano di indicare con buona
probabilità quando si è di fronte a un individuo normalmente sano. Un po'
come se io dicessi che gli italiani maschi sono alti da 165 a 185 cm: un
soggetto alto 163 cm è comunque normale, mentre un soggetto adulto
alto 140 cm è sicuramente affetto da nanismo.
Per capire fino in fondo l'esame occorrerebbe quindi avere non solo il
range di riferimento, ma anche la distribuzione completa dei valori nella
popolazione, cioè capire la "gaussiana" dei valori normali e conoscere la
sua deviazione standard.
Per esempio, per la glicemia la deviazione standard potrebbe essere 10
mg/dl con una media di 95 mg/dl, per cui, nonostante i valori
"consigliati" da un laboratorio siano 80-110, anche un valore di 75
(sportivo) o 115 potrebbe essere attribuito a un soggetto sano.
Consideriamo poi che ci sarebbe sempre e comunque un 5% di soggetti
sani con valori al di fuori del range 75-115.
Per altri parametri la deviazione standard potrebbe essere ancora
maggiore. Quindi se avete capito il concetto di gaussiana, non è tanto
importante capire se un parametro è vicino alla media della popolazione,
quanto se ne è talmente lontano da avere pochissime probabilità di essere
sani!
Scarica