Appunti di Statistica

CONTENUTI
LA STATISTICA
•
La Statistica
• Le fasi di un’indagine statistica
o Definizione del fenomeno
o Individuazione della popolazione
o Le variabili statistiche
o Le scale di misurazione
o Rilevamento dei dati
•
Elaborazione e rappresentazione dei dati
o Costruzione delle tabelle delle frequenze
o Rappresentazione grafica
• Gli indicatori statistici: indici di posizione
o Moda
o media aritmetica
o Mediana
o
Quantili
• Gli indicatori statistici: indici di dispersione
o Campo di variazione
o Scarto semplice medio
o Varianza
o Deviazione standard
Renato Agati – Appunti di Statistica
Pagina 2
LA STATISTICA
La statistica è una scienza nata per analizzare e descrivere i fenomeni d’importanza sociale che
riguardano uno Stato.
Oggi viene applicata in tutti quei campi dove intervengono fenomeni collettivi del tutto casuali, la
cui mancanza di ripetitività ne rende impossibile lo studio attraverso la sperimentazione
scientifica.
Sono fenomeni collettivi quei fatti, avvenimenti o situazioni che abbracciano un numero
sufficientemente grande di fenomeni individuali fra loro uguali o simili.
Ad esempio, il fatto che Antonio è alto cm 145 è un fenomeno individuale mentre l’altezza dei
ragazzi della stessa età di Antonio di tutte le scuole di un paese è un fenomeno collettivo.
Il fatto che io vengo a scuola in auto è fenomeno individuale. Il mezzo utilizzato da tutti i docenti e
alunni della mia scuola è un fenomeno collettivo.
L’aumento della popolazione di uno stato, la comparsa di una certa malattia in un determinato
ambiente, la diminuzione dei posti di lavoro in un particolare settore, sono quindi fenomeni
collettivi, e la conoscenza delle caratteristiche o dell’andamento di un fenomeno collettivo può
avvenire solo attraverso la statistica:
La statistica è la scienza che studia i fenomeni collettivi di vario genere. Essa raccoglie, analizza e
interpreta (utilizzando metodi e strumenti matematici) le informazioni riguardanti il particolare
fenomeno considerato, ne misura e studia certe caratteristiche e permette di fare previsioni sul
futuro o sull’andamento del fenomeno stesso.
Renato Agati – Appunti di Statistica
Pagina 3
E’ da precisare che, nel suo complesso, la statistica non dà risultati certi, ma arriva solo a fare delle
previsioni su determinati fenomeni, previsioni che – teoricamente – sono certe ma anche quasi
sicuramente certe: occorre quindi fare le valutazioni con la dovuta attenzione.
La statistica dà quindi delle previsioni permettendo di programmare soluzioni o interventi adatti.
(es. l’aumento di una malattia).
Renato Agati – Appunti di Statistica
Pagina 4
FASI DI UN’INDAGINE STATISTICA
Un’indagine statistica, seppur ben definita nel fenomeno preso in considerazione, può essere resa
non appropriata o può essere totalmente vanificata da una raccolta dei dati non corretta o una
loro presentazione inadeguata.
Per evitare ciò, è bene seguire uno schema preciso che, in linea di massima, è basato sullo sviluppo
di quattro FASI essenziali che sono:
• definire in maniera esatta e completa il fenomeno su cui si vuole indagare;
• individuare la popolazione interessata al fenomeno su cui si indaga;
• rilevare e raccogliere in maniera appropriata i dati;
• elaborare e interpretare i dati raccolti e rappresentarli graficamente.
Queste fasi devono essere affrontate nella sequenza indicata: raccogliere dati prima di aver
chiaramente espresso le finalità dell’indagine può facilmente condurre a analisi e interpretazione
dei dati non adeguati e quindi a risultati poco attendibili.
DEFINIZIONE DEL FENOMENO
Il primo passo è la definizione del fenomeno su cui vogliamo indagare precisando anche, con
accuratezza, i particolari aspetti che si vogliono analizzare.
E’ la fase iniziale e più importante ai fini di un più preciso proseguimento dell’indagine stessa, in
quanto bisogna predisporre, logicamente e praticamente, il tipo di indagine più adatta al
conseguimento dei nostri obiettivi.
Se per esempio vogliamo prendere in esame il fenomeno “distribuzione demografica in una città”
sarà opportuno precisare se vogliamo un esame che riguardi:
• la caratteristica numerica complessiva (numero di abitanti)
Renato Agati – Appunti di Statistica
Pagina 5
• la caratteristica numerica per sesso (numero maschi e numero femmine)
• la caratteristica numerica secondo il reddito
• la caratteristica numerica secondo l’attività lavorativa
• ecc.
INDIVIDUAZIONE DELLA POPOLAZIONE
Definito il fenomeno, va indicata chiaramente la collettività a cui il fenomeno si riferisce e sulla
quale verrà quindi svolta l’indagine.
Tale collettività in termini statistici si chiama popolazione statistica o, semplicemente,
popolazione; ogni singolo elemento della popolazione si chiama unità statistica.
Si definisce popolazione qualsiasi insieme di elementi, reale o virtuale, che forma oggetto di
studio.
Costituiscono una popolazione, ad esempio:
•
gli alunni di una classe;
•
gli impiegati di un’azienda;
•
tutti i residenti nel comune di Torino il 31/12/2007;
•
le malattie tipiche di una certa regione.
E’ di fondamentale importanza (nonché indicatore di serietà della ricerca) definire esattamente la
popolazione di riferimento dell’indagine.
Renato Agati – Appunti di Statistica
Pagina 6
LE VARIABILI STATISTICHE
Se consideriamo una popolazione statistica, es. gli impiegati di un’azienda, ogni unità statistica
(ogni impiegato) differisce da un’altra unità per una o più caratteristiche: il sesso, l’attività svolta, il
mezzo di trasporto per recarsi in azienda, lo stato civile, il numero di figli, ecc.
Queste caratteristiche prendono il nome di variabili statistiche ed è rispetto ad una o più di
queste variabili che si effettua l’indagine statistica.
Le variabili statistiche possono essere:
variabili quantitative, se espresse da un numero
variabili qualitative, se non possono essere espresse da un numero (stato civile, il sesso, mezzo di
trasporto, attività svolta,..)
Sono pertanto variabili quantitative:
•
l’età
•
il numero figli
•
lo stipendio percepito
mentre le variabili qualitative possono essere :
•
lo stato civile
•
il sesso
•
il mezzo di trasporto
•
l’attività svolta
Possiamo quindi dire che:
L’indagine statistica è lo studio di un fenomeno collettivo. Tale studio consiste nell’analizzare come
una popolazione statistica si distribuisce rispetto ad una certa variabile statistica.
Renato Agati – Appunti di Statistica
Pagina 7
RILEVAMENTO DEI DATI
Il fenomeno, la popolazione e la/le variabili statistiche su cui vogliamo indagare ci suggeriranno
come meglio procedere nella fase di rilevamento dati.
Il rilevamento dati può essere diretto o completo se viene eseguito direttamente su tutte le unità
statistiche che formano la popolazione interessata al fenomeno. Ciò è possibile quando la
popolazione è formata da un numero non eccessivo di unità e ogni unità statistica può quindi
essere contattata e intervistata. Fanno eccezione i censimenti e le indagini su nascite, morti,
matrimoni (attraverso gli archivi statali).
Spesso però l’intera popolazione è talmente vasta da non permettere il rilevamento diretto per
vari motivi (costi, tempi, disponibilità di tutte le unità statistiche). Si deve pertanto scegliere al suo
interno una parte ridotta di unità statistiche, ovvero un opportuno campione rappresentativo, su
cui si eseguirà l’indagine. In questo caso si parla di rilevamento indiretto o per campione, perchè
viene eseguito solo su una parte più o meno estesa della popolazione.
La scelta del campione rappresentativo è un momento molto importante e delicato, che deve
tenere conto di alcuni fattori:
• il numero di campioni deve essere tale da rendere attendibili i risultati;
• la scelta dei campioni non deve rendere selettiva l’indagine stessa;
• i risultati ottenuti sul campione non devono provocare errori di valutazione quando
vengono estesi a tutta la popolazione.
Per il numero dei campioni in genere si decide per una percentuale veramente rappresentativa,
che non sia né ristretta né inutilmente vasta.
Per la scelta del campione si ricorre in genere a:
rilevamento casuale: si effettua estraendo a caso i campioni dall’intera popolazione; se non esiste
alcun vincolo di convenienza (economica, sociale, ecc.) che potrebbe imporre la scelta ragionata di
uno o dell’altro campione, i campioni vengono decisi dal caso.
Renato Agati – Appunti di Statistica
Pagina 8
rilevamento stratificato: si effettua suddividendo la popolazione in più strati, o classi, e scegliendo
a caso, in ognuno di essi, singoli campioni che complessivamente formano i campioni
dell’indagine. In ogni strato il numero dei campioni da scegliere sarà proporzionale al numero
totale degli elementi della classe stessa.
Se per esempio si vuole indagare sul fenomeno “reddito degli abitanti di una regione”, è
opportuno fare il campionamento stratificato in quanto il reddito varia secondo alcuni strati o
classi della popolazione, strati che in questo caso sono le diverse attività lavorative.
Per una corretta e completa raccolta dati dobbiamo definire non solo il metodo di rilevamento
(diretto o per campionamento) e le variabili statistiche (quantitative e qualitative) già descritte in
precedenza, ma anche altri criteri di classificazione quali le cosiddette scale di misurazione.
LE SCALE DI MISURAZIONE
Le variabili possono essere classificate anche in base alla scala di misurazione o, in altre parole, alle
operazioni che si possono fare con le loro modalità.
Esistono quattro scale: la scala nominale, la scala ordinale, la scala per intervallo, la scala per
rapporto.
Scala nominale
Le modalità non hanno un ordinamento (è il caso delle variabili qualitative)
Esempi:
• giudizio su un film: bello / brutto;
• si / no;
• colore degli occhi;
Renato Agati – Appunti di Statistica
Pagina 9
Scala ordinale
Le modalità sono attributi non numerici ma logicamente ordinabili
Esempi:
• titolo di studio;
• livello di soddisfazione per un prodotto (per niente, poco, abbastanza, ecc..);
Scala per intervallo
Sono le variabili quantitative che consentono confronti solo per differenza ma non per rapporto.
Per esempio, se misuriamo un giorno la temperatura minima e massima a Torino e a New York potremmo
ottenere i seguenti valori:
Torino
New York
Temp.
massime
Temp.
minime
25
17
16
8
Se vogliamo confrontare le temperature di Torino e di New York, ha senso dire che l’escursione termica è
la stessa nelle due città, ma non ha senso dire che la minima a New York è la metà della minima a Torino.
Scala per rapporto
Sono variabili numeriche per le quali è intrinseca la definizione dello zero.
Esempi sono il peso, l’altezza, la lunghezza, la concentrazione.
In questo caso le modalità possono essere confrontate per rapporto.
Per esempio, si può affermare che la concentrazione di cloro in un campione di acqua è doppia
rispetto a quella di un altro campione.
Renato Agati – Appunti di Statistica
Pagina 10
GLI STRUMENTI
Scelto il metodo per il rilevamento dati, diretto o per campionamento, si passa alla raccolta delle
informazioni che può avvenire tramite:
• interviste: si pongono a ciascuna unità statistica delle precise domande in merito al
fenomeno e si registrano le relative risposte;
• questionari: si distribuisce a ciascuna unità statistica un questionario che successivamente
viene ritirato con le risposte;
• consultazione di archivi o pubblicazioni specializzate.
Sarà pertanto necessario preparare gli opportuni strumenti per registrare facilmente i dati che
dovremo raccogliere.
I moduli per l’intervista dovranno consentirci di segnare velocemente le risposte che otteniamo:
un modulo già organizzato “a crocette” ci farà risparmiare tempo sia durante l’intervista, sia dopo,
quando dovremo elaborare i dati raccolti. Di contro, un modulo che ci obbliga a scrivere ciò che ci
risponde la persona intervistata farà solamente spazientire la persona stessa.
Nella creazione e definizione di un questionario si deve invece porre attenzione a come la
domanda viene formulata, affinché chi lo compila possa poter rispondere senza possibilità di
equivoci.
E’ superfluo precisare che i questionari, essendo compilati senza la presenza e assistenza di chi sta
conducendo l’indagine statistica, sono generalmente basati su risposte predefinite da crocettare.
Nelle pagine seguenti viene riportato, come esempio, il questionario che la casa automobilistica
SEAT invia ai suoi clienti per indagare sulla qualità del servizio di assistenza.
Renato Agati – Appunti di Statistica
Pagina 11
Renato Agati – Appunti di Statistica
Pagina 12
Renato Agati – Appunti di Statistica
Pagina 13
Renato Agati – Appunti di Statistica
Pagina 14
ELABORAZIONE E RAPPRESENTAZIONE DATI
Questa fase, nel suo complesso, abbraccia diversi momenti:
•
si va dal riscontro delle informazioni al loro spoglio per ricavare i veri dati statistici;
•
si passa alla loro trascrizione in apposite tabelle;
•
dall’esame di queste tabelle si arriva all’elaborazione vera e propria dei dati;
•
si conclude con la rappresentazione dei risultati dell’indagine mediante opportuni grafici.
Si dice dato statistico una qualsiasi informazione di cui si conosce il numero di volte con cui si
ripete in un’indagine.
A seconda dei dati statistici raccolti e dell’elaborazione che intendiamo effettuare – elaborazione
che dipende anche dagli obiettivi della nostra indagine statistica – possiamo creare vari tipi di
tabelle:
•
tabella semplice o tabella di frequenza assoluta
•
tabella delle frequenze relative
•
tabella multipla e tabella a doppia entrata
•
tabella per classi.
Renato Agati – Appunti di Statistica
Pagina 15
LE TABELLE
Tabella semplice (tabella di frequenza assoluta)
Nome
Altezza
Maria
145
Giulio
148
Mario
149
Ernesto
151
Giorgio
140
Elena
148
Vittorio
149
Marco
151
Eleonora
145
Fabio
140
Ettore
149
Massimo
151
Cristian
145
Rossana
149
Elisabetta
138
Roberto
145
Walter
140
Nicoletta
152
Sara
145
Nicola
148
Supponiamo di aver indagato sul fenomeno “altezza dei ragazzi della
classe III di una scuola media” e di avere raccolto informazioni relative
a 20 campioni scelti, come da tabella qui a sinistra:
Eseguiamo successivamente lo spoglio delle informazioni realizzando
una tabella dove nella prima colonna scriveremo tutte le altezze
registrate e nella seconda colonna, sulla stessa riga, il numero dei
ragazzi che presentano quell’altezza.
La tabella che otteniamo è riportata qui
a destra:
Altezza
138
140
145
148
149
151
152
TOTALE
Numero
ragazzi
1
3
5
3
4
3
1
20
Abbiamo ottenuto una tabella semplice di dati statistici, in grado di fornirci già in’immagine del
fenomeno.
I dati riportati nella seconda colonna (numero dei ragazzi) rappresentano la frequenza assoluta di
ciascun dato (altezza), ovvero il numero di volte con cui il dato si presenta nell’indagine.
Renato Agati – Appunti di Statistica
Pagina 16
Tabella delle frequenze
Nel paragrafo precedente abbiamo realizzato una tabella con indicato il numero di volte con cui un
dato si presenta nell’indagine, ovvero abbiamo indicato per ciascun dato la sua frequenza
assoluta.
Può essere a volte opportuno indicare per ciascun dato il rapporto tra la sua frequenza assoluta e
il totale dei casi esaminati. In tal caso si parla di frequenza relativa di un dato, che viene espressa
in percentuale.
Per ottenere la frequenza relativa di un dato si applica la seguente formula:
frequenza relativa = (frequenza assoluta / totale casi) * 100
Applicando tale formula alla nostra tabella delle altezze di 20 ragazzi otteniamo quanto segue:
Altezza
138
140
145
148
149
151
152
TOTALE
Numero
ragazzi
1
3
5
3
4
3
1
20
Renato Agati – Appunti di Statistica
Altezza
(1 / 20)*100 = 5
(3 / 20)*100 = 15
(5 / 20)*100 = 25
(3 / 20)*100 = 15
(4 / 20)*100 = 20
(3 / 20)*100 = 15
(1 / 20)*100 = 5
138
140
145
148
149
151
152
TOTALE
Frequenza Frequenza
assoluta
relativa
1
3
5
3
4
3
1
20
5%
15%
25%
15%
20%
15%
5%
100%
Pagina 17
Tabella multipla e tabella a doppia entrata
Negli esempi fin qui riportati non abbiamo preso in considerazione il fatto che gli alunni del
campione selezionato sono sia maschi che femmine e che il fenomeno altezza può essere
influenzato dalla variabile statistica del sesso.
E’ opportuno prevedere ciò in fase di definizione dell’indagine, per raccogliere i dati in maniera
opportuna e realizzare, pertanto una tabella multipla come la seguente:
Altezza
138
140
145
148
149
151
152
TOTALE
Numero Numero
ragazzi ragazze
0
3
2
2
3
3
0
13
1
0
3
1
1
0
1
7
Anche in questo caso posiamo, oltre alle frequenze assolute, calcolare e riportare in tabella le
frequenze relative:
Altezza
Numero ragazzi
totale
%
138
140
145
148
149
151
152
TOTALE
0
3
2
2
3
3
0
13
0,0
23,1
15,4
15,4
23,1
23,1
0,0
100,0
Numero ragazze
totale
%
1
0
3
1
1
0
1
7
14,3
0,0
42,9
14,3
14,3
0,0
14,3
100,0
Questa tabella è detta tabella multipla a doppia entrata:
•
multipla perché il fenomeno “altezza” è stato suddiviso in due entrate (ragazzi e ragazze);
•
a doppia entrata perché per ogni entrata abbiamo una suddivisione in due colonne, quella
delle frequenze assolute e quella delle frequenze relative.
Renato Agati – Appunti di Statistica
Pagina 18
Tabella per classi
Supponiamo di eseguire un’indagine sul fenomeno “altezza dei ragazzi delle classi quinte di un
liceo” e di raccogliere i seguenti valori:
1,50
1,61
1,72
1,65
1,80
1,72
1,60
1,76
1,57
1,78
1,69
1,64
1,65
1,58
1,62
1,66
1,81
1,73
1,70
1,77
1,68
1,61
1,59
1,68
1,66
1,62
1,85
1,71
1,68
1,82
1,57
1,79
1,65
1,54
1,81
1,63
1,71
1,70
1,85
1,70
1,61
1,69
1,67
1,55
1,73
1,54
1,65
1,69
1,67
1,78
1,58
1,68
1,60
1,82
1,75
1,74
1,73
1,74
1,80
1,85
Come si può prevedere, l’elaborazione di questi dati potrebbe non essere semplice in quanto le
informazioni sono numeri completamente diversi tra loro. Calcolare la frequenza o la percentuale
di frequenza risulterebbe non solo laborioso, ma sopratutto poco significativo.
In casi del genere si procede compattando i risultati in gruppi e realizzando tabelle suddivise per
classi. Vediamo come procedere.
Innanzitutto dobbiamo riscrivere i dati in ordine crescente:
1,50
1,60
1,65
1,69
1,73
1,79
1,54
1,61
1,65
1,69
1,73
1,80
1,54
1,61
1,66
1,69
1,73
1,80
1,55
1,61
1,66
1,70
1,74
1,81
1,57
1,62
1,67
1,70
1,74
1,81
1,57
1,62
1,67
1,70
1,75
1,82
1,58
1,63
1,68
1,71
1,76
1,85
1,58
1,64
1,68
1,71
1,77
1,82
1,59
1,65
1,68
1,72
1,78
1,85
1,60
1,65
1,68
1,72
1,78
1,85
Consideriamo l’intervallo numerico tra il dato più piccolo e quello più grande, cioè 1,50 ÷ 1,85;
esso rappresenta il campo di variazione della variabile statistica considerata.
Consideriamo gli estremi del campo di variazione e eseguiamo la loro differenza che vale 0,35 m
(1,85 – 1,50 = 0,35). Questa differenza è detta ampiezza del campo di variazione, cioè è
l’ampiezza del raggruppamento di tutti i dati.
Suddividiamo l’ampiezza in opportuni intervalli uguali, ad esempio otto, ottenendo che l’ampiezza
di ciascun intervallo vale 0,04 m (0,35 / 8 = 0,04)
Renato Agati – Appunti di Statistica
Pagina 19
Possiamo a questo punto definire le otto classi di altezza che sono:
1a classe : 1,50 ÷ 1,54 (da 1,50 a 1,50 + 0,04)
2a classe : 1,55 ÷ 1,59 (da 1,55 a 1,55 + 0,04)
3a classe : 1,60 ÷ 1,64 (da 1,60 a 1,60 + 0,04)
4a classe : 1,65 ÷ 1,69 (da 1,65 a 1,65 + 0,04)
5a classe : 1,70 ÷ 1,74 (da 1,70 a 1,70 + 0,04)
6a classe : 1,75 ÷ 1,79 (da 1,75 a 1,75 + 0,04)
7a classe : 1,80 ÷ 1,84 (da 1,80 a 1,80 + 0,04)
8a classe : 1,85 ÷ 1,89 (da 1,85 a 1,85 + 0,04)
In queste otto classi sistemiamo la nostra popolazione: basterà considerare gli alunni appartenenti
ad ogni classe per avere la frequenza della classe, ovvero la distribuzione di frequenza del
raggruppamento dati.
Classi di
altezza
1,50 ÷ 1,54
3
5
1,55 ÷ 1,59
6
10
1,60 ÷ 1,64
1,65 ÷ 1,69
9
15
15
25
1,70 ÷ 1,74
12
20
1,75 ÷ 1,79
6
10
1,80 ÷ 1,84
6
10
1,85 ÷ 1,89
3
60
5
100
TOTALE
Renato Agati – Appunti di Statistica
Frequenza Frequenza
assoluta
relativa
Pagina 20
LE RAPPRESENTAZIONI GRAFICHE
I dati raccolti nelle tabelle possono essere rappresentati graficamente.
I grafici più utilizzati sono gli istogrammi, i grafici a barre, i grafici a torta e i grafici a linea.
La scelta del grafico dipende dal tipo di tabelle che abbiamo creato.
Esistono vari programmi software che, partendo dalla serie dei dati raccolti in tabella, realizzano
automaticamente il grafico desiderato. Generalmente sono i programmi per l’elaborazione dei
cosiddetti fogli elettronici.
I più popolari sono Microsoft Excel (contenuto nel pacchetto Microsoft Office, a pagamento) e
OpenOffice Calc (software di tipo “open source”, totalmente gratuito).
Tabella semplice (tabella di frequenza assoluta)
In questo caso il grafico più opportuno è l’istogramma, serie di barre verticali la cui altezza è
proporzionale al valore della frequenza.
Altezza
138
140
145
148
149
151
152
TOTALE
Numero
ragazzi
1
3
5
3
4
3
1
20
Renato Agati – Appunti di Statistica
Pagina 21
Tabella delle frequenze relative
In questo caso il grafico più opportuno è la torta che dà un immediato messaggio visivo di come i
dati statistici sono distribuiti l’uno rispetto agli altri.
Altezza
Frequenza Frequenza
assoluta
relativa
138
140
145
148
149
151
152
TOTALE
1
3
5
3
4
3
1
20
5%
15%
25%
15%
20%
15%
5%
100%
Tabella multipla
Anche per le tabelle multiple l’istogramma rappresenta il grafico più adatto.
Si possono realizzare due tipi di istogrammi, a
barre affiancate e a barre sovrapposte.
Altezza
138
140
145
148
149
151
152
TOTALE
Numero Numero
ragazzi ragazze
0
3
2
2
3
3
0
13
1
0
3
1
1
0
1
7
Renato Agati – Appunti di Statistica
Pagina 22
Tabella multipla e tabella a doppia entrata
Non esiste un unico grafico che possa rappresentare tutti i dati di una tabella multipla e a doppia
entrata.
Altezza
Numero ragazzi
totale
%
138
140
145
148
149
151
152
TOTALE
0
3
2
2
3
3
0
13
0,0
23,1
15,4
15,4
23,1
23,1
0,0
100,0
Numero ragazze
totale
%
1
0
3
1
1
0
1
7
14,3
0,0
42,9
14,3
14,3
0,0
14,3
100,0
In tal caso si ricorre a più di un grafico, come ad esempio un istogramma per rappresentare le
frequenze assolute dei ragazzi e delle ragazze e due grafici a torta per la distribuzione relativa dei
ragazzi (un grafico) e delle ragazze (secondo grafico).
Tabella per classi
Una tabella per classi differisce da una tabella semplice solo per il fatto che l’evento è
rappresentato non da un valore singolo ma da un intervallo di valori.
Classi di
altezza
1,50 ÷ 1,54
Frequenza Frequenza
assoluta
relativa
3
5
1,55 ÷ 1,59
6
10
1,60 ÷ 1,64
9
15
1,65 ÷ 1,69
1,70 ÷ 1,74
15
25
12
20
1,75 ÷ 1,79
6
10
1,80 ÷ 1,84
6
10
1,85 ÷ 1,89
3
5
TOTALE
60
100
Renato Agati – Appunti di Statistica
Una tabella per classi può pertanto essere ben rappresentata
da istogrammi.
Pagina 23
Grafici a linea
Può capitare che i dati in nostro possesso siano dati che rappresentano l’evoluzione nel tempo
dell’evento osservato, come l’andamento giornaliero delle quotazioni in borsa di un titolo
azionario o le temperature rilevate nello stesso posto ad intervalli regolari.
In questo caso i grafici a linea costituiscono la rappresentazione ideale in quanto danno
immediatamente un messaggio “visivo” sull’andamento del fenomeno, oltre a rappresentarne i
valori.
Nell’esempio qui riportato sono indicate le temperature minime e massime rilevate a Torino nel
periodo 1/10/2006 – 1/09/2007 (per semplicità sono state riportate le temperature del primo del
mese).
Data
Temp.
minima
T
1/09/2007
15,8
27,4
1/08/2007
15,7
28,3
1/07/2007
19,8
29,2
1/06/2007
12,4
19,8
1/05/2007
14,3
7,3
21,8
11,0
4,3
13,9
1/02/2007
-1,7
11,8
1/01/2007
0,2
8,6
1/12/2006
3,1
13,2
1/11/2006
1/10/2006
7,1
20,4
17,1
22,4
1/04/2007
1/03/2007
Renato Agati – Appunti di Statistica
Pagina 24
GLI INDICATORI STATISTICI : INDICI DI POSIZIONE
Gli indici, o indicatori statistici, sono i risultati di funzioni matematiche che vengono utilizzati per
effettuare una sintesi dei dati.
Gli indici più frequentemente utilizzati sono:
•
gli indici di posizione: danno un’idea approssimata dell’ordine di grandezza dei valori esistenti.
I più utilizzati sono la moda, la media, la mediana e i quantili.
•
gli indici di dispersione: vengono utilizzati per descrivere sinteticamente come i valori di una
distribuzione sono distanti da un valore centrale (identificato solitamente con la media o con la
mediana)
MODA
Si chiama MODA di un’indagine statistica il dato o la classe di dati che ha maggiore frequenza.
Altezza
138
140
145
148
149
151
152
TOTALE
Numero
ragazzi
1
3
5
3
4
3
1
20
In questo caso la frequenza maggiore è 5 e corrisponde al numero di
ragazzi alti 145 cm.
Pertanto, la moda è 145.
In una distribuzione può esserci un solo valore avente la maggiore frequenza, oppure due valori o
più: in tal caso si parla di distribuzione unimodale, bimodale, trimodale, e così via.
Renato Agati – Appunti di Statistica
Pagina 25
MEDIA ARITMETICA
In un insieme di dati statistici numerici la MEDIA ARITMETICA viene utilizzata per riassumere un
insieme di dati con un solo valore.
Per calcolare la media di una distribuzione semplice si devono sommare tutti i dati e dividere tale
somma per il numero dei dati.
In presenza di una tabella di frequenza si calcola la media aritmetica ponderata ( o pesata).
I singoli valori prima di essere sommati vengono moltiplicati con il peso (ponderazione) a loro
assegnato, ovvero al numero di volte (frequenza) in cui i valori compaiono.
La somma ottenuta deve poi essere divisa non con il numero di valori ma con la somma dei pesi.
Renato Agati – Appunti di Statistica
Pagina 26
E’ possibile calcolare la media aritmetica ponderata anche nel caso di distribuzioni per classi, ma
bisogna prima sostituire le classi con il loro valore medio, come nell’esempio che segue:
A questo punto si può calcolare la media aritmetica ponderata.
MEDIANA
Si dice MEDIANA di un insieme di dati statistici numerici, disposti in ordine crescente, il dato che
occupa il posto centrale.
Per determinare la mediana si procede in modi differenti secondo che abbiamo una distribuzione
semplice, una distribuzione ponderata o una per classi.
Caso 1 – Distribuzione semplice
Scrivendo i dati in ordine crescente, se i dati sono in numero dispari la mediana è il termine che
occupa il posto centrale; se i dati sono in numero pari, la mediana è rappresentata dalla media
aritmetica tra i due valori centrali.
Per calcolare in maniera semplice qual è / quali sono i termini centrali, basta dividere per due il
numero totale dei dati.
Esempio: se abbiamo una serie di 49 dati, poiché 49 / 2 = 24 con il resto di 1, il termine di mezzo è
il 25esimo (che avrà 24 dati a destra e 24 dati a sinistra).
Renato Agati – Appunti di Statistica
Pagina 27
Se abbiamo una serie di 150 dati, poiché 150 / 2 = 75, i due termini centrali sono il 75esimo e il
76esimo. La mediana è data dalla media aritmetica di questi due valori, ottenibile sommandoli tra
loro e dividendo il risultato per 2.
Caso 2 – Distribuzione ponderata
Si calcolano anzitutto le frequenze cumulate. A questo scopo si scrivono ordinatamente la prima
frequenza, la somma delle prime due, la somma delle prime tre, e così via
Valore
20
21
22
23
26
30
TOTALE
Frequenza Frequenza
cumulata
12
19
18
7
2
1
59
12
31
49
56
58
59
Renato Agati – Appunti di Statistica
Operando come nel caso di una distribuzione semplice, si
calcola che la mediana è il 30esimo termine.
Nella colonna delle frequenze cumulate si ricava che il 30esimo
termine vale 21: pertanto la mediana è 21.
Pagina 28
Caso 3 – Distribuzione per classi
Consideriamo la seguente distribuzione per classi (età di 400 persone):
Età
Frequenza Frequenza
cumulata
20 - 30
30 – 40
40 – 50
50 – 60
60 – 70
70 – 80
60
92
114
86
40
8
60
152
266
352
392
400
Calcoliamo la metà della frequenza cumulata complessiva ottenendo 200 (400/2); ciò vuol dire che
per arrivare all’età mediana dobbiamo contare le prime 200 persone disposte in ordine di età; ciò
vuole anche dire che la 200esima persona ha un’età tra i 40 e i 50 anni.
La mediana cade quindi nella classe 40-50 ed è precisamente: 40 + x, ove x rappresenta una
frazione dell’ampiezza 10 della classe.
Per calcolare x si nota che le frequenze cumulate fino a 40 sono 152. Poiché l’età mediana è la
200esima, essa è la 48esima età nella classe 40-50 (200 – 152 = 48).
Calcoliamo quindi x applicando il criterio di proporzionalità:
48 : 114 = x : 10
Dove 114 è il numero di elementi della classe 40-50.
Quindi:
x = ( 48 * 10 ) / 114 = 4,21
In definitiva la mediana della distribuzione per classi è:
40 + 4,21 = 44,21
Renato Agati – Appunti di Statistica
Pagina 29
QUANTILI
Si può reinterpretare la mediana come la più piccola modalità che divide la serie dei dati in due
parti uguali, lasciando il 50% delle unità statistiche alla sua sinistra e il 50% alla sua destra.
Se invece divido la serie delle unità statistiche in più di due parti uguali, allora si parla di quantili.
I quantili sono modalità del carattere che suddividono la distribuzione dei dati in q distribuzioni
parziali ciascuna contenente 1/q della numerosità totale.
In questo senso la mediana diventa il quantile di ordine q=1/2.
Se q=4, allora si parla di quartili. I quartili ripartiscono la distribuzione in quattro parti
caratterizzate dalla stessa numerosità, pari al 25% della numerosità totale.
Il primo quartile è il valore o l’insieme dei valori per cui la frequenza cumulata vale 0,25 (pari al
25% ), il secondo quartile coincide con la mediana, il terzo quartile è il valore o l’insieme dei valori
per cui la frequenza cumulata vale 0,75 (pari al 75% ).
Renato Agati – Appunti di Statistica
Pagina 30
GLI INDICATORI STATISTICI : INDICI DI DISPERSIONE
Consideriamo i seguenti dati:
Tre studenti, nel primo quadrimestre, hanno riportato le seguenti successioni di voti nelle prove
scritte di matematica:
Studente
Anna
Giovanni
Giuseppe
Voti
5
4
3
6
5
4
6
7
8
7
8
9
Se calcoliamo le medie aritmetiche e le mediane dei voti di ogni studente, vediamo che esse
coincidono:
Studente
Media
Mediana
Anna
Giovanni
Giuseppe
6
6
6
6
6
6
Nonostante ciò, è evidente che le tre successioni di voti sono diverse tra loro.
Per evidenziare queste differenze si deve introdurre il concetto di variabilità:
La variabilità è l’attitudine che la grandezza in oggetto ha di assumere valori più o meno diversi tra
loro.
Se i dati sono vicini al loro valore medio, allora la variabilità è bassa. Se i dati si discostano
fortemente dal loro valore medio allora la variabilità è alta.
La variabilità dei dati viene misurata attraverso nuovi indici, detti indici di variabilità o indici di
dispersione, che sono il campo di variazione, lo scarto semplice medio, lo scarto quadratico, la
varianza e lo scarto quadratico medio.
Renato Agati – Appunti di Statistica
Pagina 31
Campo di variazione
E’ l’indice di variabilità più semplice. E’ dato dalla differenza tra il dato massimo e il dato minimo
ed equivale all’ampiezza dell’intervallo che contiene tutti i dati.
Con riferimento all’esempio precedente abbiamo:
il campo di variabilità dei voti di Anna è : 7 – 5 = 2
il campo di variabilità dei voti di Giovanni è : 8 – 4 = 4
il campo di variabilità dei voti di Giuseppe è : 9 – 3 = 6
Pertanto si può dedurre che i voti di Anna sono pressoché costanti, mentre quelli di Giuseppe sono
molto diversi tra loro.
Il campo di variazione non è però un buon indice di variabilità: se consideriamo, ad esempio, un
quarto studente, Mario, i cui voti sono 4, 4, 8, 8, è evidente che il campo di variazione è lo stesso
di quello di Giovanni, ma la variabilità (ovvero l’attitudine che la grandezza in oggetto ha di
assumere valori diversi tra loro) è diversa.
Pertanto, il campo di variazione non è sufficiente e si deve ricorrere a nuovi indici di variabilità più
sensibili.
Scarto semplice medio
Per calcolare lo scarto semplice medio si procede nel seguente modo.
Si calcola innanzitutto lo scarto semplice, rappresentato dalla differenza del singolo valore dalla
media (Xi – M). Gli scarti semplici possono essere sia positivi che negativi, e la loro somma è
uguale a zero.
Infatti, se consideriamo per esempio i voti di Giuseppe (3, 4, 8, 9, la cui media vale 6) e calcoliamo
la somma degli scarti semplici abbiamo:
(3 – 6) + (4 – 6) + (8 – 6) + (9 – 6) = (- 3) + (- 2) + (+ 2) + (+ 3) = 0
Si ricorre pertanto allo scarto semplice medio ottenuto calcolando la media aritmetica dei valori
assoluti degli scarti semplici, ovvero la media degli scarti semplici presi con il segno positivo:
( |3 – 6| + |4 – 6| + |8 – 6| + |9 – 6| ) / 4 = ( (+ 3) + (+ 2) + (+ 2) + (+ 3) ) / 4 = 10 / 4 = 2,5
Renato Agati – Appunti di Statistica
Pagina 32
Varianza
Lo scarto semplice medio, sebbene dia indicazioni su come i valori della distribuzione differiscono
tra loro, risulta insufficiente quando i campi di variazione sono minimi.
Si ricorre pertanto alla varianza, indicatore di dispersione che vale zero solo nei casi in cui tutti i
valori sono uguali tra di loro (e pertanto uguali alla loro media) e che cresce con il crescere delle
differenze reciproche dei valori.
La varianza viene calcolata nel seguente modo: si calcolano gli scarti quadratici che sono i quadrati
degli scarti semplici, e se ne calcola la media aritmetica.
Considerando anche stavolta i voti di Giuseppe abbiamo:
( (3 – 6)2 + (4 – 6)2 + (8 – 6)2 + (9 – 6)2 ) / 4 =
( (- 3)2 + (- 2)2 + (+ 2)2 + (+ 3)2 ) / 4 =
( 9 + 4 + 4 + 9 ) / 4 = 26 / 4 = 6,5
Se calcoliamo anche la varianza dei voti di Anna e di Giovanni avremo:
Deviazione standard
La varianza esprime meglio la distribuzione dei valori ma l’elevamento al quadrato rappresenta
un’anomalia che può essere recuperata solo con un’operazione inversa, l’estrazione della radice
quadrata.
Il valore che otteniamo è la deviazione standard, indicata con la lettera σ (sigma), ed è l’indice di
variabilità più utilizzato per misurare la dispersione dei dati intorno al valore atteso.
Nella tabella che segue sono indicati i vari indici di variabilità calcolati sui voti di Anna, Giovanni e
Giuseppe:
Studente
Anna
Giovanni
Giuseppe
Renato Agati – Appunti di Statistica
Campo di
Scarto
variazione semplice
medio
2
0,5
4
1,5
6
2,5
Varianza
0,5
2,5
6,5
Scarto
quadratico
medio
0,70
1,58
2,54
Pagina 33
Renato Agati
http://arc81.altervista.org
Renato Agati – Appunti di Statistica
Pagina 34