Statistica : scienza che ha come fine lo studio quantitativo e

Statistica : scienza che ha come fine lo studio quantitativo e qualitativo
di un “collettivo”.
L’etimologia della parola pare derivi dal vocabolo “stato”e fa
riferimento alla constatazione per cui le prime informazioni sui
fenomeno reali sono state raccolte ed organizzate ad opera degli
organismi statali che ne erano anche i principali fruitori.
Un’altra versione della derivazione etimologica fa riferimento alla
parola “status” per indicare che tale scienza esamina la situazione
contingente della realtà .
La prima apparizione del vocabolo “statistica” nella accezione
precedentemente riportata pare risalga al 1589 da parte dell’italiano
Ghislini.
La scienza statistica si suddivide in due branche principali :
•Statistica descrittiva
•Statistica inferenziale
La statistica descrittiva ha come scopo quello di sintetizzare i dati
attraverso strumenti grafici ( diagrammi a barre, a torta, istogrammi..)
e indici ( indicatori di posizione o di sintesi come la media , indici di
variazione come la varianza o lo scarto quadratico medio, di
correlazione….) che descrivono gli aspetti salienti del fenomeno che
viene studiato.
La statistica inferenziale ha come obiettivo quello di fare affermazioni,
con una possibilità di errore controllata,riguardo alla natura teorica del
fenomeno che si osserva. Tale conoscenza permetterà poi di fare
previsioni. La statistica inferenziale è fortemente legata alla teoria della
probabilità.
La statistica, quindi tratta di caratteri, cioè aspetti della realtà osservabili e
variabili nel senso che possono assumere espressioni differenti. Essi devono
poter essere rilevati sui soggetti che li esprimono ( le unità statistiche );
questi ultimi devono appartenere ad una collettività ( la popolazione
statistica ).
CARATTERI
qualitativi
Nominali
Nominali
semplici
ordinali
quantitativi
discreti
continui
Dati qualitativi e processo di misurazione
I dati qualitativi sono espressi in forma verbale rappresentata :
 da aggettivi ( biondo, bruno, castano…)
da altre forme ( addetti all’agricoltura, diplomati, laureati…)
I dati qualitativi nominali semplici non ammettono un ordine
logico, quelli ordinali ammettono un ordine logico.
Non possono essere trattati con strumenti matematici.
Dati quantitativi e processo di misurazione
I dati quantitativi sono espressi da numeri; possono essere :
 risultato di un conteggio ( discreti )
risultato di una misurazione ( continui )
Variabili e mutabili statistiche
E’ un modo di misurare e rappresentare un aspetto della realtà che può essere
osservato e manifestarsi in forme differenti.
Variabile statistica: relativa a caratteri di tipo quantitativo;
Mutabile statistica : relativa a caratteri di tipo qualitativo.
Notazione:
• Le variabili o mutabili statistiche sono individuate mediante lettere maiuscole ( X,
Y, W …);
• Le modalità sono individuate mediante lettere minuscole ( con xi si intende la
modalità che la variabile X ha assunto per la i-esima unità statistica )
• Con n si intende di solito il numero di unità statistiche.
Distribuzioni di frequenza
Il primo e più semplice strumento di sintesi e analisi dei dati è la distribuzione di
frequenza:
 Frequenza assoluta : numero di volte che si manifesta la modalità di una
variabile/mutabile;
 Frequenza relativa : rapporto tra la frequenza assoluta di una modalità e il numero
di unità statistiche.
 Frequenza cumulata : ( solo per variabili statistiche o mutabili statistiche ordinabili
) è la somma delle frequenze ( assolute o relative) di una modalità e di tutte le
modalità che la precedono.
 Distribuzione di frequenza : l’insieme delle coppie ordinate in cui il primo
elemento è una modalità, il secondo è la sua frequenza.
Indici di tendenza centrale o posizione
(Indici di sintesi)
La tendenza centrale o posizione di un insieme di dati indica , numericamente, dove i
dati sono concentrati.
Indici di sintesi
Medie di posizione: per il calcolo
Medie analitiche: sono calcolate con
non richiedono operazioni algebriche
sulle modalità
operazioni algebriche sulle modalità (
caratteri quantitativi )
Medie
•
•
•
MODA : modalità con frequenza assoluta maggiore nel collettivo.
MEDIA ARITMETICA : è il numero espresso dalla somma delle modalità delle unità
statistiche fratto il numero delle unità statistiche. E’ la media posizionale per
eccellenza e si indica con µ.
MEDIANA : è quella modalità che si lascia a destra e a sinistra un ugual numero di
dati. Per il calcolo bisogna ordinare le modalità in ordine crescente, individuare la
posizione centrale :
 se n dispari, la posizione è (n+1)/2 e la mediana sarà la modalità in tale posizione
 se n è pari si hanno due unità centrali in posizione n/2 e n/2+1. Se il carattere è quantitativo si
considera come mediana la media aritmetica dei valori nelle due posizioni centrali.
•
•
PERCENTILI : valori che suddividono la distribuzione ordinata in cento parti di
uguale numerosità. Il p-esimo percentile è il valore per cui una percentuale pari a
p delle osservazioni è inferiore o uguale ad esso. I percentili più usati sono i
quartili, cioè il 25° , il 50° e il 75° percentile.
MEDIA GEOMETRICA : è la radice di indice n del prodotto di tutte le modalità.
Proprietà della media aritmetica
•
•
•
•
•
Internalità : la media aritmetica è sempre compresa tra la modalità massima e
quella minima ( criterio di Cauchy )
Baricentro della distribuzione : la somma delle differenze tra i valori e la loro
media ( scarti ) è pari a zero.
Linearità : Se consideriamo una variabile statistica X di media µ e la variabile
statistica Y=aX+b , allora la media di Y è pari al valore aµ+b .
Associativa : se un collettivo viene suddiviso in “h” insiemi disgiunti, allora la
media aritmetica generale si può ottenere come media ponderata delle medie dei
sottoinsiemi con pesi uguali alle loro numerosità.
Minimizzazione della somma degli scarti quadrati : la somma degli scarti al
quadrato dei valori da una costante k è minima quando il valore di k coincide con
la media aritmetica µ. Nel caso di una distribuzione semplice:
n
 x
i 1
i
 k
2
è minimo nel caso k  
Variabilità e indici
La variabilità di un fenomeno è la tendenza a presentarsi in modo diverso, ovvero la
tendenza ad assumere diverse modalità o valori tra le diverse unità statistiche.
Poiché la variabilità o è assente o è presente , un qualunque indice che funga da
misura dovrà essere positivo se la variabilità si manifesta, dovrà valere zero se la
variabilità è assente.
Indici di variabilità :
• CAMPO DI VARIAZIONE : differenza tra la modalità più grande e quella più piccola
( indice di variabilità semplice)
• SCOSTAMENTO SEMPLICE MEDIO : media aritmetica degli scarti dalla media in
valore assoluto ( indice di variabilità rispetto al centro ). Per una distribuzione
semplice :
n
scost. semplice medio 
x
i
i 1
n

•VARIANZA : media aritmetica degli scarti dalla media al quadrato (
indice di variabilità rispetto al centro). Essa esprime la variabilità
considerando l’unità di misura al quadrato ed è di difficile
interpretazione.
2
n
Var( X )   X 
2
 x
i
 
i 1
n
SCARTO QUADRATICO MEDIO : è pari alla radice quadrata della
varianza. Ciò riporta alla stessa unità di misura dei dati.
n
 X  Var( X ) 
 x
i
 
i 1
n
2
Proprietà della varianza
•
•
•
Invarianza rispetto alla traslazione : data una variabile X con varianza Var(X)=σx2 e
data una variabile Y = X+b allora Var(Y)= σY2 = σx2 , cioè la varianza non cambia se la
variabile viene traslata. Ciò è vero , ovviamente, anche per lo scarto quadratico
medio. (Infatti la traslazione non modifica la struttura di varibilità, ma sposta
semplicemente tutta la distribuzione)
Variabilità rispetto ai cambiamenti di scala : : data una variabile X con varianza
Var(X)=σx2 e data una variabile Y =a X allora Var(Y)= σY2 = a2σx2 . Per lo scarto
quadratico medio , invece, vale σY = │a│σx .
Formula “semplificata” della varianza : la varianza della variabile statistica X può
essere calcolata come la differenza tra la media aritmetica delle modalità al
quadrato e il quadrato della media aritmetica.
n
Var( X )  M ( X )   
2
2
x
i 1
n
2
i








xi 

i 1
n 


n

2