Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e fa riferimento alla constatazione per cui le prime informazioni sui fenomeno reali sono state raccolte ed organizzate ad opera degli organismi statali che ne erano anche i principali fruitori. Un’altra versione della derivazione etimologica fa riferimento alla parola “status” per indicare che tale scienza esamina la situazione contingente della realtà . La prima apparizione del vocabolo “statistica” nella accezione precedentemente riportata pare risalga al 1589 da parte dell’italiano Ghislini. La scienza statistica si suddivide in due branche principali : •Statistica descrittiva •Statistica inferenziale La statistica descrittiva ha come scopo quello di sintetizzare i dati attraverso strumenti grafici ( diagrammi a barre, a torta, istogrammi..) e indici ( indicatori di posizione o di sintesi come la media , indici di variazione come la varianza o lo scarto quadratico medio, di correlazione….) che descrivono gli aspetti salienti del fenomeno che viene studiato. La statistica inferenziale ha come obiettivo quello di fare affermazioni, con una possibilità di errore controllata,riguardo alla natura teorica del fenomeno che si osserva. Tale conoscenza permetterà poi di fare previsioni. La statistica inferenziale è fortemente legata alla teoria della probabilità. La statistica, quindi tratta di caratteri, cioè aspetti della realtà osservabili e variabili nel senso che possono assumere espressioni differenti. Essi devono poter essere rilevati sui soggetti che li esprimono ( le unità statistiche ); questi ultimi devono appartenere ad una collettività ( la popolazione statistica ). CARATTERI qualitativi Nominali Nominali semplici ordinali quantitativi discreti continui Dati qualitativi e processo di misurazione I dati qualitativi sono espressi in forma verbale rappresentata : da aggettivi ( biondo, bruno, castano…) da altre forme ( addetti all’agricoltura, diplomati, laureati…) I dati qualitativi nominali semplici non ammettono un ordine logico, quelli ordinali ammettono un ordine logico. Non possono essere trattati con strumenti matematici. Dati quantitativi e processo di misurazione I dati quantitativi sono espressi da numeri; possono essere : risultato di un conteggio ( discreti ) risultato di una misurazione ( continui ) Variabili e mutabili statistiche E’ un modo di misurare e rappresentare un aspetto della realtà che può essere osservato e manifestarsi in forme differenti. Variabile statistica: relativa a caratteri di tipo quantitativo; Mutabile statistica : relativa a caratteri di tipo qualitativo. Notazione: • Le variabili o mutabili statistiche sono individuate mediante lettere maiuscole ( X, Y, W …); • Le modalità sono individuate mediante lettere minuscole ( con xi si intende la modalità che la variabile X ha assunto per la i-esima unità statistica ) • Con n si intende di solito il numero di unità statistiche. Distribuzioni di frequenza Il primo e più semplice strumento di sintesi e analisi dei dati è la distribuzione di frequenza: Frequenza assoluta : numero di volte che si manifesta la modalità di una variabile/mutabile; Frequenza relativa : rapporto tra la frequenza assoluta di una modalità e il numero di unità statistiche. Frequenza cumulata : ( solo per variabili statistiche o mutabili statistiche ordinabili ) è la somma delle frequenze ( assolute o relative) di una modalità e di tutte le modalità che la precedono. Distribuzione di frequenza : l’insieme delle coppie ordinate in cui il primo elemento è una modalità, il secondo è la sua frequenza. Indici di tendenza centrale o posizione (Indici di sintesi) La tendenza centrale o posizione di un insieme di dati indica , numericamente, dove i dati sono concentrati. Indici di sintesi Medie di posizione: per il calcolo Medie analitiche: sono calcolate con non richiedono operazioni algebriche sulle modalità operazioni algebriche sulle modalità ( caratteri quantitativi ) Medie • • • MODA : modalità con frequenza assoluta maggiore nel collettivo. MEDIA ARITMETICA : è il numero espresso dalla somma delle modalità delle unità statistiche fratto il numero delle unità statistiche. E’ la media posizionale per eccellenza e si indica con µ. MEDIANA : è quella modalità che si lascia a destra e a sinistra un ugual numero di dati. Per il calcolo bisogna ordinare le modalità in ordine crescente, individuare la posizione centrale : se n dispari, la posizione è (n+1)/2 e la mediana sarà la modalità in tale posizione se n è pari si hanno due unità centrali in posizione n/2 e n/2+1. Se il carattere è quantitativo si considera come mediana la media aritmetica dei valori nelle due posizioni centrali. • • PERCENTILI : valori che suddividono la distribuzione ordinata in cento parti di uguale numerosità. Il p-esimo percentile è il valore per cui una percentuale pari a p delle osservazioni è inferiore o uguale ad esso. I percentili più usati sono i quartili, cioè il 25° , il 50° e il 75° percentile. MEDIA GEOMETRICA : è la radice di indice n del prodotto di tutte le modalità. Proprietà della media aritmetica • • • • • Internalità : la media aritmetica è sempre compresa tra la modalità massima e quella minima ( criterio di Cauchy ) Baricentro della distribuzione : la somma delle differenze tra i valori e la loro media ( scarti ) è pari a zero. Linearità : Se consideriamo una variabile statistica X di media µ e la variabile statistica Y=aX+b , allora la media di Y è pari al valore aµ+b . Associativa : se un collettivo viene suddiviso in “h” insiemi disgiunti, allora la media aritmetica generale si può ottenere come media ponderata delle medie dei sottoinsiemi con pesi uguali alle loro numerosità. Minimizzazione della somma degli scarti quadrati : la somma degli scarti al quadrato dei valori da una costante k è minima quando il valore di k coincide con la media aritmetica µ. Nel caso di una distribuzione semplice: n x i 1 i k 2 è minimo nel caso k Variabilità e indici La variabilità di un fenomeno è la tendenza a presentarsi in modo diverso, ovvero la tendenza ad assumere diverse modalità o valori tra le diverse unità statistiche. Poiché la variabilità o è assente o è presente , un qualunque indice che funga da misura dovrà essere positivo se la variabilità si manifesta, dovrà valere zero se la variabilità è assente. Indici di variabilità : • CAMPO DI VARIAZIONE : differenza tra la modalità più grande e quella più piccola ( indice di variabilità semplice) • SCOSTAMENTO SEMPLICE MEDIO : media aritmetica degli scarti dalla media in valore assoluto ( indice di variabilità rispetto al centro ). Per una distribuzione semplice : n scost. semplice medio x i i 1 n •VARIANZA : media aritmetica degli scarti dalla media al quadrato ( indice di variabilità rispetto al centro). Essa esprime la variabilità considerando l’unità di misura al quadrato ed è di difficile interpretazione. 2 n Var( X ) X 2 x i i 1 n SCARTO QUADRATICO MEDIO : è pari alla radice quadrata della varianza. Ciò riporta alla stessa unità di misura dei dati. n X Var( X ) x i i 1 n 2 Proprietà della varianza • • • Invarianza rispetto alla traslazione : data una variabile X con varianza Var(X)=σx2 e data una variabile Y = X+b allora Var(Y)= σY2 = σx2 , cioè la varianza non cambia se la variabile viene traslata. Ciò è vero , ovviamente, anche per lo scarto quadratico medio. (Infatti la traslazione non modifica la struttura di varibilità, ma sposta semplicemente tutta la distribuzione) Variabilità rispetto ai cambiamenti di scala : : data una variabile X con varianza Var(X)=σx2 e data una variabile Y =a X allora Var(Y)= σY2 = a2σx2 . Per lo scarto quadratico medio , invece, vale σY = │a│σx . Formula “semplificata” della varianza : la varianza della variabile statistica X può essere calcolata come la differenza tra la media aritmetica delle modalità al quadrato e il quadrato della media aritmetica. n Var( X ) M ( X ) 2 2 x i 1 n 2 i xi i 1 n n 2