Concetti chiave e regole Che cos'eÁ la statistica La statistica ha come scopo lo studio di fenomeni collettivi ed esegue le sue indagini su popolazioni di individui al fine di raccogliere e analizzare dati relativi a uno o piuÁ caratteri del fenomeno stesso; i vari modi con cui si puoÁ presentare un carattere si dicono modalitaÁ del carattere. Di un carattere, oggetto di una indagine statistica, si dice che eÁ: l una mutabile statistica se le sue modalita Á sono di tipo qualitativo, cioeÁ si possono esprimere mediante nomi o aggettivi (colore dei capelli, tipo di laurea); l una variabile statistica se le sue modalita Á sono di tipo quantitativo, cioeÁ si possono esprimere mediante numeri o intervalli di numeri (altezza, peso, numero di abitanti). La rappresentazione dei dati I dati di un'indagine statistica possono essere raccolti in una distribuzione di frequenze (assolute o relative) nelle quali ogni modalitaÁ xi del carattere eÁ associato a un numero fi , la sua frequenza assoluta, che indica quante volte quel carattere compare. Ad ogni modalitaÁ del carattere puoÁ anche essere associata la sua frequenza relativa pi , intesa come rapporto fra la frequenza assoluta e il totale T delle osservazioni. I dati relativi a modalitaÁ xi e frequenze fi oppure pi sono di solito riassunti in una tabella delle frequenze. Una distribuzione di frequenze puoÁ essere rappresentata graficamente in diversi modi: l mediante un diagramma a rettangoli o circolare l mediante un diagramma cartesiano o un istogramma l mediante un ideogramma o un cartogramma. Gli indici di posizione Una distribuzione di frequenze puoÁ essere sintetizzata da alcuni indici di posizione: l le medie ferme, fra cui: ± la media aritmetica n X M i1 n ± la media geometrica MG n X xi xi f i oppure nel caso di medie ponderate M i1 n X p n x1 x2 ::: xn oppure nel caso di medie ponderate MG fi i1 q F f f f x1 1 x2 2 ::: xn n dove F n X fi i1 r x12 x22 ::: xn2 ± la media quadratica MQ n s x12 f1 x22 f2 ::: xn2 fn oppure nel caso di medie ponderate MQ f1 f2 ::: fn ± la media armonica MA n 1 1 1 ::: x1 x2 xn oppure nel caso di medie ponderate MA f1 f2 ::: fn f1 f2 fn ::: x1 x2 xn Le medie ferme si possono calcolare solo per caratteri di tipo quantitativo. La statistica descrittiva Q ISTITUTO ITALIANO EDIZIONI ATLAS l le medie lasche, fra cui: ± la moda, cioeÁ il termine a cui corrisponde la massima frequenza ± la mediana, cioeÁ il termine che, disposti i dati in ordine crescente o decrescente, occupa il posto centrale. Le medie lasche, quando esistono, si possono calcolare per qualsiasi tipo di carattere. Le proprietaÁ della media e della mediana La media aritmetica e la mediana di una distribuzione godono di alcune proprietaÁ: l la somma degli scarti dalla media aritmetica e Á sempre nulla, mentre la somma dei quadrati degli scarti eÁ minima l la somma dei valori assoluti degli scarti dalla mediana e Á minima. Le misure di dispersione Per avere informazioni su come i dati di una indagine statistica si distribuiscono attorno ai loro valori di sintesi e quindi per poter confrontare distribuzioni, si studiano gli indici di variabilitaÁ; i piuÁ importanti fra essi sono: l lo scarto quadratico medio o deviazione standard , che eÁ la media quadratica degli scarti dalla media aritmetica: v n uX 2 u xi M t i1 nel caso di dati semplici n v o uX n n u 2 xi M fi u u i1 u u n X t fi nel caso di dati ponderati con pesi fi i1 l lo scostamento medio S, che eÁ la media aritmetica dei valori assoluti degli scarti dalla mediana: n X jxi Me j S i1 n nel caso di dati semplici n X S i1 jxi Me j fi n X nel caso di dati ponderati con pesi fi fi i1 l la varianza 2 , che eÁ il quadrato della deviazione standard Per il calcolo della deviazione standard (e quindi della varianza) si puoÁ anche usare la formula q media dei quadrati delle osservazioni quadrato della media I coefficienti di variazione Quando si devono confrontare distribuzioni molto diverse fra loro, con caratteri che hanno differenti unitaÁ di misura o ordini di grandezza dei dati molto diversi, si ricorre ai coefficienti di variazione che hanno il vantaggio di essere numeri puri, quindi sempre confrontabili; i coefficienti di variazione sono definiti come rapporto fra l'indice di variabilitaÁ della distribuzione ed il valore medio utilizzato per calcolarlo: l CV M se il polo eÁ la media aritmetica La statistica descrittiva Q ISTITUTO ITALIANO EDIZIONI ATLAS l CV S Me se il polo eÁ la mediana