La variabilità e la concentrazione

annuncio pubblicitario
GENERALITÀ
Esaminando i fenomeni collettivi si è affermato che una delle loro
caratteristiche è quella di essere costituiti da più fenomeni
individuali atipici; si è anche studiato che il carattere di un
fenomeno collettivo può assumere modalità qualitative o
quantitative e che l’attitudine che tali fenomeni hanno ad assumere
diverse modalità qualitative si dice mutabilità, mentre l’attitudine ad
assumere diverse modalità quantitative si dice variabilità. Si è visto
come si possa fare uso dei valori medi allo scopo di condensare
l’insieme dei dati provenienti dalle osservazioni in un unico valore
che possa rappresentarli tutti. Tale valore è spesso indicato come
<<centro>> della distribuzione. Occorre ora tenere presente un
concetto essenziale della statistica, e cioè che un valore medio,
comunque calcolato, non è sufficiente a rappresentare l’insieme
delle osservazioni effettuate (o l’insieme dei valori assunti dalla
variabile statistica); è necessario quindi affiancare ad esso altri
indici che siano in grado di fornire delle informazioni sulla
dispersione, in pratica sulla distanza delle varie osservazioni dal
valore medio che rappresenta il centro della distribuzione.
Tanto minore è la distanza (o dispersione) delle osservazioni dal
centro, tanto maggiore sarà la rappresentatività e l’affidabilità del
valore medio. Gli indici di variabilità assumono valore zero solo se è
nulla la variabilità, e tutti i valori xi sono quindi uguali fra loro;
all’aumentare della variabilità tali indici assumeranno valori sempre
maggiori. Riassumendo, possiamo affermare che un carattere
saliente dei dati statistici è la variabilità. Per analizzare una
distribuzione, dopo aver calcolato uno o più valori medi si cerca di
evidenziare la dispersione dei dati, dispersione che caratterizza la
variabilità del fenomeno. Può interessare conoscere sia di quanto i
dati differiscono da un valore medio, sia di quanto i dati differiscono
fra loro. Vi sono vari indici che misurano la variabilità di un
fenomeno.
CAMPO DI VARIAZIONE
È il più semplice da calcolare ed è dato dalla differenza fra il
maggiore e il minore dei valori rilevati. Talvolta il campo di
variazione si esprime indicando, invece della differenza fra il
maggiore e il minore dei valori rilevati, gli estremi dell’intervallo. Il
campo di variazione è un indice molto semplice da calcolare, ma di
scarsa importanza perché tiene conto solo dei valori estremi e non
degli altri.
SCARTO QUADRATICO MEDIO E VARIANZA
Consideriamo gli scarti dei valori dalla media aritmetica, ossia le
differenze xi-M. Per valutare la maggiore o minore dispersione dei
valori dalla media aritmetica, si cerca un valore medio degli scarti.
Abbiamo già visto che la media aritmetica degli scarti è zero e
pertanto non è significativa. Uno degli indici più utilizzato è lo scarto
quadratico medio.
Si definisce scarto quadratico medio la media quadratica,
semplice o ponderata, degli scarti dei valori dalla media aritmetica.
Nel caso di serie si ha:
Lo scarto quadratico medio è tanto più piccolo quanto più i dati
sono prossimi al valore medio ed è uguale a zero se e solo se i dati
sono tutti eguali fra loro. Il quadrato dello scarto quadratico medio σ
² è detto varianza. Per il calcolo della varianza σ ², o dello scarto
quadratico medio σ , si può utilizzare una formula che si ottiene con
semplici passaggi. La ricaviamo per le serie, notando che una
relazione analoga vale per le seriazioni.
La varianza è eguale alla differenza fra la media aritmetica
semplice o ponderata dei quadrati dei valori e il quadrato della
media.
Se i dati sono raggruppati in classi, come per il calcolo della media,
si prende come xi il valore centrale di ogni classe anche se questo
comporta un errore di approssimazione dovuto proprio al
raggruppamento. Lo scarto quadratico medio è un indice della
dispersione dei dati molto sensibile per misurare l’esistenza dei dati
che si scostano molto dal valore medio. Lo scarto quadratico medio
(o la varianza) sono utilizzati per determinare un modello teorico del
fenomeno.
SCOSTAMENTO SEMPLICE MEDIO
Un altro indice di variabilità è lo scostamento semplice medio,
che è la media aritmetica dei valori assoluti degli scarti xi da un
valore medio. Si utilizzano due scostamenti semplici medi:
lo scostamento semplice medio dalla media aritmetica:
(Sm = spintarella molto forte☺)(scherzo)
lo scostamento semplice medio dalla mediana:
Le precedenti relazioni sono date per una seriazione; nel caso di
serie è sufficiente porre yi = 1. Per la proprietà caratteristica della
mediana, lo scostamento semplice medio dalla mediana è minore di
qualsiasi scostamento semplice medio delle xi da qualunque valore.
Nelle applicazioni si preferisce usare σ , invece di SM, poiché σ
evidenzia meglio gli scarti maggiori in valore assoluto.
INDICI DI VARIABILITÀ RELATIVA
Tutti gli indici di variabilità sono definiti indici di variabilità assoluta e
sono espressi nella stessa unità di misura del fenomeno
considerato; nel caso occorra confrontare più distribuzioni che
siano espresse con diverse unità di misura, si ricorre agli indici di
variabilità relativa. Tali indici si calcolano facendo il rapporto fra gli
indici di variabilità assoluta e l’intensità media del fenomeno. Il più
usato è il coefficiente di variabilità del Pearson dato
dall’espressione:
Gli altri indici hanno espressione:
Gli indici di variabilità relativa hanno quindi la caratteristica di
essere dei numeri puri, indipendenti cioè dall’unità di misura
prescelta, e permettono di confrontare più distribuzioni.
CONCENTRAZIONE
Un particolare aspetto della variabilità di un fenomeno è la
concentrazione. Lo studio della concentrazione è utile per vedere
se il fenomeno è equamente distribuito fra tutte le unità statistiche
oppure è concentrato in poche unità. Ad esempio, si può affermare
che la distribuzione delle scuole elementari è poco concentrata sul
territorio italiano perché quasi tutti i Comuni ne possiedono almeno
una, mentre la distribuzione delle Università è molto concentrata
perché pochi Comuni sono sedi di Università. Sono state introdotte
varie misure della concentrazione. Interessante è il metodo grafico
di Lorenz applicato allo studio della distribuzione della ricchezza;
esso è assai utile se i dati sono numerosi e raggruppati in classi.
Data una variabile statistica:
X1
Y1
X2
Y2
…
…
Xn
Yn
Dove xi sono i valori nel discreto o i centri delle classi nel caso di
raggruppamenti in classi e le yi sono le frequenze, si considerino i
prodotti xi yi (essi rappresentano l’intensità del carattere della
classe i-esima) e la loro somma:
(rappresenta l’intensità globale del fenomeno). Si calcolano le
frequenze cumulate e le intensità cumulate, quindi le frequenze
relative cumulate e le intensità relative cumulate, che si ottengono,
le prime dividendo le frequenze cumulate per la somma delle
frequenze e le seconde dividendo le intensità cumulate per
l'intensità globale. Se le intensità relative cumulate sono eguali alle
frequenze relative cumulate, significa che il fenomeno è
equidistribuito poiché a una certa frazione delle unità statistiche
corrisponde una frazione uguale dell’intensità del fenomeno; se,
invece, sono minori, il fenomeno è tanto più concentrato quanto più
le intensità relative cumulate differiscono dalle frequenze relative
cumulate. La concentrazione è massima quando la curva di
concentrazione coincide con i cateti del triangolo OAB, in pratica
quando l’intensità globale è concentrata in una sola unità statistica.
Se l’intensità è equamente distribuita, la curva di concentrazione
coincide con la retta di equidistribuzione OB. Quanto maggiori sono
le differenze pi – qi, altrettanto maggiore è la concentrazione. Un
rapporto di concentrazione si ottiene dividendo la misura
dell’area di concentrazione per la misura dell’area del triangolo
OAB;
Risulta:
Se l’area di concentrazione è zero, ossia se la curva di
concentrazione coincide con la retta di equidistribuzione, allora R =
0 e si afferma che non esiste concentrazione. Se l’area di
concentrazione coincide con quella del triangolo OAB, allora R = 1
e la concentrazione è massima. In tutti gli altri casi si ha 0<R<1.
Quindi si ha:
Considerando che:
L’area del triangolo OAB equivale a ½,
L’area di ogni trapezio si ottiene con la formula:
e nel nostro caso:
Il primo trapezio in realtà è un triangolo rettangolo,
la formula per il calcolo di R diventa:
La formula di R si può semplificare dividendo il numeratore e il
denominatore per ½:
Effettuando il prodotto otteniamo:
Poiché:
e pnqn è uguale a 1, la precedente uguaglianza diventa:
In definitiva il rapporto di concentrazione risulta:
Questi grafici non sono molto significativi (tra l’altro non li ho
nemmeno presi tutti, altrimenti invece di una tesina veniva una
“grafi china”) ma mi ha attirato l’ultimo per la sua originalità
Ricerche correlate:
o
o
o
o
o
o
o
o
grafici a torta
o
diagramma a colonne
o
o
quello che mi sembrava carino
Il primo è il sito dei grafici che, non è significativo ai fini della tesina
https://www.google.it/search?hl=it&biw=1280&bih=585&tbm=isch&q=st
atistica+descrittiva&revid=2011363059&sa=X&ei=qf_qT_yRLKX54QS7
ssyEAw&ved=0CEQQgxY4Cg
http://www.regione.veneto.it/Temi+Istituzionali/Statistica/
http://www.sis-statistica.it/
Scarica