GENERALITÀ Esaminando i fenomeni collettivi si è affermato che una delle loro caratteristiche è quella di essere costituiti da più fenomeni individuali atipici; si è anche studiato che il carattere di un fenomeno collettivo può assumere modalità qualitative o quantitative e che l’attitudine che tali fenomeni hanno ad assumere diverse modalità qualitative si dice mutabilità, mentre l’attitudine ad assumere diverse modalità quantitative si dice variabilità. Si è visto come si possa fare uso dei valori medi allo scopo di condensare l’insieme dei dati provenienti dalle osservazioni in un unico valore che possa rappresentarli tutti. Tale valore è spesso indicato come <<centro>> della distribuzione. Occorre ora tenere presente un concetto essenziale della statistica, e cioè che un valore medio, comunque calcolato, non è sufficiente a rappresentare l’insieme delle osservazioni effettuate (o l’insieme dei valori assunti dalla variabile statistica); è necessario quindi affiancare ad esso altri indici che siano in grado di fornire delle informazioni sulla dispersione, in pratica sulla distanza delle varie osservazioni dal valore medio che rappresenta il centro della distribuzione. Tanto minore è la distanza (o dispersione) delle osservazioni dal centro, tanto maggiore sarà la rappresentatività e l’affidabilità del valore medio. Gli indici di variabilità assumono valore zero solo se è nulla la variabilità, e tutti i valori xi sono quindi uguali fra loro; all’aumentare della variabilità tali indici assumeranno valori sempre maggiori. Riassumendo, possiamo affermare che un carattere saliente dei dati statistici è la variabilità. Per analizzare una distribuzione, dopo aver calcolato uno o più valori medi si cerca di evidenziare la dispersione dei dati, dispersione che caratterizza la variabilità del fenomeno. Può interessare conoscere sia di quanto i dati differiscono da un valore medio, sia di quanto i dati differiscono fra loro. Vi sono vari indici che misurano la variabilità di un fenomeno. CAMPO DI VARIAZIONE È il più semplice da calcolare ed è dato dalla differenza fra il maggiore e il minore dei valori rilevati. Talvolta il campo di variazione si esprime indicando, invece della differenza fra il maggiore e il minore dei valori rilevati, gli estremi dell’intervallo. Il campo di variazione è un indice molto semplice da calcolare, ma di scarsa importanza perché tiene conto solo dei valori estremi e non degli altri. SCARTO QUADRATICO MEDIO E VARIANZA Consideriamo gli scarti dei valori dalla media aritmetica, ossia le differenze xi-M. Per valutare la maggiore o minore dispersione dei valori dalla media aritmetica, si cerca un valore medio degli scarti. Abbiamo già visto che la media aritmetica degli scarti è zero e pertanto non è significativa. Uno degli indici più utilizzato è lo scarto quadratico medio. Si definisce scarto quadratico medio la media quadratica, semplice o ponderata, degli scarti dei valori dalla media aritmetica. Nel caso di serie si ha: Lo scarto quadratico medio è tanto più piccolo quanto più i dati sono prossimi al valore medio ed è uguale a zero se e solo se i dati sono tutti eguali fra loro. Il quadrato dello scarto quadratico medio σ ² è detto varianza. Per il calcolo della varianza σ ², o dello scarto quadratico medio σ , si può utilizzare una formula che si ottiene con semplici passaggi. La ricaviamo per le serie, notando che una relazione analoga vale per le seriazioni. La varianza è eguale alla differenza fra la media aritmetica semplice o ponderata dei quadrati dei valori e il quadrato della media. Se i dati sono raggruppati in classi, come per il calcolo della media, si prende come xi il valore centrale di ogni classe anche se questo comporta un errore di approssimazione dovuto proprio al raggruppamento. Lo scarto quadratico medio è un indice della dispersione dei dati molto sensibile per misurare l’esistenza dei dati che si scostano molto dal valore medio. Lo scarto quadratico medio (o la varianza) sono utilizzati per determinare un modello teorico del fenomeno. SCOSTAMENTO SEMPLICE MEDIO Un altro indice di variabilità è lo scostamento semplice medio, che è la media aritmetica dei valori assoluti degli scarti xi da un valore medio. Si utilizzano due scostamenti semplici medi: lo scostamento semplice medio dalla media aritmetica: (Sm = spintarella molto forte☺)(scherzo) lo scostamento semplice medio dalla mediana: Le precedenti relazioni sono date per una seriazione; nel caso di serie è sufficiente porre yi = 1. Per la proprietà caratteristica della mediana, lo scostamento semplice medio dalla mediana è minore di qualsiasi scostamento semplice medio delle xi da qualunque valore. Nelle applicazioni si preferisce usare σ , invece di SM, poiché σ evidenzia meglio gli scarti maggiori in valore assoluto. INDICI DI VARIABILITÀ RELATIVA Tutti gli indici di variabilità sono definiti indici di variabilità assoluta e sono espressi nella stessa unità di misura del fenomeno considerato; nel caso occorra confrontare più distribuzioni che siano espresse con diverse unità di misura, si ricorre agli indici di variabilità relativa. Tali indici si calcolano facendo il rapporto fra gli indici di variabilità assoluta e l’intensità media del fenomeno. Il più usato è il coefficiente di variabilità del Pearson dato dall’espressione: Gli altri indici hanno espressione: Gli indici di variabilità relativa hanno quindi la caratteristica di essere dei numeri puri, indipendenti cioè dall’unità di misura prescelta, e permettono di confrontare più distribuzioni. CONCENTRAZIONE Un particolare aspetto della variabilità di un fenomeno è la concentrazione. Lo studio della concentrazione è utile per vedere se il fenomeno è equamente distribuito fra tutte le unità statistiche oppure è concentrato in poche unità. Ad esempio, si può affermare che la distribuzione delle scuole elementari è poco concentrata sul territorio italiano perché quasi tutti i Comuni ne possiedono almeno una, mentre la distribuzione delle Università è molto concentrata perché pochi Comuni sono sedi di Università. Sono state introdotte varie misure della concentrazione. Interessante è il metodo grafico di Lorenz applicato allo studio della distribuzione della ricchezza; esso è assai utile se i dati sono numerosi e raggruppati in classi. Data una variabile statistica: X1 Y1 X2 Y2 … … Xn Yn Dove xi sono i valori nel discreto o i centri delle classi nel caso di raggruppamenti in classi e le yi sono le frequenze, si considerino i prodotti xi yi (essi rappresentano l’intensità del carattere della classe i-esima) e la loro somma: (rappresenta l’intensità globale del fenomeno). Si calcolano le frequenze cumulate e le intensità cumulate, quindi le frequenze relative cumulate e le intensità relative cumulate, che si ottengono, le prime dividendo le frequenze cumulate per la somma delle frequenze e le seconde dividendo le intensità cumulate per l'intensità globale. Se le intensità relative cumulate sono eguali alle frequenze relative cumulate, significa che il fenomeno è equidistribuito poiché a una certa frazione delle unità statistiche corrisponde una frazione uguale dell’intensità del fenomeno; se, invece, sono minori, il fenomeno è tanto più concentrato quanto più le intensità relative cumulate differiscono dalle frequenze relative cumulate. La concentrazione è massima quando la curva di concentrazione coincide con i cateti del triangolo OAB, in pratica quando l’intensità globale è concentrata in una sola unità statistica. Se l’intensità è equamente distribuita, la curva di concentrazione coincide con la retta di equidistribuzione OB. Quanto maggiori sono le differenze pi – qi, altrettanto maggiore è la concentrazione. Un rapporto di concentrazione si ottiene dividendo la misura dell’area di concentrazione per la misura dell’area del triangolo OAB; Risulta: Se l’area di concentrazione è zero, ossia se la curva di concentrazione coincide con la retta di equidistribuzione, allora R = 0 e si afferma che non esiste concentrazione. Se l’area di concentrazione coincide con quella del triangolo OAB, allora R = 1 e la concentrazione è massima. In tutti gli altri casi si ha 0<R<1. Quindi si ha: Considerando che: L’area del triangolo OAB equivale a ½, L’area di ogni trapezio si ottiene con la formula: e nel nostro caso: Il primo trapezio in realtà è un triangolo rettangolo, la formula per il calcolo di R diventa: La formula di R si può semplificare dividendo il numeratore e il denominatore per ½: Effettuando il prodotto otteniamo: Poiché: e pnqn è uguale a 1, la precedente uguaglianza diventa: In definitiva il rapporto di concentrazione risulta: Questi grafici non sono molto significativi (tra l’altro non li ho nemmeno presi tutti, altrimenti invece di una tesina veniva una “grafi china”) ma mi ha attirato l’ultimo per la sua originalità Ricerche correlate: o o o o o o o o grafici a torta o diagramma a colonne o o quello che mi sembrava carino Il primo è il sito dei grafici che, non è significativo ai fini della tesina https://www.google.it/search?hl=it&biw=1280&bih=585&tbm=isch&q=st atistica+descrittiva&revid=2011363059&sa=X&ei=qf_qT_yRLKX54QS7 ssyEAw&ved=0CEQQgxY4Cg http://www.regione.veneto.it/Temi+Istituzionali/Statistica/ http://www.sis-statistica.it/