Resoconto della lezione del 1/12/2005
“Concetti, definizioni e finalità dell’analisi statistica. Le fasi dell’indagine”
Prof. Malizia.
A cura di Giordano Simoncini
Le scienze sperimentali, ovverosia tutte quelle scienze che progrediscono mediante l’ applicazione
del metodo sperimentale, poggiano nella loro quasi totalità sul metodo induttivo – cioè
sull’estrapolazione di leggi universali dal ripetuto controllo di casi particolari. Il metodo statistico è stato
definito il metodo induttivo per eccellenza; esso è adoperato dalle scienze sperimentali tanto ai fini della
formulazione di leggi universali quanto ai fini del controllo di queste ultime.
L’ origine della statistica come strumento di supporto alle scienze sperimentali va fatto risalire al
XVII sec., quando vennero a svilupparsi due specifici indirizzi scientifici, vale a dire la Scuola degli
Aritmetici Politici (in Inghilterra) e la scuola della Statistica universitaria (in Germania). Nella prima
scuola, che si curava di applicare la statistica ai fenomeni demografici, va individuata l’origine di quella
che sarebbe poi divenuta la statistica inferenziale; alla seconda, che adoperava il metodo statistico per
descrivere i fatti di interesse politico, va attribuita l’ideazione della statistica descrittiva.
Nell’ una o nell’altra branca della scienza statistica, l’uso della matematica è costante: ciò accade
poiché i fenomeni che la statistica investiga sono variabili, così come sono variabili i risultati cui tali
fenomeni danno luogo. Più specificamente, i fenomeni che la statistica prende in esame sono fenomeni
collettivi e non individuali, ovvero fatti riferiti a insiemi di unità. Tali insiemi di unità sono collettivi
statistici; ciascun elemento di tale insieme è una unità statistica di studio.
È possibile descrivere un insieme di unità statistiche secondo uno o più caratteri scelti in funzione
della ricerca che l’indagine statistica vuole portare avanti: se l’ insieme N di unità statistiche è costituito
da individui di specie umana, ad esempio, lo si può descrivere secondo i caratteri del sesso, della statura,
della professione, della natalità / mortalità, del peso e via dicendo. Questi caratteri, assieme agli infiniti
altri possibili, sono i cd. caratteri statistici. Ne deriva che ogni unità statistica è “portatrice” di uno o
più caratteri statistici in una certa modalità, la quale, a propria volta, può essere quantitativa (ad es.,
l’altezza espressa in cm) o qualitativa (ad es., il colore dei capelli).
 La modalità di un carattere statistico è detta caso statistico;
1
 un insieme di casi statistici omogenei, vale a dire accomunabili all’ interno di una stessa
classe, rappresenta il dato statistico;
La formazione del dato statistico è di essenziale importanza ai fini della verifica
sperimentale di una ipotesi e passa attraverso questi momenti successivi:
 la formazione dei casi statistici;
 la rilevazione;
 lo spoglio;
 la formazione delle tabelle.
Unità statistiche di rilevazione, diverse da quelle di studio, sono particolari specificazioni degli
enti utilizzate per enumerare le unità statistiche di studio: in questo senso, in una indagine sulla
condizione occupazionale dei cittadini di un paese, gli individui saranno le unità statistiche di studio, le
famiglie selezionate per lo studio statistico saranno le unità di rilevazione. In merito ai tipi di
rilevazione, poi, è possibile distinguere tra rilevazioni totali o parziali.
◦ Le rilevazioni totali sono quelle in cui vengono misurati (o enumerati) tutti gli elementi delle unità
statistiche che compongono l’ universo oggetto di rilevazione;
◦ le rilevazioni parziali sono invece quelle in cui viene rilevata solo una parte degli elementi che
compongono l’ universo. È questo il caso delle indagini per campioni; questi ultimi, ovviamente,
devono essere costruiti in maniera adeguata, vale a dire casuale, perché si possa poi utilizzare, ad
esempio, il calcolo delle probabilità.
La corretta programmazione di un campione è la prima e la più importante operazione
preliminare di una rilevazione statistica. In relazione alla tecnica adottata, poi, i campionamenti possono
essere distinti in semplici e stratificati – lì dove stratificare significa suddividere l’ universo in
2
sottoinsiemi all’ interno dei quali la variabilità è molto più bassa della variabilità generale che si
riscontrerebbe nell’ intero universo. Inoltre, posto che la teoria dei campioni ha dei canoni ben precisi,
è opportuno specificare che non tutte le rilevazioni parziali sono necessariamente campionarie: se ad
una indagine statistica che prevede una rilevazione totale non rispondessero tutte le unità, come invece
era auspicato dalla strutturazione dello studio, la rilevazione rimarrebbe comunque parziale pur non
essendo – ovviamente – campionaria.
Una volta programmati i campioni, si può procedere con le ulteriori operazioni preliminari alla
rilevazione, concernenti tanto l’ ampiezza quanto le modalità tecniche della rilevazione stessa: la
costruzione di una tabellazione dei risultati che si vogliono ottenere e l’approntamento del modello di
rilevazione (ad es. un questionario, che può contenere domande aperte o chiuse – e se aperte, di
opinione o valutazione, e se chiuse, mono o multiresponse ecc.). Una volta effettuata la rilevazione, si
procede allo spoglio, che passa attraverso le fasi del controllo e della revisione (volte a scovare
eventuali errori nelle risposte, che inficerebbero la validità dello studio).
Ultimi passi nel procedimento di formazione di un dato statistico sono la tabellazione e la
pubblicazione dei dati (seguita da una eventuale interpretazione degli stessi).
La distribuzione delle informazioni rilevate all’interno di una tabella varia a seconda che i casi
statistici siano rappresentati da modalità quantitative o qualitative di determinati caratteri. Nel primo
caso si avrà una seriazione, nel secondo una serie.
Vi possono essere seriazioni di caratteri statistici continui o discreti. Per organizzare le seriazioni
di caratteri continui, è necessario raggruppare i valori in classi. Il raggruppamento in classi esige una
particolare attenzione nel momento in cui si decide dove “chiudere” la classe, includendo o escludendo
in tal modo il valore massimo o il minimo dal modulo (cioè dall’ ampiezza della classe stessa). Inoltre,
va tenuto ben presente che tanto più ampie si costruiscono le classi, tanta più informazione si perde; è
dunque quanto mai opportuno trovare un compromesso tra l’esigenza sintetica e quella di ridurre la
perdita di informazione. In questo senso, la regola generale è che l’ampiezza di una classe debba essere
tanto più piccola quanto più piccole sono le frequenze.
Le serie, dal canto loro, possono essere suddivise in territoriali (quando il carattere a cui si
riferiscono le frequenze è rappresentato dal territorio) o storiche (quando il carattere a cui si
riferiscono le frequenze è rappresentato dal tempo), ed ancora cicliche (quando non vi è un criterio per
individuare il primo termine di una serie, ma è comunque stabilito l’ ordine di successione dei valori),
sconnesse (quando l’ ordine in cui si succedono le modalità è assolutamente arbitrario) o rettilinee
(quando l’ ordine in cui si presentano le modalità è intrinsecamente individuato dalla natura del
carattere).
3
Strumenti statistici propedeutici alla valutazione (Dott. Malizia)
lezione del 6 Dicembre 2005
A cura di Rossana Tiani
Rappresentazioni grafiche
La trasformazione delle informazioni da forma tabellare a immagine grafica ha senso se tale operazione
riesce a rendere più evidenti le caratteristiche della variabile sul collettivo preso in esame; tali
rappresentazioni, dunque, hanno una importante valenza descrittiva. Il giudizio su una rappresentazione
grafica può essere basato essenzialmente su cinque aspetti: l’accuratezza, che si riferisce alla precisione
dei dettagli con cui viene rappresentata una distribuzione; una omissione dei dettagli potrebbe indurre
ad interpretazioni distorte. La semplicità si riferisce all’uso essenziale di elementi grafici senza
l’aggiunta di particolari simboli superflui all’interpretazione; bisogna massimizzare l’informazione da
comunicare nei limiti della semplicità e della concisione. La chiarezza di una rappresentazione grafica è
data dalla capacità di comunicare senza ambiguità ed in modo immediato le caratteristiche salienti del
fenomeno. A tale scopo contribuisce anche l’aspetto estetico che dovrà essere quanto più possibile
armonioso. La struttura, infine, deve essere ben definita, cioè tutti gli elementi grafici devono essere fra
loro interdipendenti e devono esser posti in maniera gerarchica in modo tale che, quanto più è
significativo un elemento tanto più questo deve risultare in rilievo rispetto agli altri. Per evidenziare la
gerarchia degli elementi grafici si possono utilizzare dimensioni, colori o forme diverse. Vi sono,
ovviamente, numerosi tipi di grafici quali quelli per rappresentare le distribuzioni semplici (grafico a
barre, a nastri, a torta, a stella) secondo un carattere di qualsiasi tipo ma che, a causa della loro
generalità, non forniscono tutte le possibili informazioni se la distribuzione riguarda un carattere
quantitativo. Queste ultime distribuzioni, per esempio, si possono rappresentare più adeguatamente
attraverso gli istogrammi.
L’istogramma è un grafico costituito da barre che possiedono un’area proporzionale alla corrispondente
frequenza o quantità (rappresentata sull’asse delle ordinate di un piano cartesiano). Per un carattere
quantitativo, discreto o continuo, la distribuzione di frequenza può essere costruita suddividendo il
carattere in classi di stessa o diversa ampiezza. Nel grafico 1 delle dispense, il carattere quantitativo
continuo1 della statura viene rappresentato attraverso una distribuzione con classi di uguale
ampiezza. In tal caso siamo in presenza di un istogramma a canne d’organo, in cui possiamo
rappresentare le varie modalità del carattere come segmenti di uguale dimensione disposti su una retta
Si parla di carattere continuo quando l’insieme delle modalità assumibili dal carattere può essere messo in corrispondenza
biunivoca con un sottoinsieme dei numeri reali.
1
4
(asse delle ascisse) e ogni frequenza come un rettangolo, distanziato dagli altri, avente per base il
segmento rappresentante la modalità e come altezza un segmento proporzionale alla frequenza o
intensità, cioè proporzionale alle stature degli individui. In tale grafico si rileva che la popolazione si
concentra nelle classi di statura centrali; le frequenze sono basse per i valori iniziali della variabile ma
crescono gradualmente fino a raggiungere il massimo valore intorno alle modalità centrali per poi
scendere verso i minimi. Da ciò è possibile desumere che la distribuzione possa essere rappresentabile
attraverso la curva di Gauss e se consideriamo anche i valori assunti da un altro carattere continuo, il
peso di ogni individuo, si potrebbe ipotizzare che questo dipende dalla statura. Di qui, attraverso un
diagramma in coordinate cartesiane, si può rappresentare una relazione, approssimativamente
lineare, tra i valori del peso e quelli della statura (graf. 2). Se poi il carattere quantitativo oggetto di
studio è discontinuo2 (come ad esempio, il numero delle stanze, il numero dei figli…), si può costruire
un istogramma a colonne in cui ai valori della variabile indipendente vengono fatti corrispondere
rettangoli di altezza proporzionale alle frequenze ma, in questo caso, con i rettangoli non distanziati tra
di loro (graf. 3). Non è possibile, inoltre, unire i vertici delle ordinate poiché altrimenti si ammetterebbe
l’esistenza di valori intermedi fra quelli oggetto di analisi (ciò, come già detto, si può fare solo se il
carattere è continuo). In quest’ultimo caso è possibile sostituire i rettangoli con un poligono di
frequenza in cui ridurre l’ampiezza delle classi, per esempio, da 3 cm (graf. 4) ad 1 cm (graf. 5). Esso
viene chiuso considerando una classe precedente la prima di eguale ampiezza e frequenza nulla ed una
classe successiva all’ultima di eguale ampiezza e frequenza nulla. Si traccia una poligonale che unisce i
punti centrali delle basi superiori dei rettangoli dell’istogramma. Tale grafico ha il vantaggio di
consentire la rappresentazione in uno stesso grafico di più distribuzioni e quindi il loro confronto. C’è
di più. Se l’ampiezza delle classi tende a zero il poligono di frequenza tende alla curva di frequenza così
come rappresentato nel graf. 6 mediante un diagramma a punti (scatter o diagramma a
dispersione), particolarmente conveniente per confrontare più fenomeni (per esempio, due variabili
come il consumo e il PIL).
Per scopi descrittivi può risultare utile impiegare figure geometriche per rappresentare le serie di
frequenza e mettere in evidenza l’importanza delle singole modalità rispetto al totale. Ne sono esempi: i
grafici ad aree (graf. 7) che sono grafici a barre suddivise in cui valori centrali delle basi sono uniti da
una spezzata così da determinare delle aree corrispondenti ognuna a una modalità del carattere. Vi
sono, infine, i grafici a torta (grafici 8a e 8b) che sono particolarmente utili quando si vuole
rappresentare la composizione di un aggregato (sia in termini di valori assoluti che relativi o
percentuali).
Si parla di carattere discontinuo quando l’insieme delle modalità assumibili dal carattere può essere messo in corrispondenza
biunivoca con un sottoinsieme dei numeri interi.
2
5
Rapporti statistici
Mediante i rapporti statistici si possono ricavare delle informazioni fruibili che ci consentono di
analizzare più profondamente una determinata questione e di misurare un fenomeno in circostanze
storiche e spaziali diverse. Nel rapporto tra due quantità A e B se almeno una di esse è un dato
statistico, il rapporto viene definito statistico. Ad esempio mentre non è un rapporto statistico quello
fra la circonferenza e il diametro del cerchio (π), poiché è un rapporto matematico, è un rapporto
statistico, per esempio, quello tra consumi e reddito nazionali, dal momento che non si tratta di una
relazione matematica e riguarda un interesse collettivo. Il rapporto statistico, inoltre, non dipende né
dall’unità di misura e né dall’ordine di grandezza.
Abbiamo diversi tipi di rapporti statistici, ognuno con le proprie caratteristiche e con i propri criteri per
il raggiungimento dei differenti fini. Essi sono:
Rapporti di derivazione: si calcolano rapportando un fenomeno con un altro che ne è il presupposto
logico, ossia si considera il denominatore di tale rapporto quale presupposto del numeratore. Si delinea,
in tal modo, una relazione di causa-effetto tra le due quantità. Un esempio è costituito dal tasso di
natalità che si calcola rapportando il numero dei nati vivi alla popolazione.
Rapporti di coesistenza: in essi si rapportano un fenomeno con un altro senza che si possa stabilire
fra loro una logica relazione di causa-effetto. Ad esempio, il rapporto tra la popolazione residente in
dato territorio e la superficie dello stesso territorio (rapporto di densità).
Rapporti di composizione: si calcolano rapportando un fenomeno con un altro di cui il primo ne
rappresenta un parte; di solito assumono i valori compresi tra 0 ed 1 (o tra 0 e 100 se parliamo in
termini percentuali). È il caso della forza lavoro (che si calcola sommando il numero dei disoccupati a
quello dei lavoratori). Il tasso di disoccupazione, infatti, si calcola rapportando una parte (ossia il
numero dei disoccupati) al tutto (la forza lavoro). Dal momento che si tratta di un rapporto in cui ambo
le grandezze sono dati statistici, se esso viene calcolato sulle frequenze, tale rapporto può anche essere
letto in termini di probabilità.
Rapporti antropometrici: sono rapporti tra due misure di carattere fisico, corporeo misurate su una
collettività (ad esempio, il rapporto tra la media delle stature e quella dei pesi di un gruppo di individui).
Rapporti indice (o numeri indice). L’osservazione sistematica nel tempo di un fenomeno permette di
costruire una serie storica. In genere quando si è interessati a misurare l’entità dei mutamenti in una
serie storica, si possono effettuare dei rapporti (numeri) indice tra due o più valori della serie. I valori
così ottenuti sono detti numeri indice. Essi si riferiscono in genere alla variazione dei prezzi o di
quantità, e più precisamente, quando la serie storica si riferisce a una variabile economica il suo
andamento è certamente influenzato da quello dei prezzi. Gli indici dei prezzi, infatti, si riferiscono ad
una pluralità di merci e la sintesi degli indici elementari viene effettuata mediante una media ponderata
6
in base ai valori delle merci acquistate. In tale contesto una serie di numeri indice a base fissa esprime
il prezzo del bene o servizio in ogni periodo di tempo come una quota del prezzo del bene o servizio in
un periodo di riferimento detto base. Essi assumono la forma : a1 / ao, a2 / ao, …an / ao. Grazie a
tali rapporti otterremo un’informazione sulla variazione del fenomeno nel corso del tempo. In una serie
di numeri indici a base mobile, invece, si rapporta ciascun dato statistico al precedente, ottenendo
delle variazioni congiunturali, cioè valutate rispetto al periodo precedente. A seconda del periodo cui si
riferiscono i valori assunti come pesi3, si ottengono le formule di Laspeyres e di Paasche, dove Po, Px,
Qo, Qx indicano i prezzi e le quantità dei singoli beni e servizi scambiati al tempo base 0 ed al tempo
corrente x.
Laspeyres ha proposto di prendere come pesi, come quantità di riferimento quelle relative al periodo di
base, cioè Qo. Il numero indice dei prezzi di Laspeyres è definito come il rapporto tra una spesa
teorica (ossia la spesa che si avrebbe nell’anno x qualora le quantità acquistate fossero quelle dell’anno
0) ed una spesa effettiva (quella dell’anno base 0).
∑ Px/Po*PoQo
________________
∑ Px*Qo (Spesa teorica che si avrebbe nell’anno corrente x
=
∑ Po*Qo
____________se le quantità acquistate fossero quelle dell’anno 0)
∑ Po*Qo (Spesa effettiva sostenuta nell’anno base 0)
Paasche ha, invece, proposto di considerare come pesi le quantità relative a ogni dato periodo. In tale
indice il sistema dei pesi non rimane costante e di conseguenza l’unico confronto lecito è quello tra i
vari periodi ed il periodo di base. Mediante tale indice oltre ai prezzi cambiano anche le quantità,
cosicché la variazione osservata sarà dovuta alla variazione congiunta dei prezzi e delle quantità.
∑ Px/Po*PoQx
∑ PxQx (Spesa effettiva sostenuta nell’anno corrente x)
________________ =
________________
∑ PoQx
∑ PoQx
(Spesa teorica che si avrebbe nell’anno base se le
quantità acquistate fossero quelle dell’anno corrente x)
I risultati a cui si perviene utilizzando questi due indici sono differenti; e ciò per alcuni motivi.
Si attribuisce un “peso” ad ogni indice per giungere a costruire un indice sintetico. Ciò consiste nel fare la media ponderata di tutti
gli indici calcolati.
3
7

Differente è il significato che i due indici considerano delle spese teoriche: il primo, quella
dell’anno corrente ma con le quantità dell’anno base, il secondo, quella dell’anno base ma con le
quantità dell’anno corrente.

L’indice di Laspeyres mette in evidenza che ciò che varia sono solo i prezzi che abbiamo
ponderato, non anche le quantità; tende, dunque, a sopravvalutare le variazioni dei prezzi, ossia
l’inflazione. Ciò perché attraverso il primo indice i prezzi relativi ai prodotti che sono aumentati
sono pesati con una spesa in cui le quantità non sono diminuite ma sono le medesime dell’anno
base, dunque, maggiore è l’impatto sull’indice sintetico complessivo dei prezzi. I prezzi dei
prodotti che sono aumentati di meno sono sottopesati poiché le quantità effettivamente
consumate dovrebbero essere aumentate, mentre nell’indice mantengono il peso dell’anno base.
Il contrario avviene nell’indice di Paasche. Infatti, il primo indice tende a essere superiore al
secondo indice se i prezzi aumentano, mentre tende a essere inferiore se i prezzi diminuiscono.
In conclusione si può dire che in periodi di alta inflazione o di rapida diminuzione dei prezzi è bene
effettuare un ribasamento degli indici ravvicinato, ossia l’anno base non deve essere molto lontano nel
tempo.
Un numero indice complesso che consente di considerare contemporaneamente l’informazione fornita
dai due indici dei prezzi è quello che si ottiene dalla formula proposta da Fisher che prevede l’uso della
media geometrica dei due indici dei prezzi.
Indice di Fisher = √ Indice Laspeyres * Indice Paasche
Il valore di tale indice, essendo una media, è sempre intermedio ai valori dei due indici precedentemente
analizzati.
8
Strumenti statistici propedeutici alla valutazione
Prof. Raffaele Malizia
15-12-2005
a cura di Teti Maria Licursi
La media è uno strumento che consente di sintetizzare quantitativamente un fenomeno
collettivo. In base alla definizione di Gini è “il risultato di un’operazione che assume un valore
non superiore né inferiore agli altri” cioè è un valore compreso tra i due estremi.
Le medie si dividono in medie non analitiche o medie di posizione e medie analitiche. Le
prime vengono elaborate sulla base di alcuni casi statistici ritenuti significativi a causa della loro
posizione nella distribuzione. Le medie analitiche, al contrario, vengono elaborate applicando un
operatore matematico alla totalità dei casi statistici della distribuzione.
Le medie non analitiche sono la moda e la mediana.
La moda è la modalità del carattere che si presenta più frequentemente. Si calcola per caratteri
discontinui, mentre in caso di continuità o se il carattere è raggruppato in classi si potrà ricavare la
classe modale, vale a dire quella classe con maggiore densità di frequenza.
La mediana invece è la modalità centrale nelle serie di osservazioni. Essa perciò divide la
distribuzione di frequenze in due parti uguali. Se il numero di osservazioni è dispari si avrà una
sola mediana [(n + 1)/2)]; se il numero è pari si otterranno due mediane(n/2 e n/2 + 1). Per
trovare la mediana vanno ordinati i caratteri e poi calcolate le frequenze cumulate.
Esistono anche altre medie simili alla mediana: quartili, decili, centili che, in generale, vengono
definiti quantili. Il quartile divide la distribuzione in quattro parti uguali: a sinistra del primo
quartile si trova ¼ delle frequenze, a destra i restanti ¾.
Le medie analitiche invece, che prescindono dalla posizione del carattere, si dividono in media
aritmetica, la media quadratica, la media cubica e la media geometrica, che variano tra loro
in base al valore assunto da K, cioè dell’indice della radice. K è sempre un numero reale diverso
da 0.
9
Misure di Variabilità e Concentrazione
Prof. Malizia, lezione del 12/01/06
a cura di Filippo Salone
La Variabilità
Definizione
→ La variabilità misura la dispersione di un fenomeno statistico all’interno di una
distribuzione.
Misure di variabilità
a) Indici di variabilità che operano in base alle differenze fra le singole modalità della
distribuzione e tutte le altre modalità (vengono utilizzati soprattutto con riferimento a quei
caratteri che presentano modalità molto diverse tra loro e poco ripetute).
→ Campo di variazione (K = xn – x1)
è la differenza tra l’osservazione più grande della distribuzione e quella più piccola. In
presenza di classi questo tipo di indice a rigore non è utilizzabile. Inoltre il campo di
variazione è un indice tendenzialmente non molto affidabile perché risente della presenza
di valori anomali, o particolarmente alti o particolarmente bassi.
→ Differenza interquartile (Q3 – Q1)
è la differenza calcolata fra il terzo ed il primo quartine. Se si dimezza il risultato si avrà la
distanza semi-interquartilica.
NB: ambedue gli indici sono piuttosto grossolani, in quanto insensibili al modo in cui si
dispongono gli altri elementi della distribuzione. Ancora i due indici sono comunque
incapaci di cogliere gli effetti della forma della distribuzione, cioè ignorano gran parte
dell’informazione che contribuisce a determinare tale forma.
10
→ Differenza semplice media senza ripetizione (Δ)
è la sommatoria delle differenze tra le singole osservazioni escludendo la differenze nulle
fra ogni osservazione e se stessa.
n (n-1)
∑ | di |
i=1
in formula diventa:
Δ=
n (n-1)
→ Differenza semplice media con ripetizione (ΔR)
è la sommatoria delle differenze tra le singole osservazioni che include le differenze nulle
fra ogni termine e se stesso.
n²
∑ | di |
i=1
in formula diventa: ΔR =
n²
b) indici di variabilità che operano in base alle differenze (scarti o scostamenti) tra le
singole osservazioni ed una loro determinata media.
→ Scostamento semplice medio dalla media aritmetica (SM1)
è la media aritmetica dei valori assoluti degli scarti tra ogni singola osservazione e la loro
media aritmetica
n
∑ | xi-M1 | yì
i=1
in caso di seriazione:
S M1 =
∑ yi
i=1
n
∑ | xi-M1 |
i=1
in caso di serie:
SM1 =
11
n
Alcune caratteristiche di questo tipo di indice:
-
in caso di assenza di variabilità l’indice assume valore zero , e ciò accade quando tutte
le osservazioni sono uguali tra loro e quindi uguali alla media aritmetica (caso di
un'unica modalità che viene osservata più volte.)
-
in caso do presenza di variabilità l’indice assume sempre valore positivo (al
numeratore operano i valori assoluti delle differenze) ed è crescente al crescere della
variabilità. Se quindi compariamo due distribuzioni di uno stesso fenomeno ma
relative a due diverse circostanze di tempo o di luogo il confronto tra gli indici può
consentire di giudicare, in termini maggiore/minore, la loro diversa variabilità (caso
di due distribuzioni di reddito relative allo stesso campione ma misurato in due
epoche differenti).
→ Scostamento semplice medio dalla mediana (SMe)
è la media aritmetica dei valori assoluti degli scarti tra ogni singola osservazione e la loro
mediana
n
∑ | xi-Me | yì
i=1
in caso di seriazione:
S Me =
∑ yi
i=1
n
∑ | xi-Me |
i=1
in caso di serie:
S Me =
n
→ Scostamento quadratico medio dalla media o “deviazione standard” (S)
è la media quadratica degli scarti tra ogni singola osservazione e la loro media aritmetica
12
∑i (xi –M1)² * yi
2
S=
in caso di seriazione:
∑i yi
∑i (xi –M1)²
2
in caso di serie:
S=
n
→ Varianza (S²)
è il quadrato della deviazione standard
∑i (xi –M1)² * yi
in caso di seriazione:
S² =
∑i yi
∑i (xi –M1)²
in caso di serie:
S² =
n
Confronto fra variabilità
Una volta misurata la variabilità di un fenomeno, come procediamo per spiegare la
misura ottenuta rispetto alla presenza di poca o tanta variabilità? (difficoltà a comparare
valori che variano da 0 ad infinito e difficoltà a confrontare diverse unità di misura)
La risposta a questa domanda è relativizzare l’indice di variabilità, ovvero rapportare
tale indice ad una media della distribuzione. Mediante questo procedimento si ottengono
gli indici di variabilità relativa che variano in un range compreso tra 0 ed 1 e rendono
possibili il confronto fra variabilità di fenomeni di diversa dimensione in quanto espressi
in unità di media.
13
→ coefficiente di variazione (S/M1)
è l’indice di variabilità relativa più frequentemente utilizzato ed è dato dal rapporto fra
lo scostamento quadratico medio e la media aritmetica
Perché studiare la variabilità
Nel campo dei fenomeni sociali ed economici lo studio della variabilità risulta
particolarmente importante. La variabilità assume infatti i contorni di una caratteristica
ad essi inscindibilmente legata, un vero proprio elemento costitutivo.
Pensiamo ad esempio ad una variabile quale il reddito percepito da un gruppo di
individui. Se calcoliamo il reddito medio pro-capite la prima cosa importante è analizzare
se tale reddito differisca fra i percettori in misura significativa oppure no. Nella prima
alternativa si rende necessario corredare l’informazione sul reddito medio di notizie circa
la sua diversa distribuzione fra gli individui, quindi circa la variabilità della stessa.
L’esempio considerato, più redditieri e livello di reddito distribuito in maniera
disomogenea tra loro, mette in evidenza il fatto che per avere informazioni di sintesi su
un fenomeno collettivo, se la media è uno strumento indispensabile non è possibile non
tener conto della variabilità altrimenti l’informazione fornita dalla media potrebbe essere
fuorviante, comunque insufficiente.
Indipendentemente però da questa funzione integrativa della media, lo studio della
variabilità assume grande importanza in sé per comprendere quale grado di
disuguaglianza economica caratterizza i redditieri considerati.
La variabilità è dunque una caratteristica intrinseca ai fenomeni naturali, economici e
sociali. Essa consiste nella differenziazione che connota le modalità dei caratteri rilevate
in una distribuzione statistica.
La Concentrazione
Definizione
→ La concentrazione è una particolare configurazione della variabilità che si verifica
quando il carattere (es. reddito) viene rilevato in quantità maggiore presso una
determinata parte della distribuzione. Perché si possa registrare concentrazione quindi le
14
modalità devono essere ordinate in modo crescente ed assumere valori maggiori nella
seconda parte della distribuzione rispetto alla prima.
Se assumiamo con “m” la parte della distribuzione su cui si vuole verificare la
concentrazione, se effettivamente c’è concentrazione deve valere:
n
∑
xi
m
i = n-m+1
>
—
n
n
∑ xi
i=1
Cioè il rapporto fra la somma delle osservazioni disposte nella parte “m” della
distribuzione e l’ammontare totale delle osservazioni è superiore al rapporto fra il
numero delle osservazioni della parte “m” e il numero totale delle osservazioni.
L’espressione di cui sopra può anche essere riscritta nel seguente modo:
n
n
∑
xi
∑
i = n-m+1
xi
i =1
>
m
n
Cioè, quando il fenomeno presenta concentrazione, la media aritmetica della parte “m”
di osservazioni è superiore alla media aritmetica di tutte le osservazioni rilevate.
Misure di concentrazione
→ Rapporto di concentrazione (R)
15
Si basa sulla differenza tra i redditi effettivi e i redditi teorici, laddove per redditi
teorici si intendono i redditi considerati come se ci fosse equidistribuzione (assenza di
concentrazione) e quindi tutti i redditieri con reddito medio (xì= M1).
Se poi si considerano la generiche distribuzioni cumulate Sì, si può notare che la
differenza con la generica media iM1 (cioè iM1– Si) risulta essere la misura di quanto le
diverse osservazioni della distribuzione differiscano tra di loro.
Tale differenza viene rappresentata graficamente dalla “curva di concentrazione”
disegnata in un sistema di assi cartesiani che presenta alle ascisse i valori di “i” (cioè il
numero delle osservazioni sommate tra loro in sequenza) e sull’asse delle ordinate i valori
di iM1 e Si.
nM1 Sn
retta di equidistribuzione
iM1
area di concentrazione
3M1
Sì
2M1
1M1
S3
S1
curva di concentrazione
S2
Valori di i
Dalla figura di cui sopra possiamo osservare:
a) retta di equidistribuzione:
è una linea retta formata dai punti di intersezione dei valori generici iM1 e rappresenta
il caso in cui il carattere presenta concentrazione nulla
b) curva di concentrazione o “curva di Lorenz”:
16
è la curva che collega i punti di ordinata Si e se non sovrapposta alla retta di
equidistribuzione denota la presenza di concentrazione.
c) area di concentrazione:
è l’area delimitata dalla retta di equidistribuzione e dalla curva di Loenz. Quanto più
piccola è detta area rispetto a quella sottesa alla retta di equidistribuzione, tanto minore
è la concentrazione (se l’area di concentrazione si riduce a zero, cioè la curva di Lorenz
si sovrappone alla retta di equidistribuzione, la concentrazione è nulla, cioè il carattere
è perfettamente equidistribuito).
Se rapportiamo un’approssimazione della misura della detta area di concentrazione,
data dalla sommatoria delle differenze iM1–Si, al massimo che essa può assumere (cioè
a
n-1
) otterremo la formula che esprime il rapporto di concentrazione R.
M1∑ i
I =1
n-1
∑ ( i M1−Si)
i =1
R=
n-1
M1 ∑ i
Ì =1
NB: L’indice di concentrazione R è sempre compreso fra 0 e 1 e assume valore minimo in
caso di assenza di concentrazione e valore massimo in caso di massima concentrazione.
17
Resoconto lezione del 19/01/2006
“Tecniche di campionamento e probabilità”
Prof. Malizia
A cura di Andrea Cardinale
Rilevazioni totalitarie o censuarie, rilevazioni parziali o campionarie
Si chiamano rilevazioni totalitarie o censuarie quelle rilevazioni che si effettuano sulla totalità delle unità
statistiche che interessa investigare ovvero sull’universo; si chiamano rilevazioni parziali o campionarie
quelle rilevazioni che si effettuano su una parte, campione, dell’universo.
Supponiamo di avere un’urna contenente palline di colore diverso e di voler sapere quante sono di un
colore e quante dell’altro. Abbiamo due strade da seguire:
A) esaminare l’intero contenuto dell’urna, osservare le palline una ad una e classificarle in base al colore
B) estrarre una parte delle palline, classificarle secondo il colore e calcolare la percentuale delle palline di
diverso colore sul totale.
Nel primo caso abbiamo fatto una rilevazione censuaria, nel secondo una rilevazione campionaria. Ma
mentre nel primo caso abbiamo la certezza circa le caratteristiche delle unità in interesse, nel secondo
possiamo solo inferire approssimativamente qual è la proporzione esistente nell’universo delle palline
di un colore rispetto a quelle di un altro colore. L’approssimazione è tanto più limitata e tanto più
interpretabile in termini probabilistici quanto più la scelta delle palline non è influenzata da fattori
sistematici ma è effettuata rigorosamente a caso.
In tale circostanza, infatti, anche se non potremo mai essere sicuri della vera proporzione delle palline
di un colore presenti nell’universo, avremo la possibilità di sapere con quale probabilità tale vera
proporzione cade entro certi limiti da noi determinati.
Rilevazioni campionarie: definizioni e tecniche di campionamento
Nelle rilevazioni parziali si fa riferimento al concetto di campione: la conoscenza di certe caratteristiche
del campione (media, variabilità ecc.) non è mai fine a se stessa, ma è strumentale alla conoscenza delle
stesse nell’universo.
Il processo che porta alla stima delle caratteristiche dell’universo a partire dalle corrispondenti
caratteristiche osservate nel campione è detto inferenza statistica ed è basato sul calcolo delle
probabilità.
18
Si distingue fra grandi e piccoli campioni in base alla loro numerosità.
Statistica è una quantità (media, rapporto, varianza ecc.) ricavata dal campione, parametro la
corrispondente quantità ignota dell’universo
Poiché i risultati campionari possono variare da campione a campione prelevato da un unico universo,
mentre i parametri sono delle quantità determinate (anche se ignote) le corrispondenti statistiche sono
variabili casuali
Per marcare la differenza fra tali variabili, le statistiche sono indicate con lettere latine (ad esempio la
media con m) i parametri con lettere greche (la media con μ).
L’inferenza statistica può avere ad oggetto:
a) la stima di un ignoto valore di un parametro (stima puntuale)
b) la stima di un intervallo entro cui cade, con data probabilità, il parametro ignoto
c) la verifica di un’ipotesi (ad esempio che μ sia uguale a μ0)
Comunque siano organizzati, è essenziale che i campioni siano casuali. La casualità può essere assicurata
con tecniche diverse.
Ad esempio se le unità dell’universo sono raccolte in elenchi (ad esempio le liste anagrafiche per una
rilevazione riferita a caratteri afferenti le persone fisiche) la scelta delle unità campionarie può avvenire
prendendo una unità ogni k unità dell’universo (ad esempio una ogni 1000). Il rapporto N/n = k è
detto frazione di campionamento.
L’esempio appena fatto è quello di campione semplice.
Una tecnica molto in uso per diminuire la numerosità del campione a parità di attendibilità dei risultati e
quella di disegnare dei campioni stratificati. Infatti la numerosità di un campione non dipende tanto
dalla ampiezza dell’universo, quanto dalla variabilità del carattere oggetto di indagine. Infatti, se per
ipotesi il carattere avesse variabilità nulla (ad esempio tutte le famiglie dell’universo percepissero lo
stesso reddito) se volessimo conoscere il reddito medio delle famiglie basterebbe rilevarne una sola.
Quanto più, invece, il carattere è variabile, tanto più è necessario aumentare il numero delle unità
campionarie per poter fare una buona inferenza. E’ quindi in molti casi utile raggruppare le unità
dell’universo in gruppi quanto più possibile omogenei fra loro (gli strati) rispetto ai caratteri considerati.
Ad esempio, nel caso delle famiglie per classi di reddito converrà suddividere quelle dell’universo per
aree di residenza e per gruppi socioeconomici.
Probabilità
I problemi delle rilevazioni campionarie si risolvono in termini di probabilità.
Definizioni di probabilità (segue)
19
1) Definizione empirica4o statistica di probabilità: la probabilità è (intesa come) la frequenza
relativa di un dato evento,
lim f/n = p
n
Es.: nel lancio di un dado, gli eventi possibili sono che compaia uno dei numeri 1, 2, 3, 4, 5 e 6. Se
ripetiamo n volte l’esperimento un dato evento, ad esempio l’uscita del numero 5, si presenterà con
una frequenza f. Il rapporto f/n rappresenta la frequenza relativa dell’evento “5” nell’esperimento
di lancio del dado.
In base all’esperienza si può con sicurezza affermare che se n è piccolo il rapporto f/n presenta
oscillazioni in serie successive di n prove; esso invece tende a stabilizzarsi al crescere di n intorno ad
un valore che è per l’appunto la sua probabilità di verificarsi.
2) Definizione classica di probabilità: la probabilità di verificarsi di un dato evento è uguale al
rapporto fra il numero dei casi favorevoli f’ al verificarsi di tale evento ed il numero totale n’ dei casi
possibili
P = f’/n’
ES.: se l’evento A è l’uscita del numero 5 quando si lancia il dado perfetto in condizioni di assenza
di qualunque causa perturbatrice esterna, la probabilità che esso si verifichi è data dal rapporto 1/6
(essendo 1 il caso favorevole e 6 quelli possibili).
Per applicare la definizione classica di probabilità è necessario determinare il numero di casi
possibili e quello dei casi favorevoli al verificarsi dell’evento. Mentre in esempi semplici (come il
lancio di un dado) tale determinazione è agevole, in casi più complessi è più complicata. Soccorre a
tale proposito il calcolo combinatorio.
Ad esempio qual è la probabilità che esca un terno al lotto in una data ruota? Essa è data dal
rapporto fra tutti i possibili terni che si possono formare con i 5 numeri estratti e quello dei terni
che si possono formare con i 90 numeri di possibile estrazione.
Le seguenti proposizioni desunte dal calcolo combinatorio ci aiutano a definire tali probabilità.
4
Perché presuppone l’esecuzione di un esperimento causale.
20
A) PERMUTAZIONI DI M ELEMENTI
Sono i gruppi che si possono formare scambiando gli elementi in tutti i modi possibili.
Pertanto ogni gruppo contiene tutti gli elementi in ordine diverso.
Si ha che
Pm = m! = m * (m-1) * (m-2) * …* 2 * 1
Dove m! si legge “m fattoriale”
Se esistono elementi uguali fra loro per cui si possono formare dei sottoinsiemi
(m1, m2,
…,
mn) di elementi uguali, il numero delle permutazioni si riduce nel
seguente modo:
____m!________
m!
mm1!1*!*m
m2!2*!*…*m
… *mnn!!
B) DISPOSIZIONI DI M ELEMENTI DISTINGUIBILI PRESI n AD n (CON n<m)
Sono tutti i possibili gruppi di n elementi formati in modo che ciascuno di essi differisca dall’altro
per gli elementi compresi o per l’ordine con cui gli elementi sono disposti nel gruppo. Si ha che:
Dm,n = m * (m-1) * (m-2) * ….* (m-n+1)
Cioè le disposizioni di m elementi presi n ad n sono pari al prodotto di n numeri interi
consecutivi decrescenti a partire da m.
Vale la seguente relazione:
Dm,n = m! / (m-n)!
C) COMBINAZIONI DI M ELEMENTI DISTINGUIBILI presi n AD n (CON n<m)
Sono tutti i possibili gruppi di n elementi formati in modo che ciascun gruppo differisca dall’altro
per gli elementi compresi senza riguardo all’ordine in cui sono disposti
Cm, n =
m* (m-1)*…..*(m-n+1)
n!
21
Cioè il numero delle combinazioni di m elementi presi n ad n è dato dal rapporto fra il numero di
disposizioni di m elementi presi n ad n e il numero di permutazioni di n elementi. Le
combinazioni Cm,n si indicano anche con l’espressione
Cm,n = (m)
n
che si legge “m su n”.
Inoltre, come si può ricavare dall’espressione di cui alla pagina precedente, si ha che
Cm,n =
m!
n! (m-n)!
Siamo ora in grado di stabilire qual è il numero dei terni che si possono formare con 5 numeri
estratti su una ruota. Esso è dato da
C5,3 = 5*4*3 / 3*2 = 10
Invece il numero dei possibili terni che si può formare con 90 numeri (possibili estratti) su una
data ruota è
C90,3 = 90*89*88 / 3*2 = 117.480
Pertanto la probabilità di vincere un terno al lotto è data dal rapporto fra 10 (numero dei casi
favorevoli) e 117.480 (numero dei casi possibili), ed è pari a circa 0,000085
22
RESOCONTO DELLA LEZIONE DI STATISTICA DEL 26 GENNAIO 2006
(PROF. MALIZIA)
A cura di Laura Miglio
“IL CAMPIONE E L’UNIVERSO”
Le rilevazioni censuarie divergono concettualmente dalle rilevazioni parziali (o campionarie);
quest’ultime, e lo dice la parola stessa, implicano un’indagine parziale, ovvero limitata al campione che
si considera, mentre le altre presuppongono un’analisi universale delle unità statistiche su cui si è
chiamati ad investigare.
In termini probabilistici, questa differenza ha, chiaramente, delle conseguenze.
Esempio: vogliamo sapere quante sono, in un’urna contenente palline di colore diverso, le palline di un
colore e quante sono le palline dell’altro. Due sono i possibili metodi di investigazione:
1) svuotare l’urna e contare tutte le palline dividendole per colore;
2) estrarre solo una parte delle palline, suddividere questa parte in base al colore e calcolare, in
percentuale, basandosi solo su quelle estratte, quante sono, nell’urna, le palline di un colore e quante
dell’altro.
Nel primo caso otteniamo una rilevazione censuaria (censimento); nel secondo una rilevazione
campionaria. La prima è più attendibile e certa, la seconda risulta, invece, vicina alla realtà solo
approssimativamente (perché l’approssimazione sia il più possibile limitata è necessario che la scelta
delle palline avvenga rigorosamente a caso); non conosciamo l’esatta proporzione che lega i due diversi
colori delle palline, ma possiamo sapere con quale probabilità, posti certi limiti, questa proporzione si
realizza.
Un’indagine statistica, ad esempio sulla distribuzione delle famiglie per classi di reddito, per la quale,
data la vastità delle unità presenti nell’universo considerato, non è possibile ricorrere a rilevazioni
censuarie, parte da certi assunti propri delle rilevazioni campionarie.
Si analizzano alcune caratteristiche proprie di un universo, partendo dalla considerazione di
corrispondenti caratteristiche rilevate, però, sulla base del campione esaminato, utilizzando il calcolo
delle probabilità col metodo dell’inferenza statistica.
Il concetto di probabilità, tuttavia, può essere definito sia ricorrendo alla definizione tradizionale5,
ovvero in modo empirico (o statistico); a quest’ultimo si fa riferimento quando il concetto di probabilità
è esteso ad eventi economici e sociali6.
5
La definizione di probabilità classica prevede che la probabilità che si presenti un determinato evento A è
uguale al rapporto fra il numero dei casi favorevoli al verificarsi di tale evento ed il numeto totale dei casi
possibili .
23
Per utilizzare la definizione classica di probabilità, è necessario determinare il numero di casi possibili
e quello dei casi favorevoli al verificarsi dell’evento. Se di fronte a casi semplici (come il lancio di un
dado) tale determinazione non è complicata, in casi più complessi lo può certamente diventare; a tal
fine si utilizza il calcolo combinatorio.
Due sono i teoremi sulle probabilità considerati: il teorema delle probabilità composte e il teorema
delle probabilità totali; entrambi muovono dalla comune premessa per cui “due eventi si dicono
incompatibili quando non possono verificarsi insieme in un esperimento casuale, necessari se almeno
uno dei due deve verificarsi”.
Secondo il teorema delle probabilità totali, se un esperimento casuale E da luogo a più eventi A1, A2,…An
fra loro incompatibili che hanno probabilità p(A1), p(A2),…p(An) di verificarsi, la probabilità che si
verifichi uno qualunque (non uno qualunque ma un insieme di essi) di tali eventi è data dalla somma
delle rispettive probabilità.
Vediamo perché.
Dati due eventi possibili A e B, consideriamo l’evento composto dato dal verificarsi di A o di B,
ovvero del verificarsi di A insieme a B (evento A + B); il verificarsi di ambedue gli eventi è, invece,
definito AB.
Consideriamo, ad esempio, una distribuzione di individui secondo la combinazione di due caratteri: il
peso e l’altezza.
Ipotizziamo che il loro raggruppamento avvenga sulla base di due sole modalità: per il peso si
distinguono quelli di peso inferiore e quelli di peso superiore alla soglia di 70 kg; per quanto riguarda,
invece, l’altezza, gli individui in questione sono distinti a seconda che siano più o meno alti di 1.75 cm.
Per evento A, poi, si considera quello consistente nel verificarsi di un’altezza inferiore a 1.75 cm e per
l’evento A’ quello relativo ad un’altezza superiore; B identifica un peso inferiore a 70 kg e B’ un peso
superiore a 70 kg.
Vediamo i dati riportati nella tabella 1):
Pertanto, se l’evento A è l’uscita del numero 1, quando si lancia il dado, presupponendone la perfezione
nonché l’assenza di qualunque causa di disturbo, la probabilità che esso si verifichi è data dal rapporto 1/6
(essendo 1 il caso favorevole e 6 quelli possibili).
6
Questo concetto presuppone l’esecuzione di un esperimento casuale, come ad esempio il lancio di un dado.
Gli eventicche possono verificarsi è che compaia uno dei numeri da uno a sei; ripetendo un numero n di volte
l’esperimento del lancio , l’uscita, ad esempio, del numero 1 avverrà con una data frequenza F. il rapporto f/n
rappresenta la frequenza relativa dell’evento “1” nell’esperimento el lancio del dado. La probabilità intesa
come frequenza relativa di un dato evento A in un esperimento casuale E rappresenta il concetto empirico di
probabilità.
24
Dis t ribuz ione di un gruppo di 100 individui s ec ondo
la s t at ura ed il pes o
St at ura
.
. Pes o
150 - 175
A
175 - 200
A'
TOTALE
45 - 70
B
f(AB)
50
f(A'B)
10
f(B)
60
70 - 95
B'
f(AB')
20
f(A)
70
f(A'B')
20
f(A')
30
f(B')
40
n
100
TOTALE
L’esperimento della tabella 1) è stato, quindi, ripetuto 100 volte; le frequenze assolute dell’evento A
sono 70 (che corrisponde al numero delle volte in cui, in seguito a misurazione, gli individui non
raggiungono un’altezza superiore a 1.75 cm ) e dell’evento A’ risultano essere 30 (che corrisponde al
numero di volte in cui la misurazione degli individui ha registrato altezze superiori a 1.75 cm). L’evento
B si verifica, invece, 60 volte e il B’ 40.
Fra le frequenze assolute esistono le seguenti relazioni:
f (A+B) = f (A) + f (B) – f (AB)
f (A+B)= n – f (A’B’)
Se dividiamo le frequenze assolute per il totale n (100) otteniamo le frequenze relative, ovvero una
stima delle probabilità del verificarsi dei singoli eventi; applichiamo alle probabilità le stesse relazioni
che valgono per le frequenze assolute (le quali, abbiamo visto, si applicano anche alle frequenze
relative); per cui:
p ( A+B)= p (A)+p (B)-p (AB)
Volendo applicare la formula all’esempio precedente, ovvero ad un soggetto scelto a caso fra quelli
appartenenti al gruppo, alto non più di 1.75 cm con un peso inferiore a 70 kg, abbiamo: 0,6+0,70,5=0,8. Lo stesso risultato si ottiene qualora si applichi la seconda delle formule: 1-0,2=0,8.
Se si tratta di eventi incompatibili, la formula da applicare diventa, invece:
25
p (A+B)=p (A)+p (B) dato che p (AB)=0.
Se si lancia, quindi, per esempio, un dado, la probabilità che esca il numero uno o il numero due è 1/3
essendo 1/6 la probabilità dei singoli eventi che sono fra loro incompatibili.
Il secondo dei teoremi affrontati è il teorema delle probabilità composte.
Osserviamo nuovamente la tabella 1).
I dati dell’ultima riga e dell’ultima colonna della tabella, relativi alle distribuzioni congiunte delle
altezze e dei pesi, rappresentano le frequenze marginali. Queste si identificano con le due distribuzioni
semplici, ovvero con le frequenze delle due classi di peso a prescindere dall’altezza ( f (B) e f (B’)) e con
le frequenze delle due classi di statura a prescindere dal peso( f (A) e f (A’)). Le cifre della seconda
colonna rappresentano, invece, la distribuzione condizionata, secondo il peso, dei soggetti che hanno
altezza inferiore a 1.75 cm; la terza colonna evidenzia la distribuzione condizionata, secondo il peso, dei
soggetti che hanno altezza superiore a 1.75 cm.
Le frequenze, dunque, sono:
f (AB)/f (A); f ( AB’)/f (A); f (AB)/f (B); f (A’B)/f (B)…e così via.
Estendendo il discorso ad n eventi, otteniamo il teorema delle probabilità composte secondo il quale,
se un esperimento casuale E da luogo a più eventi A1, A2…An indipendenti tra loro ed aventi la
probabilità di verificarsi p (A1), p (A2)….p (An), la probabilità che tutti si verifichino è uguale al
prodotto delle singole probabilità.
Tornando all’ipotesi del lancio di un dado, la probabilità che in due lanci successivi si ripeta il numero
uno è pari a 1/36 (= 1/6*1/6).
Se due eventi sono dipendenti la probabilità composta è data dal prodotto della p. dell’evento
indipendente per la p. dell’evento condizionato:
P(AB) = P(A)*P(B/A)
Nell’ambito delle probabilità, troviamo anche le variabili casuali, che, per definizione, si identificano
con quella quantità, discreta, che un numero finito di valori (x1, x2 … xn) può assumere in relazione ai
diversi risultati di un esperimento casuale E con probabilità p1, p2 … pn tali che ™pi=1.
26
La variabile casuale può essere continua, se assume un’infinità continua di valori ed ha una densità
delle frequenze fornita da una funzione continua; a questa possiamo applicare i procedimenti di calcolo
propri delle variabili statistiche
Tornando ai due esempi precedenti, siamo di fronte a due distribuzioni di frequenza;
possiamo rappresentare la distribuzione delle frequenze mediante un istogramma su coordinate
cartesiane:
numero individui
Graf. 6 - Distribuzione di un insieme di individui secondo la statura
stature (cm.)
Se la funzione è definita in modo tale che S f(x)dx=1, la probabilità che la variabile continua X assuma
un valore compreso nell’intervallo infinitesimo da x a x+dx è f(x)dx, e la probabilità P{x 1< X <x2) che
essa assuma i valori compresi tra x1 e x2 è data dall’integrale S f(x)dx esteso da x1 a x2.
Si dice funzione di densità, la funzione definita in modo tale che S f(x)dx=1.
Si parla, ad esempio, di densità gaussiana.
Quando l’integrale non è uguale all’unità, si può moltiplicare la funzione per un valore tale che questa
condizione si verifichi.
Vediamo il grafico (segue):
27
frequenze
funzione di densità
130
140
150
160
170
stature
28
180
190
200
210
Resoconto della lezione del Prof.Malizia del 02/02/2006
“Distribuzioni di probabilità”
A cura di Sara Ceccarelli
La distribuzione di probabilità è una funzione che rappresenta la relazione tra la variabile casuale e la
sua probabilità di verificarsi.
Le distribuzioni di probabilità possono assumere infinite configurazioni.
Lo schema probabilistico fondamentale è quello di Bernoulli. Esso rappresenta una distribuzione
binomiale, fondata su una variabile dicotomica, cioè su una variabile che può assumere solo due valori.
Se consideriamo, ad esempio, l’evento “estrazione di pallina” da un’urna contenente per metà palline
bianche e per metà palline nere, l’evento può avere solo due esiti: estrazione di pallina bianca o
estrazione di pallina nera.
Se chiamiamo p la probabilità di estrarre pallina bianca e q quella di estrarre pallina nera,
p+q=1
quindi p = 1- q
e
q = 1- p
Effettuiamo diverse estrazioni e le consideriamo come eventi indipendenti tra loro (reinseriamo la
pallina estratta nell’urna). Applichiamo, quindi, il teorema delle probabilità composte.
In base a tale teorema, la probabilità di estrarre una pallina bianca è uguale al prodotto delle probabilità
dei singoli eventi dello stesso tipo.
In n eventi di estrazione tale probabilità è: ppp….p (n volte) = pn
Allo stesso modo, la probabilità che venga estratta una pallina nera in un numero n di estrazioni è
uguale al prodotto delle probabilità p, relative alle n-1 estrazioni di pallina bianca per la probabilità q, di
estrazione della pallina nera
ppp….pq = pn-1 q1
Se ipotizziamo che l’ordine di estrazione sia ininfluente ai fini del risultato, dobbiamo tener conto delle
permutazioni degli n elementi, dei quali n-1 sono uguali tra loro.
Le permutazioni entrano nel calcolo delle probabilità attraverso il fattore proveniente dal calcolo
combinatorio:
n!
n  1!*1!
La probabilità di estrarre, in un ordine qualunque, pallina bianca n-1 volte e pallina nera 1 volta è
29
n!
pn-1q
n  1!1!
Sinteticamente
 n  n-1
  p q
 np 
Allo stesso modo, la probabilità di estrarre pallina bianca n-2 volte e la nera 2 volte è:
n!
pn-2 q2 =
n  2!2!
n
 n-2 2

 p q
 n  2
Generalizzando, indicando con x il numero di volte in cui viene estratta la pallina bianca, esprimiamo
così le probabilità che esca, in qualsiasi ordine, la pallina bianca:
n
Pn, x =   px qn-x
 x
La distribuzione di probabilità espressa in questa forma è detta binomiale.
Calcoliamo, adesso, media e varianza della variabile casuale “estrazione di pallina bianca”.
La media può essere scritta come la somma della media della stessa variabile casuale, calcolata per ogni
singola estrazione:
M(xi1) = 1*p + 0*q = p
essendo 1 l’esito “pallina bianca estratta” e 0 “pallina bianca non estratta”.
Per la totalità delle estrazioni:
n
M(x) = M(x1) + M(x2) +….M(xn) =

M(xi) = np
i 1
La varianza è la media aritmetica dei quadrati degli scarti dalla media.
Gli scarti possibili in ogni estrazione sono: 1-p e 0-p. I quadrati (1-p)2 e (0-p)2.
La varianza è così determinata:
s2= ∑(xi –M(x))2pi
(1-p)2p + (0-p)2q = q2p + p2q = pq(p+q) =pq
Per tutte le n estrazioni: σ2 = npq
30
Quando p=q la distribuzione binomiale è simmetrica.
Al crescere del numero di estrazioni, la distribuzione binomiale (nel caso in cui sia simmetrica e dunque
p=q) tende a configurarsi come una distribuzione normale.
Nel determinare la distribuzione binomiale, un’informazione importante è data dalla combinazione
tipica, cioè da quei valori della variabile casuale x, cui corrisponde la massima probabilità.
Si può dimostrare che il valore di x è compreso nell’ intervallo: np-q≤ x≤ np+p
La combinazione tipica coincide con np, cioè con il valore medio della variabile casuale, quando esso è
un valore intero. Se non lo è, np approssima comunque la combinazione tipica con un errore che
diminuisce all’aumentare di n.
La probabilità associata alla combinazione tipica è approssimata dalla formula:
1
Pn, np 
2npq
Maggiore è n, migliore è il grado di approssimazione.
Definiamo, a questo punto, l’espressione della distribuzione normale.
In primo luogo, dobbiamo calcolare la probabilità associata ad uno scarto x (compreso tra +  e -  )
rispetto a np (valore della combinazione tipica, ovvero della distribuzione binomiale):
n
 np+x n-np-x
 p
Pn, np+x = 
q
 np  x 
Questa espressione può essere ridotta alla forma approssimata:
Pn, np +x 
1
2npq

e
x2
2 npq
ed npq, per le relazioni viste in precedenza, può essere sostituito con σ2
Pn, np +x 
1
2 2

e
x2
2 2
Quanto più n è grande, tanto più questa espressione si sposta verso l’uguaglianza.
Possiamo rappresentare la distribuzione di Gauss in tre diverse forme.
La prima è definita in funzione della media μ e della varianza σ2.
La seconda è definita dalla varianza σ2 ed ha media nulla.
La terza ha media nulla e varianza unitaria ed è definita dalla variabile casuale normalizzata (u) rispetto
allo scarto quadratico medio
u = x/σ = (α-μ)/σ
31
Le tre funzioni assumono questa forma:
1. f(a) =
1
1
 2
1
2
( a )2
2 2
e
 2
2. f(x) =
3. f(u) =

e
e


x2
2 2
u2
2
Di seguito gli andamenti delle tre funzioni.
32
IL METODO DEI MINIMI QUADRATI PER LA STIMA DEI
PARAMETRI
(Resoconto della lezione di Statistica del 09 Febbraio 2006, Prof. Malizia)
a cura di Ilaria Screpante
Il metodo dei minimi quadrati è uno degli strumenti più utilizzati per la determinazione della tendenza
dei dati nel tempo. Viene utilizzato soprattutto per la determinazione di specifici parametri nel
procedimento di interpolazione e di regressione.
Per una descrizione più analitica del metodo dei minimi quadrati sarà utile porre attenzione
dapprima al processo di interpolazione, sottolineando che statisticamente tale procedimento ha lo scopo di
identificare specifiche leggi o regolarità che si pongono alla base della manifestazione dei fenomeni
oggetto di analisi. Attraverso l’interpolazione, quindi, è possibile stimare valori che il carattere dovrebbe
assumere in assenza di fattori accidentali. Questi ultimi, infatti, in alcuni casi possono influenzare in
modo significativo il fenomeno analizzato, rendendo così difficile la stima della legge sottostante che
regola il fenomeno in analisi7.
In generale, il fine dell’interpolazione viene raggiunto determinando una funzione
y = f (x), in cui il fenomeno y è dipendente dal fenomeno x. In questo senso, la funzione y = f (x) è detta
funzione interpolatrice o curva interpolatrice. Di conseguenza, proprio in riferimento allo scopo che tale
funzione si pone – determinare i valori che il carattere dovrebbe assumere – i valori stimati vengono
definiti valori teorici, per distinguerli da quelli che invece derivano direttamente dall’osservazione del
fenomeno, ossia i valori osservati o empirici.
In altre parole, il procedimento di interpolazione ci consente di identificare la relazione principale
esistente tra diversi fenomeni.
Graficamente, dopo aver rilevato i casi statistici che scaturiscono dalle osservazioni fatte, la curva
interpolatrice potrebbe essere così rappresentata:
In senso stretto, in statistica e in matematica l’interpolazione indica un procedimento mediante il quale, dati alcuni
valori di una variabile x, di cui a sia il minore e b il maggiore, e in corrispondenza altrettanti valori di una variabile y
dipendente da x, si determinano valori della y per valori della x dell’intervallo [a b] che siano diversi dalle x date. Cfr.
G. Leti, Statistica descrittiva, Il Mulino, Bologna, 1983, p. 631.
7
33
Spesa per beni alimentari in funzione del reddito
y
0
x
Dal grafico precedente osserviamo che i punti giacenti sulla curva (e quindi la curva stessa)
rappresentano i cosiddetti valori teorici, mentre i valori osservati empiricamente sono rappresentati dai
punti vicini alla curva ma non sovrapposti ad essa.
Dal grafico, inoltre, è possibile osservare che i valori teorici e quelli osservati non coincidono
esattamente. La distanza che separa i valori assoluti e quelli teorici (giacenti sulla curva) rappresenta
l’effetto di perturbazione.
Nel procedimento di interpolazione, però, è necessario determinare – oltre il tipo di funzione8 –
anche i parametri dell’espressione matematica della funzione stessa.
Ai fini della determinazione del valore di questi parametri si possono adottare diversi metodi, e il
più utilizzato è il metodo dei minimi quadrati.
In base a tale metodo, si impone la condizione che la somma dei quadrati degli scarti tra i valori
empiricamente osservati e quelli teorici sia un minimo.
Poniamo ora attenzione su due distinti casi possibili di funzione di interpolazione:
1. La funzione interpolatrice è ŷ = a
2. La funzione interpolatrice è ŷ = a + bx
Nel primo caso i valori teorici – espressi dalla funzione ŷ = a – sono una costante, ossia non variano
al variare di x. Essi, quindi, sono indipendenti dal valore che assume la variabile x. In questo primo caso
ponendo la condizione sopra descritta (la somma dei quadrati degli scarti tra i valori empirici e quelli
teorici sia un minimo) si avrà quindi :
(3)
f(a) = ∑ (yi – a)2 = minimo
8
Per una trattazione analitica della distinzione dei tipi di funzione e dei criteri per la scelta dei medesimi cfr. G. Leti,
cit., p. 635 ss.
34
calcolando la derivata prima della (3) e ricordando che questa è pari a 0 nel punto di minimo, con alcuni
passaggi algebrici, si ottiene che :
a
(4)
y
i
n
ovvero la media aritmetica, confermando così una delle sue proprietà9 .
Nel secondo caso, invece, si considera la funzione interpolatrice y = a + bx. Ciò significa che la
variabile y dipende dalla variabile x sulla base di una relazione lineare (con intercetta a e coefficiente
angolare b).
Anche in questo caso imponendo la condizione già citata, si ha che:
f(a, b) = ∑ (yi – a – bxi)2 = minimo
(5)
In questo caso nel punto di minimo la derivata prima delle due derivate parziali (rispetto ad a e b)
fornisce il seguente sistema di equazioni :
na + b∑xi = ∑yi
(6)
a∑xi + b∑xi2 = ∑yi xi
La (6) può essere risolta utilizzando la regola di Kramer, attraverso la quale otteniamo i rispettivi
valori dei parametri a e b:
∑yi ∑xi2 – ∑xi ∑yi xi
(7)
a=
n∑xi2 – (∑xi)2
(8)
n∑yi xi – ∑xi ∑xi yi
b=
n∑xi2 – (∑xi)2
9
La somma dei quadrati degli scarti fra i singoli termini e la media aritmetica è minimo.
35
In conclusione, mediante la conoscenza dei valori di a e b – secondo i diversi procedimenti in base
al tipo di funzione – è possibile individuare i valori della variabile dipendente y, arrivando così a
individuare la relazione che lega fra loro diversi fenomeni, di cui uno e dipendente dagli altri.
36
Strumenti statistici propedeutici alla valutazione (Dott. Malizia)
lezione del 16 febbraio 2006
A cura di Rossana Tiani
Interpolazione e regressione
Quando si analizzano caratteri quantitativi si può cercare di individuare una funzione che descriva in
modo sintetico le caratteristiche del loro legame. Se una variabile è considerata dipendente dall’altra (o
dalle altre) secondo una determinata legge o funzione, si parlerà di regressione. Quando i caratteri
sono quantitativi, perciò, oltre a misurare con un indice statistico la loro associazione, si può cercare di
descrivere con maggiore dettaglio la relazione che li unisce. Ciò avviene generalmente attraverso
l’individuazione di una funzione matematica che esprime i valori assunti da un carattere come funzione
dei valori assunti dagli altri caratteri. Si vuole, in tal modo, analizzare la dipendenza di una variabile
(detta variabile dipendente) da una o più variabili (chiamate variabili indipendenti o esplicative).
Nella teoria dell’inferenza statistica l’espressione y = f(x) definisce il modello di regressione lineare
semplice.
Nella statistica descrittiva l’attenzione è rivolta esclusivamente all’individuazione della funzione f(x) che
fornisce i valori teorici più vicini ai valori osservati della variabile dipendente Y. La “vicinanza” tra i
valori teorici ed i valori osservati viene definita in termini geometrici per cui si preferisce parlare di
interpolazione piuttosto che di regressione. L’interpolazione descrive le relazioni di casualità tra due
(bivariata) o più fenomeni (multivariata). Essa, difatti, ci consente di stimare i valori teorici che il
carattere dovrebbe assumere in assenza di cause perturbatrici di diversa natura e di numerosi fattori
accidentali che potrebbero influire sulle osservazioni effettivamente rilevate e rendere meno evidente la
legge che governa il fenomeno. Il nostro scopo, perciò, è quello di scoprire la funzione matematica che
governa la relazione tra due o più fenomeni, ossia di determinare il tipo di funzione ed i parametri della
sua espressione matematica10. La curva interpolante individua proprio i valori teorici che si sarebbero
osservati in assenza di cause perturbatrici; la distanza tra i valori osservati e quelli che giacciono sulla
curva descritta dalla funzione interpolante rappresenta, infatti, l’effetto dei fattori accidentali.
L’obiettivo è quello di trovare la procedura per identificare l’equazione y = f(x) che ha generato i dati
rilevati sulla variabile y in relazione ad x. Nel nostro esempio, dal momento che c’è una relazione di tipo
crescente tra x ed y, si può supporre che la spesa per consumi dipenda dal reddito; ne consegue che il
10
Come nel caso in cui su un collettivo di famiglie viene osservata, per esempio, la spesa per consumi (Y) e il reddito
familiare (X). Se supponiamo che la spesa per consumi dipenda dal reddito, dunque che y = f(x), per prima cosa
dobbiamo verificare tale ipotesi per poi procedere, in caso di esito positivo, all’identificazione della funzione che
descriva tale relazione. In tal caso il reddito è la variabile indipendente della spesa per i consumi ma esistono anche altri
fattori che ne determinano l’andamento: le aspettative, la composizione dei nuclei familiari, le preferenze dei
consumatori e così via.
37
primo problema che si pone è quello della individuazione della funzione più adatta a descrivere tale
relazione lineare.
Si assume, pertanto come funzione un polinomio di primo grado:
f(x) = a + bx
Tale espressione individua una “famiglia” di rette in cui il parametro a individua l’intercetta della
retta11, mentre b individua il coefficiente angolare12. È bene individuare, nella famiglia delle rette, una
particolare retta che rappresenti al meglio la nuvola dei punti osservati. Individuare una retta vuol dire
determinare il valore dell’intercetta e del coefficiente di regressione. Il metodo che si utilizza per trovare
il valore di questi due parametri è il metodo di interpolazione dei minimi quadrati. Ne deriva che la
retta individuata con tale metodo viene chiamata retta di regressione ed il suo coefficiente angolare
coefficiente di regressione.
In base a tale metodo si minimizza la somma dei quadrati delle differenze tra il valore osservato,
empirico (y) ed il valore teorico (yˆ); più semplicemente, la somma del quadrato degli scarti tra questi
due tipi di valori è un minimo, ossia i valori teorici ottenuti a calcolo sono tali per cui non esiste
nessuna altra funzione lineare che mi dia un risultato inferiore.
∑ (yi - yˆ)2 = minimo

Se supponiamo che la funzione interpolatrice sia: yˆ = a ossia che i valori teorici espressi dalla
funzione interpolatrice sono una costante, e poniamo la condizione iniziale, ne deriva che:
f(a) = ∑ (yi - a)2 = minimo
Dal momento che nel punto di minimo, la derivata prima della funzione si annulla, avremo:
f ’(a) = -2 ∑ (yi - a) = 0
da cui
∑ yi – na = 0
a = ∑ yi / n = My (media aritmetica)
Di qui:
∑ yi
yˆ = a =
n
= My
ossia ricaviamo un risultato atteso dal momento che una delle proprietà
della media aritmetica è che la somma dei quadrati degli scarti fra i singoli termini e la media aritmetica
è un minimo.

Si supponga ora che la funzione interpolatrice sia: yˆ = a + bx
in cui poniamo la condizione
che la somma dei quadrati degli scarti tra i valori osservati e quelli teorici sia un minimo:
f (a, b) = ∑ (yi – a - bxi)2 = minimo
Per la determinazione del minimo della funzione si devono calcolare le derivate parziali prime rispetto
ad a e b, uguagliarle a zero (dato che nel punto di minimo le derivate parziali prime della funzione si
11
12
Ci si riferisce al punto in cui la retta intercetta l’asse delle ordinate.
Il coefficiente angolare, invece, indica il livello di inclinazione, positivo o negativo, della retta.
38
annullano) e risolvere il sistema in due equazioni e due incognite13. Si ottiene, perciò, il seguente
sistema normale14:
a
- 2 ∑ (yi – a - bxi) = 0
b
- 2 ∑ (yi – a - bxi) xi = 0
Ed eliminando la costante (- 2), si può sviluppare il sistema normale nel seguente modo:
a
∑ (yi – a - bxi) = 0
b
∑ (yi – a - bxi) xi = 0
Determiniamo ora il valore del parametro a che identifica
l’intercetta della retta interpolante sull’asse delle ordinate.
∑ (yi – a - bxi) = 0
∑ yi – ∑a - b∑ xi = 0
∑ yi – na - b∑ xi
n
∑ yi – na - b∑ xi = 0 dividiamo il tutto per n:
∑ yi
=0
laddove
n
∑ xi
è la media aritmetica My, mentre
n
è Mx. Perciò
scriviamo:
My – a – bMx = 0 da cui si ricava
a = My - bMx
Esplicitando il valore di a e sostituendolo nella seconda equazione, siamo in grado di determinare il
valore del parametro b (che misura l’inclinazione della retta15) mediante due procedimenti:
1. ∑ (yi – a - bxi) xi = 0 in cui vi sostituisco il valore di a
∑ (yi – My – bMx – bxi)xi = 0 Distribuiamo la sommatoria:
∑ (yi - My)xi - b∑ (xi - Mx)xi = 0
∑ (yi – My)xi = b∑ (xi – Mx)xi da cui ricavo:
In realtà è bene sottolineare che tale procedimento è solo una condizione necessaria ma non sufficiente per l’esistenza
di un punto di minimo. Tuttavia, poiché la funzione in esame non può assumere valori più piccoli di 0 mentre può
crescere fino a +
(dal momento che è possibile trovare rette via via sempre più distanti dai punti osservati), l’unico
punto stazionario determinato deve essere un minimo globale.
14
Si noti che il valore dei due parametri può essere determinato anche effettuando i calcoli sui valori effettivamente
osservati. Il sistema, perciò, può essere risolto mediante la regola di Cramer, attraverso la quale otterremo:
13
∑ yi ∑ xi2 - ∑ xi ∑ yi xi
a=
n ∑ yi xi - ∑ xi ∑ yi
b=
n∑
xi2 –
( ∑ xi)2
n ∑ xi2 – ( ∑ xi)2
Si ricordi che se b = 1 la retta ha un’inclinazione di 45º; se è inferiore ad 1, l’inclinazione è minore di 45º; altrimenti
se è superiore ad 1, l’inclinazione sarà maggiore di 45º; se b = 0, ci troviamo in assenza di legame lineare, la pendenza
è nulla e la retta di regressione è parallela all’asse delle X. Infine se il parametro b è positivo la retta è crescente,
altrimenti se è negativo essa è decrescente.
15
39
∑ (yi- My)xi
b=
coefficiente di regressione
∑ (xi - Mx)xi
Come già detto, possiamo calcolare il valore di b mediante un secondo procedimento:
2. Consideriamo il numeratore e lo distribuiamo rispetto a (xi - Mx):
∑ (yi - My)(xi - Mx) = ∑ (yi - My)xi - ∑ (yi - My)Mx laddove sappiamo che la somma degli scarti dalla
media, ossia ∑ (yi - My) , è uguale a zero. Di qui ne consegue che: ∑ (yi - My)(xi - Mx).
Ora distribuiamo il denominatore sempre rispetto a (xi - Mx):
∑ (xi - Mx) (xi - Mx) da cui ∑ (xi - Mx)xi - ∑ (xi - Mx)Mx laddove ∑ (xi - Mx) = 0 si avrà:
∑ (xi - Mx) (xi - Mx) = ∑ (xi - Mx)2 dunque:
∑ (yi - My)(xi - Mx) codevianza
b=
∑ (xi - Mx)2 devianza
16
In tal caso abbiamo determinato il valore dei due
parametri effettuando, non i calcoli sui valori effettivamente osservati,
(così come si è visto nella regola di Kramer), ma a partire dagli scarti dei valori dalla loro media. I
risultati, ovviamente sono i medesimi.
In ultima analisi, dopo aver stimato i parametri a e b, è possibile determinare la funzione interpolatrice
sostituendo semplicemente i valori ottenuti in precedenza. Più semplicemente, a partire dai dati
osservati siamo in grado di identificare la retta di regressione che meglio si adatta ad essi, ossia:
f(x) = a + bx
f(x) = My – ∑ (yi - My)(xi - Mx)
Mx +
∑ (yi - My)(xi - Mx)
∑ (xi - Mx)2
∑ (xi - Mx)2
a
b
X
Un’ultima precisazione. La somma dei quadrati degli scarti tra i valori osservati e quelli teorici17 è uguale
sia nel caso si risolva il sistema di equazioni con la regola di Cramer e sia se si considerano gli scarti
16
Si faccia un breve richiamo a ciò che è stato affrontato in precedenza. Se dividiamo il numeratore e il denominatore
del rapporto tra codevianza e devianza per n, avremo: σxy / σ2x ossia ricaviamo il rapporto tra covarianza e varianza
delle X.
17
Ciò dal momento che la condizione iniziale che abbiamo posto attraverso il metodo dei minimi quadrati è:
∑ (yi - yˆ)2 = minimo.
40
dalla media. Ciò perché nel calcolare gli scarti dalla media abbiamo traslato gli assi cartesiani facendo
coincidere l’origine con le medie dei due caratteri, per cui la disposizione sul piano cartesiano dei punti,
e perciò la relazione tra i due caratteri, non muta.
Analisi dei residui
Dopo aver trovato, mediante il metodo dei minimi quadrati, la retta di regressione che meglio interpola
i valori osservati, è opportuno valutare se l’ipotesi di una relazione lineare semplice tra i due caratteri sia
effettivamente ragionevole o, invece, non sia meglio realizzare un altro tipo di relazione. Una tecnica
che permette un’analisi puntuale dell’adattamento della retta di regressione è l’analisi dei residui. Il
residuo è lo scostamento tra il valore osservato ed il corrispondente valore teorico ottenuto a calcolo:
εi = (yi - yˆ)
I residui possono assumere valori sia positivi sia negativi e, inoltre, la loro media è pari a
zero poiché sia i valori osservati che i valori della retta di regressione (quelli teorici) hanno uguale media
pari a My. L’analisi dei residui si basa sul grafico dei residui che pone sull’asse delle ordinate i residui e
sull’asse delle ascisse i valori teorici. Dalla disposizione dei punti nel grafico si può controllare se la
relazione tra i caratteri è di tipo non lineare, se la variabilità dei valori della Y rimane costante al variare
della X e se sono presenti dei valori anomali nei dati.

Se i valori seguissero effettivamente una relazione statistica di tipo lineare, i punti nel suddetto
grafico si presenterebbero sparsi in maniera omogenea intorno all’asse delle ascisse; al contrario,
se si disponessero secondo una forma, ad esempio, parabolica, si potrebbe concludere che la
relazione sia di tipo non lineare.

Per avere una sintesi affidabile della relazione lineare tra i caratteri, inoltre, è necessario che la
variabilità dei punti intorno alla retta di regressione si mantenga costante all’aumentare del
valore della X. Se all’aumentare, cioè, della X la variabilità della Y aumenta, la rappresentatività
della retta di regressione sarà via via minore: per valori bassi della X i valori della Y saranno ben
rappresentati dalla retta mentre per valori alti della X i valori della Y saranno mal rappresentati.
Naturalmente si può anche verificare la situazione inversa in cui, all’aumentare della X, la
variabilità dei valori della Y diminuisce.

Se la varianza non è costante, i punti sul grafico dei residui si disporranno a “forma di imbuto”.
Nel caso di valori anomali, questi si presenteranno come dei residui positivi o negativi molto
distanti dal loro valore medio. La loro presenza porta ad individuare una retta di regressione che
non rappresenta correttamente la relazione tra i caratteri. Come conseguenza, un corretto modo
41
di procedere consiste nell’individuare tali valori anomali ed eliminarli dal collettivo oggetto del
nostro studio; fatto ciò si dovrà procedere a ricalcolare nuovamente la retta di regressione.
42
Resoconto della lezione del 23 / 02 / 2006
“Il concetto di correlazione – Test di significatività sui parametri dell’ equazione
di regressione”
Prof. Malizia
A cura di Giordano Simoncini
Il concetto di correlazione.
Verificandosi due fenomeni A e B, essi possono essere:
1) completamente indipendenti (l’ uno non influisce sull’ andamento dell’ altro);
2) in semplice concomitanza ma collegati in maniera causale ad un fenomeno terzo, non evidenziato
dall’ analisi del caso;
3) legati tra loro da un legame causale rilevante sul quale, a vario titolo, importa allo scienziato sociale
di far luce.
Al cospetto di una data disponibilità di dati su due o più fenomeni, dunque, può accadere di doversi
interrogare in merito alla natura della relazione che tra tali dati sussiste, posto che ve ne sia alcuna. Ogni
analisi statistica deve essere dunque preceduta da valutazioni di merito sui fenomeni considerati: tanto
teorie precedentemente acquisite, sulle quali è di volta in volta possibile costruire determinate ipotesi da
porre al vaglio, quanto anche il semplice buon senso, ovvero anche il c.d. “colpo d’occhio” sulla
distribuzione dei casi osservati all’ interno del piano cartesiano, possono essere d’ aiuto in tale fase
preliminare.
Si supponga – come più volte è accaduto di fare in classe – che tra due variabili sussista una relazione
lineare. Tale ipotesi potrebbe scaturire dall’ avvenuto accertamento che le distribuzioni di ciascuna
variabile presentano un andamento concomitante, ad es. crescente. In tal caso, la funzione atta a meglio
descrivere l’ andamento delle distribuzioni prese in esame è quella di una retta:
Y = a – bx
Stimando i parametri col metodo dei minimi quadrati, e dunque mediante gli algoritmi oramai ben
noti18, è possibile costruire una retta di regressione19. Dal momento che la retta di regressione altro non
18
Operando con gli scarti al fine di rendere più agevoli le procedure di calcolo, si hanno:
a = My – bMx
b = σxy / σ2x
43
è se non il luogo geometrico dei punti che sono la media di tutte le osservazioni, la media degli scarti e dalla retta di
regressione è pari a 0; pertanto, i residui si dispongono attorno alla media della distribuzione
y
e
.
..
.
. . .. . .
.
x
a1
a2
. . . .
. .
.
x
Il grafico a2, che ha e in ordinata, è il plot dei residui. Nel caso in cui essi si dispongano in maniera
casuale e priva di alcuna sistematicità evidente, la retta di regressione stimata va senz’ altro considerata
soddisfacente: la dispersione delle osservazioni attorno alla funzione che descrive il fenomeno è
imputabile al solo caso, pertanto il modello ricostruito rende conto di tutte le componenti sistematiche.
Può però accadere che i residui della retta di regressione in a1 si dispongano, ad es., come segue:
e
.
.
.
. . .
.
..
.
x
si vede bene come una relazione apparentemente lineare come quella che balza agli occhi nel grafico a1
possa in realtà celare una componente sistematica (in questo caso quadratica, dal momento che i residui
e possono essere interpolati da una funzione parabola Y = a + bx2) che rimane non investigata.
19
Con il verbo regredire si intende far ricorso al metodo dei minimi quadrati per determinare i parametri incogniti di
una relazione tra la variabile dipendente Y (per ipotesi affetta da errori) e le variabili indipendenti (o esplicative) Xi, non
affette da errori.
44
In tal caso, è opportuno proseguire nell’ analisi al fine di giungere ad una funzione in grado di ridurre la
variabilità residua. Va da sé che il modo più facile per farlo è quello di linearizzare la funzione
interpolatrice dei residui, operando mediante semplici calcoli sulle distribuzioni. Si avrà dunque, ad es. :
-
per una funzione parabola  Y = a + bx2  Y = a + bz, dove z = x2
-
per una funzione iperbole  Y = a + 1/x  Y = a + z, dove z = 1/x
-
per la particolare correlazione positiva Y = a ex  logey = log a + x loge e  Y = log a + x
e via dicendo.
Una volta descritta adeguatamente la relazione tra le variabili prese in esame, si può tornare al già noto
coefficiente di correlazione lineare r di Bravais – Pearson, incontrato da principio nella sua sola e
semplice formula, al fine di investigare meglio ciò che sta dietro la sua natura, alla luce di come si
presentano i residui di una retta di regressione.
Si faccia ritorno all’ espressione dell’ indice:
r = ∑ x’i y’i / n σx σy
20
dove x’ ed y’ rappresentano gli scostamenti fra i valori assunti dai due caratteri e le rispettive medie e
σx e σy sono gli scostamenti quadratici medi dei due caratteri.
Tale indice è un indice di concordanza; i suoi valori oscillano tra – 1 (in caso di correlazione negativa
perfetta) ed 1 (in caso di correlazione positiva perfetta). Al valore 0, l’ indice r da conto del fatto che tra
i due fenomeni non sussiste alcuna relazione21 lineare.
Alla luce di quanto esposto in merito ai residui, è ora possibile aggiungere che il coefficiente r può
essere visto anche come rapporto tra la devianza spiegata (dalla retta di regressione) e la devianza
residua che fa seguito al processo interpolatorio. Graficamente, tali grandezze sono individuate come
segue:
Si presti attenzione al fatto che, in questa formula, σ, pur essendo lettera greca, non fa riferimento agli scostamenti
quadratici medi di due v.c., bensì a quelli dei due caratteri. Per indicare gli scostamenti quadratici medi di questi ultimi
può essere dunque adoperata anche la lettera s, a patto di tenere a mente che essa, a propria volta, si presta ad essere
confusa con la s sino ad ora adoperata per indicare gli scostamenti semplici.
21
Si noti che, qualora ci si trovi nella situazione r = 0, la funzione che meglio descrive l’ andamento della variabile
dipendente Y è semplicemente Y = My, vale a dire una retta che corre parallela all’ asse delle ascisse.
20
45
Dr
y
.
.
.
.
{
.
}
.
.
Ds
.
.
x
Ds sta per devianza spiegata (dalla retta di regressione) e Dr sta per devianza residua. La somma delle due è
la Dt = Devianza totale. Le tre grandezze possono essere calcolate, rispettivamente, sulla base di
differenze del tipo (yi – My), (Y*i – My), (yi – Y*), dove Y*i rappresenta i valori teorici di y calcolati
mediante la stima della regressione. Più specificamente, i calcoli che determinano Dt, Ds e Dr sono
somme di quadrati di scarti. Pertanto, schematicamente:
-
Dt = ∑ (yi – My)2 = ∑ y’i2
-
Ds = ∑ (Y*i – My)2 = ∑ Y*i2
-
Dr = ∑ (yi – Y*)2 = ∑ (y’i – Y*’i)2
Si dimostra che Ds/Dt = r2.
Pertanto, r2 è anche uguale a 1 – Dr / Dt.
L’ indice r2 è anche detto coefficiente di determinazione. La sua peculiarità è quella di indicare
quanta parte della devianza totale è spiegata dalla devianza della regressione. È inoltre palese che il suo
valore non varia più, come per r, tra -1 ed 1, bensì tra 0 ed 1. Parimenti palese è che la sua formula
consente di risalire all’ indice di Bravais – Pearson senza calcolare gli scostamenti quadratici medi delle
due variabili prese in considerazione.
46
Test di significatività sui parametri dell’ equazione di regressione.
Se la popolazione in esame non è l’ universo, i parametri a e b della retta di regressione sono
determinazioni di due variabili casuali. Ciò significa che esistono tanto una distribuzione di a per tutti i
parametri ignoti che ha media α, quanto una distribuzione di b per tutti i parametri ignoti che ha media
β.
A questo punto, un analista potrebbe essere interessato a fare dell’ inferenza statistica. Più
specificamente, un analista potrebbe essere interessato a valutare se tanto α quanto β siano
significativamente diverse da 0 (dal momento che, qualora fossero uguali a 0, assai difficilmente ci
sarebbe relazione tra le variabili nell’ universo).
Per procedere con il test di significatività, occorre tornare su parte di ciò che è stato detto in merito all’
analisi delle medie: assumendo come indifferente che l’ estrazione avvenga con o senza ripetizione per
una numerosità campionaria molto ampia, che tende all’ N dell’ universo, la distribuzione delle medie
campionarie avrà media μ e varianza σ2/n = 1/n, dove n è, per l’ appunto, la numerosità campionaria.
È inoltre oramai noto che la radice quadrata della varianza della distribuzione delle medie campionarie
(σ/√n) è lo standard error della distribuzione delle medie campionarie, vale a dire l’ errore medio della
media.
Nel caso preso in esame, μ è, assai semplicemente, α per l’ universo delle determinazioni ignote del
parametro a e β per l’ universo delle determinazioni ignote del parametro b. Avendo precedentemente
definito lo standard error, si può facilmente giungere alla standardizzazione delle v.c. a e b secondo il
risaputo modello
u=z-μ/σ
22
da cui si avrà
u=a–α/σ
Per il teorema del limite centrale, con n  ∞, la v.c. standardizzata si distribuisce come una gaussiana standardizzata;
pertanto, è possibile calcolare la probabilità che lo scarto tra le medie sia compreso in un’ area Θ, per la stima della
quale disponiamo di apposite tabelle.
22
47
e
u=b–β/σ
23
Tenendo ferme le ipotesi da controllare, cioè Ho = β = 0, e Ho = α = 024, ed una volta fissati
arbitrariamente i limiti +/- λ, ad es., a 1,96 (valore relativamente comodo, poiché ad esso corrisponde
un livello di significatività del 95%), si ha
P
{- 1,96 ≤ b – β / σ ≤ + 1, 96} = 1 – α
P
{- 1,96 ≤ a – α / σ ≤ + 1, 96} = 1 – α
e
La complessità di cui è aggravato ciò che queste probabilità rappresentano è più semantica che logica: si
dovrà dire, per ognuna delle due eguaglianze, che se 0 fosse la media della distribuzione dei parametri, il
valore assunto dalla distribuzione in esame sarebbe al 95% tra +/- λ; ovvero che, se β (oppure α) è
diverso da 0, molto difficilmente ( “al 5%”) potrebbe accadere che, essendo per l’ appunto β (oppure α)
≠ 0, sarebbe possibile riscontrare una relazione compresa tra +/- λ.
Il σ della distribuzione dell’ universo di b (avente media β) può essere calcolato partendo dalla formula che descrive
la varianza di b nell’ universo : σ2 = ∑ εi2 / ∑ (x’i)2, dove ε sono gli scarti rispetto a β nell’ universo. Dal momento che
tale fomula vale solo nella teoria, mentre nella realtà ci si trova ad operare coi singoli casi disponibili, la varianza σ2 può
essere a propria volta stimata mediante la formula σ2 = (∑ei2 / n – 2) / ∑ ∑ (x’i)2, dove e sono i residui dalla retta di
regressione e 2 è un valore tra i tanti dei c.d. “gradi di libertà” tra cui si può optare al fine di adoperare le tabelle per il
calcolo dei quantili nella distribuzione t di Student.
24
Si noti che per tale ipotesi la curva di regressione non ha intercetta.
23
48