Ciatara

Francesco Ciatara
ELEMENTI
di
STATISTICA
2011
1
1
La distribuzione statistica
Per illustrare e definire gli universi, per assemblare le unità in gruppi, sostituendo ai
soggetti classi equivalenti, o meglio, costruire collettivi minori costituiti da unità omogenee
rispetto alle modalità di uno o più caratteri, la statistica
si serve di un particolare
procedimento che è definito classificazione .
Per ciò che concerne la misurazione dei caratteri, si possono distinguere quattro scale:
1.
scala nominale , al posto delle unità si sostituiscono nomi o simboli; ci consente
solamente di esprimere giudizi di uguaglianza o disuguaglianza . le modalità del
carattere sono attributi non ordinabili se non in modo del tutto casuale (sesso,
professione, etc.)
2.
scala ordinale , si ha quando le modalità del carattere sono definite da attributi
ordinabili in successioni non arbitrarie; essa ci permette di esprimere giudizi di
uguaglianza o disuguaglianza, con l’opportunità di stabilire la maggioranza (>) o
la minoranza (<) (titoli di studio, gradi militari, etc.)
3.
scala intervallare , si ottiene se per ogni coppia di soggetti consecutivi disposti in
scala ordinale, si può assegnare un numero idoneo a caratterizzare la loro
distanza , senza però definire un’origine per il sistema di misura
4.
scala proporzionale , è simile a quella intervallare, con la differenza che per
essa è possibile stabilire un’origine oggettiva ; con questa scala ci si riferisce a
dati quantitativi misurabili (numero vani abitazioni, età, reddito, etc.) e al
contempo ci permette di utilizzare operazioni aritmetiche sia sulle differenze, che
sulle stesse misure
Per collocare i dati in tabelle (spoglio statistico) si usa la sistemazione: i principi che si
devono seguire possono riguardare congiuntamente uno o più caratteri; per i caratteri
qualitativi
i principi si presentano in modalità di tipo ordinale o nominale,o in modalità
temporali o spaziali; se si ha un solo carattere, sulla parte sinistra della tabella si sistema il
criterio ordinatorio e nella parte destra le frequenze , ovvero il numero degli elementi che
nella rilevazione hanno avuto la stessa modalità; certe volte, in questa colonna, si trovano le
intensità totali o medie di uno specifico carattere. Per i caratteri quantitativi nella colonna di
sinistra compare il cosiddetto criterio ordinatorio, che appunto è quantitativo ed è definito da
singoli valori o classi di valori, nella colonna destra troviamo le frequenze.
2
Il valore centrale è dato dalla somma dei valori estremi di una classe diviso due.
La dimensione del collettivo di studio è definita dalla somma delle frequenze assolute.
Quando si voglia calcolare il numero delle classi in cui suddividere il campo di
variazione (valore massimo – valore minimo) di un carattere quantitativo (generalmente
continuo) si usa, a volte, la regola di Sturges :
c = 1 + 3,3 lg N
dove : N = numero delle osservazioni
c = numero delle classi
lg = logaritmo decimale
In alcune situazioni interessa non tanto la frequenza assoluta di ogni singola modalità,
quanto la frequenza cumulata dei casi che presentano una modalità minore di……. o
minore o uguale a …… .
Se le frequenze assolute o le frequenze cumulate vengono divise pe N, cioè il totale dei
casi, ci troviamo di fronte alle frequenze relative che, per quanto riguarda le frequenze
assolute,hanno per somma l’unità; se, infine, si moltiplicano le frequenze relative per 100 o
per 1000, si ottengono le frequenze percentuali o per mille.
Se un carattere, inoltre , è raggruppato in classi, queste possono avere ampiezze
uguali o differenti; il rapporto tra la frequenza e l’ampiezza di una classe, ci offre la densità
di frequenza .
Volendo rappresentare graficamente una distribuzione di osservazioni raggruppate in
classi, si ricorre all’istogramma che è formato da un insieme di rettangoli che hanno le basi
uguali all’ampiezza delle classi e superfici uguali o proporzionali alle frequenze: da ciò, le
altezze dei rettangoli sono uguali o proporzionali alla densità di frequenza.
3
2.
Le medie
Si possono distinguere due tipi di medie o indici di posizione:
a – medie analitiche , se vengono presi in esame tutti i valori della variabile statistica
(v.s.);
b – medie lasche , se si scelgono valori particolari della successione.
La media aritmetica ha come invariante la somma totale del carattere x1n1+ x2n2+ ….+
Xtnt che viene espressa come segue :
x =
∑ x i ni
N
dove N = Σ ni
Questa formula esprime la media aritmetica ponderata . Se le frequenze sono tutte
uguali a 1, si ottiene la media aritmetica semplice :
x =
∑ xi
N
La media aritmetica gode delle seguenti proprietà:
1 – La somma degli scarti dalla media aritmetica è uguale a 0, cioè:
Σ ( xi - x ) = 0
2 - La somma dei quadrati degli scarti dalla media aritmetica risulta essere un minimo :
Σ (xi - x )2 = minimo
4
3 - La media aritmetica, come tutte le medie analitiche, è interna (Cauchy), ossia il suo
valore è sempre compreso tra l’intensità massima e l’intensità minima della successione,
compresi gli estremi.
4 - La media aritmetica è omogenea , ovvero , se i termini di una v.s. vengono divisi o
moltiplicati per una costante, anche la media risulta divisa o moltiplicata per quella costante.
5 - La media aritmetica è traslativa , cioè se i termini di una v.s. vengono aumentati o
diminuiti di uno stesso numero, anche la media risulta aumentata o diminuita di quel numero;
6 - La media aritmetica è associativa : se i termini della v.s. vengono suddivisi in più
insiemi, la media aritmetica totale della v.s. risulta essere uguale alla media aritmetica delle
media parziali, pesate con la numerosità degli insiemi.
Se i termini di una successione vengono espressi in classi, per il calcolo della media
aritmetica si ricorre ai valori centrali di ciascuna classe.
La media geometrica ha come invariante il prodotto dei termini di una distribuzione :
x1n1 · x 2n2 · x 3n3 ·. . . . · x tnt
ed è espressa da
M g = N x1n1 x 2n2 . . . . x tnt
dove N = Σni
Anche essa è interna (Cauchy) , omogenea ed associativa , ma non è traslativa; risulta,
inoltre, meno sensibile della media aritmetica alle variazioni delle intensità più elevate.
5
La media armonica ha come invariante la somma dei reciproci dei termini della
successione :
n
n1 n2
..... t
x1 x 2
xt
ed è espressa da :
M ar =
N
n
∑ i
xi
dove N = Σni
Anche questa media è interna, omogenea, associativa,ma non traslativa..
La media quadratica ha come invariante la somma dei quadrati della v.s. :
x12 n1 + x 22 n2 + . . . . + x t2 nt
ed è espressa da :
2
Mq =
∑ x i ni
N
dove N = Σni
La media quadratica è interna, omogenea e associativa ma non è traslativa e risulta
essere più sensibile della media aritmetica alle variazioni delle intensità più elevate.
La moda è quella modalità del carattere cui corrisponde la frequenza ( o la densità di
frequenza se le classi hanno ampiezza diversa) massima: è interna, omogenea e traslativa,
ma non è associativa.
6
Un procedimento per determinare un valore approssimato della moda in una
distribuzione secondo un carattere continuo, con classi di uguale ampiezza, è il seguente: si
definisce subito la classe modale, con α si indica l’uguale ampiezza delle classi, con xc il
valore centrale della classe modale e con FMo , F1 , F2 le frequenze rispettivamente della
classe modale, della classe precedente e della classe seguente alla classe modale, ovvero:
Mo = xc +
F2 - F1
α
2 2FMo - F2 - F1
La mediana è un indice di posizione con il quale la distribuzione viene divisa in due
parti uguali.
Se il numero dei valori osservati è dispari , la mediana , come posizione, occupa il
rango (posto)
N +1
; se il numero dei valori osservati, invece, è pari la posizione della
2
mediana corrisponde alla media aritmetica dei ranghi
N
N
e ( + 1), ossia:
2
2
N N

+  + 1
2 2

Me =
2
In questo caso,la mediana risulta indeterminata, poiché si considera indeterminata la
semisomma dell’intervallo mediano corrispondente ai due elementi di separazione.
La mediana gode di una proprietà importante che viene così definita : la somma degli
scarti assoluti dalla mediana risulta essere un minimo.
I quantili ed i percentili sono indici di posizione simili alla mediana:
1 – terzili : sono in numero di due, corrispondono alle intensità che lasciano a sinistra
1 2
e
dei casi ;
3 3
2 – quartili : in numero di tre,lasciano alla sinistra rispettivamente
1 2 3
, e dei casi ;
4 4 4
7
3 – decili: in numero di nove, lasciano alla sinistra , rispettivamente
1 2
9
dei
, , ....
10 10
10
casi.
3.
I rapporti statistici
I rapporti statistici possono essere costruiti attraverso quozienti tra :
-
intensità totali o medie o tra frequenze di un unico fenomeno collettivo, relativamente a
spazio e tempo;
-
intensità totali o medie o tra frequenze di due fenomeni diversi, di cui , almeno uno
collettivo.
Tali rapporti costituiscono un metodo di eliminazione , poiché fanno sì che il risultato
prescinde dall’unità di misura del fenomeno posto al denominatore.
Si possono avere :
1 – i rapporti di composizione, cioè rapporti tra valori parziali e valori totali;
2 – i rapporti di densità che confrontano un fenomeno ad una dimensione di spazio o di
tempo (grado di affollamento nelle abitazioni,abitanti per km2, etc.) ;
3 – i rapporti di coesistenza , ovvero i rapporti tra due diversi fenomeni nello stesso posto
o di un solo fenomeno in due differenti posti (rapporto import/ export, rapporto dei sessi
alla data della nascita, etc.) ;
4- i rapporti di derivazione, ossia i rapporti che si hanno mettendo a confronto le intensità
o frequenze di un fenomeno con le intensità o frequenze di un altro fenomeno che ne
8
costituisce il presupposto logico e necessario (rapporti di natalità, mortalità,, nuzialità, etc.).
Possono essere generici o specifici:
- generico,quando il fenomeno posto al denominatore può essere considerato un
presupposto generico: es.:
- specifico:
5
es;
forza lavoro
x100 = tasso generico di attività
popolazion e
forza lavoro in età tra 40 - 41
x 100 = tasso specifico di attività
popolazion e in età tra 40 - 41
– i rapporti di durata , ovvero i rapporti tra la consistenza media di un fenomeno
valutata in un determinato periodo e la media del relativo ammontare (entrate e
uscite), sempre nello stesso periodo (durata media dei procedimenti giudiziari, durata
media delle giacenze di depositi bancari) :
(C0 + C1 )
consistenz a media del fenomeno
=
D=
media dei flussi di Entrata e di Uscita
2
(E + U )
2
dove: C0 = consistenza iniziale
C1 = consistenza finale
E = entrate
U = uscite
Si deve porre costante nel tempo, ed è questo il suo limite, considerata la consistenza del
fenomeno, così come costanti per ogni giorno del periodo considerato devono essere i flussi
in entrata.
6
– le variazioni percentuali : si ottengono rapportando l’incremento o decremento
avuto in un determinato periodo
all’intensità dello stesso fenomeno all’inizio del
periodo; si moltiplicano, generalmente, per 100 o per 1000 (variazioni percentuali
delle forze lavoro, della produzione, del reddito, etc.)
Se si ipotizzano di conoscere per i territori A e B le seguenti informazioni statisticoeconomiche :
9
Territorio A
Territorio B
Arrivi
1.030
500
Presenze
9.250
6.000
di cui presenze straniere
5.000
4.000
Posti letto
120
80
Popolazione
530
300
Imprese
50
18
Possiamo chiederci:
1) in quale dei due territori l’offerta turistica è maggiore,
2) in quale la domanda,
3) dove tra A e B la presenza è più lunga,
4) dove è maggiore l’indice di imprenditorialità,
5) dove, maggiore, è la domanda straniera.
Risposte:
1) In questo caso si utilizzerà un rapporto medio, ossia:
( Posti letto / Popolazione) · 1000
ovvero
territorio A
=
(120/530) · 1000 = 226,4
territorio B
=
(80/300) · 1000 = 266,7
2) Anche qui, si usa un rapporto medio :
10
( arrivi / popolazione )
ovvero
territorio A
=
(1.030 / 530 ) = 1,94
territorio B
=
( 500 /300 )
= 1,66
3) Il rapporto medio che qui si utilizza è del tipo
(presenze / arrivi)
ovvero
territorio A
=
(9.250 /1.030) = 8,98 giorni = 9 giorni
territorio B
=
(6.000 / 500 ) = 12 giorni
4) Qui dovrà essere usato un rapporto di derivazione, quale :
( imprese / popolazione ) · 10.000
ovvero
territorio A
=
(50 / 530) · 10.000 = 943,39
territorio B
=
(18 / 300) · 10.000 = 600,0
5) si utilizzerà, in questo caso, un rapporto di composizione, cioè:
( presenze straniere /presenze totali) · 100
ovvero
territorio A
=
(5.000 /9.250) = 54,05 %
11
territorio B
=
(4.000 / 6.000) = 66,7 %
7 – I numeri indici : possono essere temporali o spaziali, sono numeri puri, viene ovvero,
annullato l’effetto dell’ordine di grandezza. Per fenomeni elementari, i numeri indici vengono
costruiti dividendo la misura k1 di un fenomeno in un determinato tempo o luogo 1 , per la
misura k0 dello stesso fenomeno in un altro tempo o luogo 0, scelto, questo, come base .
Vengono, in generale, moltiplicati per 100 ( ma non sempre), ossia, come dire che il valore
della base è uguale a 100 ( indice del prezzo dell’olio, indice della produzione del mais, etc.)
I numeri indici possono essere a base fissa o a base mobile , se si concatenano (cioè, si
moltiplicano successivamente) gli indici a base mobile, si ottengono gli indici a base fissa.
4. Variabilità, concentrazione
La possibilità che un fenomeno possa assumere diverse modalità quantitative è
chiamata variabilità , mentre con il termine mutabilità si indica l’attitudine di un carattere
qualitativo ad assumere differenti modalità.
Per quanto riguarda ,dunque, la variabilità, come per le medie, esistono due classi di
misura: di posizione o analitiche ( o di calcolo) . Assumono, nelle prime, una certa
importanza il campo di variazione e la differenza interquartilica :
campo di variazione : differenza tra il valore massimo ed il valore minimo
xmax - xmin
differenza interquartilica : differenza tra il III˚ quartile ed il I˚ quartile
Q3 – Q1
12
Per ciò che concerne la seconda classe (analitiche) , si distinguono anche qui due tipi
di variabilità ; la dispersione e la disuguaglianza,cioè,
-
dispersione : identifica il maggiore o minore addensamento delle intensità osservate
intorno ad un valore, quale la media;
-
disuguaglianza : caratterizza tra di loro la diversità delle differenti intensità, senza
riferimento ad una media.
In tale contesto si hanno due tipi di misure:
-
scostamenti medi
-
differenze medie
1 . Gi scostamenti medi vengono costruiti calcolando gli scarti Xi – M tra i valori della v.s.,
rapportati al totale delle frequenze, I più importanti sono:
-
scostamenti semplice medio dalla media aritmetica e dalla mediana
Sx =
∑ x i - x ni
N
;
SMe =
∑ x i - M e ni
N
dove N = Σ ni
-
scostamento quadratico medio (dalla media aritmetica) (s.q.m.)
s.q.m. = σ =
2
∑ (x i - x ) n i
N
dove N = Σ ni
13
Il quadrato di questo ultimo costituisce la varianza (σ2).La somma dei quadrati degli
scarti dalla media aritmetica,, o meglio, il numeratore della varianza, si chiama devianza.
2 . Le differenze medie si ottengono facendo le differenze in valore assoluto x i - x j delle
intensità della v.s. prese due a due e sintetizzandole con la media aritmetica. Si hanno
differenze medie senza ripetizione e differenze medie con ripetizione
Tutte le misure precedentemente indicate vengono espresse in termini assoluti, ossia nella
stessa unità di misura del fenomeno preso in considerazione. Per poter confrontare
distribuzioni diverse, però, occorre ricorrere ad indici relativi di variabilità che costituiscono
numeri puri.
Se si divide, ad esempio, lo s.q,m, per la media aritmetica e lo moltiplichiamo per 100, si
ottiene il coefficiente di variazione .
C.V. =
σ
x
·100
Se si divide, inoltre, una misura assoluta per il suo massimo, si hanno misure relative
che sono , anche loro, numeri puri e normalizzati ( valutati, cioè, tra 0 e 1).
Un altro importante aspetto della variabilità, per caratteri trasferibili, è la
concentrazione.
Se si indicano le variabilità ausiliare
-
pi = frequenze cumulate relative;
-
qi = intensità cumulate relative al totale
con esse si può costruire la curva di Lorenz . Per ciò che riguarda il calcolo della
concentrazione, si possono usare :
14
a)
l’indice o rapporto del Gini:
N −1
∑ (pi - q i )
R =
i =1
N −1
∑ pi
i =1
b)
la formula dei trapezi
N −1
R * = 1 - ∑ (pi +1 - pi )(q i +1 + q i )
i =1
Entrambi variano tra 0 e 1.
5
L’interpolazione statistica
N coppie di valori osservati (Xi ;Yi) esprimono una funzione statistica : dal punto di
vista grafico, questa è espressa da una spezzata o da un istogramma; la corrispondenza tra
X e Y può essere una distribuzione di frequenze, una serie cronologica, etc.
L’interpolazione , in senso stretto, significa inserire uno o più dati tra gli altri già noti: i
“buchi” nelle osservazioni vengono riempiti con il calcolo dei valori ignoti.
Se siamo in presenza di una serie di dati privi di errore , si fa allora riferimento
all’interpolazione per punti o interpolazione matematica , ovvero
a) viene scelta una funzione teorica che meglio si adatti a descrivere il legame tra due
variabili;in generale, si trova un polinomio di grado uguale al numero delle coppie
meno 1; si può scegliere, comunque,
una qualsiasi funzione, purché rispecchi
l’andamento empirico espresso sul grafico;
b) l’obbligo di far passare la funzione per quei punti (Xi ;Yi) e , dunque, nel comporre un
sistema di tante equazioni quanti sono i parametri e i punti; nel risolvere tale sistema,
si trovano i valori incogniti dei parametri.
15
Se, al contrario , almeno Y risulta affetta da errori con X predefinita siamo in presenza
dell’interpolazione tra punti o interpolazione statistica : il numero dei parametri della
funzione rappresentatrice è, in generale, inferiore a quello delle coppie disponibili dalle
osservazioni. Per trovare i parametri, esistono diversi metodi, ma in questo contesto, si
considerano solo i seguenti.
In primo luogo,si fa riferimento ad un polinomio di grado x < s del tipo
y* = β0 + β1x + β2x2 + . . . . . + βsxs
dove y* sta ad indicare che il valore della intensità o frequenza che si ottiene sostituendo alla
x la modalità osservata del carattere, è un valore teorico , ossia ottenuto approssimando la
legge statistica con una legge matematica nota.
1 – metodo delle somme; si suddivide la distribuzione in tante subdistribuzioni quanti sono i
parametri della funzione scelta ed imporre per ciascuna di esse, quanto segue
somma dei valori teorici = somma dei valori osservati
I
valori
teorici
vengono
trovati
in
funzione
dei
parametri,
sostituendo,materialmente,nella funzione, al posto della variabile indipendente X, i valori del
carattere presenti in successione nella tabella dei risultati dell’indagine in oggetto. Si ottiene
un sistema di tante equazioni lineari quanti sono i parametri.
2 – metodo dei minimi quadrati : si pone la condizione che la somma dei quadrati degli
scarti tra valori teorici dati dalla funzione scelta e i valori osservati sia minima. Se la funzione
interpolatrice è
y* = f (x; β0 , β1 , β2 , . . . . . )
il metodo dei minimi quadrati suggerisce che :
G (β0 , β1 , β2 , . . . .) = Σ ( y *i - yi)2 =
16
2
n
= ∑ [f (x i ; β 0 , β1 , β 2 , . . . ) - y i ] = minimo
i =1
dove y* , i = 1,2, . . . n, sono i valori teorici, mentre yi , i = 1,2, . . .n , sono i valori osservati
dalla variabile Y.
Lo scopo dell’interpolazione statistica può essere perequativo (eliminazione o
riduzione delle fluttuazioni dovute a errori di tipo casuale o ad altre cause di disturbo),
extrapolativo (valutazione dell’ordine di grandezza della variabile Y anche fuori dal campo
di osservazione della variabile X) e investigativo ( quando la funzione scelta sia sufficiente
per esprimere, almeno in prima approssimazione, la legge statistica che governa il fenomeno
oggetto di studio.
6.
Relazioni statistiche
Le relazioni statistiche sono lo studio di legami tra due o più fenomeni, di cui uno sia
collettivo. Se siamo in presenza di due soli fenomeni X e Y, la rilevazione offre N coppie (xi ,
yi) di informazioni, di cui yi rappresenta le modalità del carattere statistico e Xi quelle della
circostanza corrispondente. In generale,quando si è in questa situazione, i dati vengono
presentati sotto forma di una tabella a doppia entrata.
I caratteri che in una distribuzione doppia vengono distinti, sono quelli di indipendenza,
dipendenza e interdipendenza che possono essere così descritti:
1)
In una tabella a doppia entrata, si dice che tra due caratteri vi è indipendenza
assoluta se per ogni determinazione di xi di X, le distribuzioni parziali e marginali
di Y sono somiglianti (e viceversa), cioè se le frequenze relative non variano. Se,
dunque, ni
j
, ni . , n
. j
, n
sono rispettivamente le frequenze della generica
combinazione ( xi , yi ) della colonna ima, della riga jma e la frequenza totale, deve
essere
17
ni j =
ni . n. j
n
Se ciò non si verifica per tutte le colonne della tabella a doppia entrata, il grado
di dipendenza assoluta si ottiene calcolando, prima le frequenze teoriche ni' j di
ciascuna casella nell’ipotesi di indipendenza, poi si ricavano le cosiddette
contingenze , cioè la differenza ni j - n'i j , ossia tra le frequenze effettive e le
frequenze teoriche, e, dunque, si possono utilizzare uno dei seguenti indici :
χ
Φ2 =
2
χ2
N
(n
=∑
ij
- n'ij
)
2
(chi-quadrato)
n'ij
(indice di contingenza quadratico medio)
=
V=
Φ2
=
min [(r - 1); (c - 1)]
χ2
n min [(r - 1); (c - 1)]
(indice normalizzato di Cramer)
(dove r e c indicano il numero delle colonne e delle righe)
2) Se Y è quantitativo e se si calcola, per ogni modalità xi, la media condizionata
y
,
xi
della relativa distribuzione parziale o condizionata, si ha indipendenza in media
di Y su X, quando le medie parziali non variano.
3) Nelle variabili statistiche doppie, dove entrambi i caratteri sono quantitativi, o
qualitativi, comunque riconducibili a caratteri quantitativi, l’analisi della dipendenza
o dell’interdipendenza si ottiene attraverso la funzione di regressione e gli indici
di correlazione. Se la funzione di regressione è lineare si ha la retta di
regressione
Y * = β0 + β yx X
alla quale si associa, se anche X è un carattere statistico, una seconda retta
18
X * = β0' + β xy Y
I parametri delle rette di regressione si ottengono con il metodo dei minimi
quadrati. Se si utilizzano gli scarti dalla media aritmetica, xi = Xi - X e yi = Yi - Y ,
le equazioni delle rette di regressione, si riducono a :
y i* = β yx x
x *i = β xy y
;
e con il metodo usato si giunge alla determinazione dei parametri :
β yx =
σ xy
∑ xi y i
= 2
2
σx
∑ xi
β xy =
dove:
∑ x i y i = codevianza
;
σ xy
∑ xi y i
= 2
2
σy
∑yi
e
σxy = ∑ x i y i / N = covarianza
L’interdipendenza fra i caratteri X e Y, che costituiscono la variabile doppia, si
calcola con l’indice o coefficiente di correlazione di Bravais - Pearson che
varia tra -1 e +1 :
r =
σ xy
∑ xi y i
=
2
2
σx σy
∑ xi • ∑ y i
19
che può essere espresso, anche, come media geometrica dei due coefficienti di
regressione lineare:
r = ± β yx β xy
Un indice, infine, che esprime la bontà dell’interpolazione lineare è l’indice di
determinazione:
R2 =
devianza di regression e
devianza totale
= 1-
devianza residua
devianza totale
Questo ultimo varia tra 0 e 1 e offre una misura di adattabilità del modello lineare
ai dati osservati e, dunque, la frazione di variabilità di Y spiegata dall’effetto
lineare
della X; è uguale, in termini numerici, al quadrato del coefficiente di
correlazione.
Se, inoltre, due caratteri non sono rigorosamente quantitativi, ma sono ordinabili
in senso crescente e ad ogni valore dell’uno e dell’altro si può attribuire un rango,
ossia un numero d’ordine, si può allora verificare l’esistenza di una dipendenza
dei ranghi ( o dipendenza monotòna) o correlazione tra ranghi usando l’indice
di cograduazione di Spearman:
rrango = 1 -
dove
6∑ D2
(
N N2 -1
)
D = differenze tra i numeri d’ordine di corrispondenti valori di X e Y
N = numero di coppie di valori (X,Y) formate con i dati.
20
7. Probabilità e variabili casuali
In un esperimento aleatorio ( casuale) possono essere possibili diversi risultati (eventi)
e, a “ priori” , il risultato è incerto.
Un evento casuale che può essere distinto in eventi elementari (semplici) è un evento
composto; due o più eventi si dicono incompatibili se il verificarsi di uno qualunque di essi,
esclude il verificarsi degli altri nella stessa prova. Vengono detti necessari se in ogni prova
almeno uno di essi deve verificarsi. Ovviamente , se gli eventi in esame sono incompatibili e
necessari, allora in ogni prova uno ed uno solo di essi deve verificarsi,
La maggiore o minore aspettativa che si possa verificare un evento aleatorio (E) ( il cui
verificarsi è incerto) si dice probabilità e può essere indicata da un numero detto probabilità
dell’evento E, espresso con p = P(E), variabile tra 0 e 1. Se l’evento è impossibile, allora p =
0, mentre se l’evento è certo p = 1.
Gli eventi E1, E2, . . . En , si dicono indipendenti tra loro quando il verificarsi di uno di
essi non ha alcuna influenza sulla probabilità di verificarsi degli altri e, viceversa, sono
dipendenti quando il verificarsi di uno di essi influisce sulla probabilità di verificarsi degli
altri..
La probabilità, dunque, è un numero che si attribuisce all’evento E per definire il grado
di attesa circa il suo verificarsi.
Secondo il tipo di approccio, esistono diverse definizioni di probabilità.
1) approccio classico ( o di Laplace) la probabilità è così definita:
P(E) =
n. dei casi favorevoli ad E
n. dei casi possibili
2) approccio frequentistico o statistico ( von Mises) : la probabilità è legata alla
legge dei grandi numeri o alla legge empirica del caso , dove si osserva che la
frequenza relativa di un evento presenta, all’aumentare delle prove, con
una
regolarità statistica, una tendenza verso un valore costante che si identifica con la
probabilità;
21
3)approccio soggettivo (de Finetti): la probabilità trae origine dal gioco d’azzardo ed
esprime il grado di fiducia che un individuo coerente, sulla base delle informazioni di
cui si dispone, attribuisce al verificarsi di un evento,
Si hanno due principi fondamentali sulla probabilità degli eventi:
a) principio delle probabilità totali, con il quale la probabilità dell’evento unione di
due eventi E1U E2 ( dove U si legge o), è uguale alla somma delle loro probabilità, se
sono eventi incompatibili; viceversa, se sono eventi compatibili, occorre sottrarre la
probabilità dell’evento intersezione E1∩ E2 ( dove ∩ si legge e):
P(E1U E2) = P(E1) + P(E2)
ovvero
P(E1U E2) = P(E1) + P(E2) - P(E1∩ E2)
b) principio delle probabilità composte, in base al quale l’evento intersezione di
due eventi E1∩ E2
è uguale al prodotto delle loro probabilità,
se sono eventi
indipendenti :
P(E1∩ E2) = P(E1) · P(E2)
Se sono dipendenti, si ha :
P(E1∩ E2) = P(E1) · P(E2/ E1)
22
dove P(E2/ E1) è conosciuta come la probabilità di E2 condizionata al verificarsi di E1.
Una variabile casuale discreta è una variabile X che assume determinati valori x1, x2,
. . . xn, con probabilità rispettivamente p1, p2, . . . . pn, dove gli eventi associati ai risultati x1,
x2, . . . xn sono necessari, per cui Σ pi = 1
La funzione p(xi) che fa corrispondere ad ogni xi la sua probabilità, si definisce
funzione di massa o legge di probabilità della variabile casuale discreta,
La funzione F(x), cioè
F(x) = p(x1) + p(x2) + . . . . + p(xr)
r≤n
viene detta funzione di ripartizione che esprime la probabilità che la v.c. assuma valori
inferiori o uguali ad un valore prefissato.
Per una v.c. discreta si definiscono :
1) il valore medio
E(X) = µ = Σ (xi) p(xi)
2) la varianza:
E(X - µ)2 = σ2 = Σ (xi - µ)2 p(xi)
3) lo scarto quadratico medio (s.q.m)
σ=
∑ (xi - µ)2 p(xi)
La legge di probabilità di una variabile casuale continua è data da una funzione
matematica p(xi), definita in un intervallo finito o infinito (a,b) detta funzione di densità di
23
probabilità, ovvero: p(x)dx
esprime la probabilità che la variabile assuma un valore
compreso tra x e x + dx :
x2
P (x1 ≤ x ≤ x2 ) =
∫
p(x)dx
x1
E’ naturale che per una v.c. continua si ha :
1) il valore medio ;
b
E(X) = µ =
∫ x p(x) dx
a
2) la varianza :
b
∫
E (X - µ )2 = σ2 = (X - µ )2 p(x) dx
a
Tra le v.c. occorre citare:
a) la variabile di Bernoulli (discreta) che trae origine dal problema delle prove ripetute. Se
si analizza un esperimento casuale dove l’evento E ha la probabilità p di verificarsi e la
probabilità q = 1 – p di non verificarsi, effettuando n prove, possono aversi
x = 1, 2, . . . . n successi
le cui probabilità dipendono dai termini dello sviluppo del binomio di Newton :
p(x) =
p x (1 − p)n - x
24
Se interessa la probabilità di ottenere una sequenza di successi, indipendentemente
dall’ordine con cui tali risultati si presentano, si dovrà calcolare la probabilità della coppia n =
n 
(x, n-x) addizionando tutte le probabilità delle   ( coefficiente binomiale) sequenze del tipo
x
considerato, ottenendo
n
P(x) =   px (1 – p)n – x ,
x
0 < ns
 
0 ≤ x ≤ ns
nota come la distribuzione bernoulliana binomiale
Il valor medio e la varianza della distribuzione precedente sono dati da :
E(X) = np
Var.(X) = σ2 = np(1 – p) o = npq
b) la variabile normale o gaussiana ( continua) ha la seguente funzione di densità :
p(x) =
1
σ 2π
e
-
(x - µ )2
2σ2
di parametri µ e σ2, che può essere ricondotta alla forma standardizzata (v.c.
standardizzata)
p(z) =
1
2π
e
-
1 2
z
2
di media µ = 0 e varianza σ2 = 1, ottenuta attraverso la trasformazione (scarto
standardizzato)
z=
x− µ
σ
25
8.
Il campionamento e teoria della stima
La forma più elementare di campionamento è rappresentata dal campione casuale
semplice , dove la probabilità di estrazione è sempre la stessa per ogni elemento. Si può
avere una estrazione con ripetizione (bernoulliana)
e estrazione senza ripetizione
(esaustiva).
I campioni possono essere ordinati (quando l’ordine di estrazione è essenziale) e non
ordinati. L’insieme di campioni di un’ampiezza data n che si possono estrarre da una
determinata popolazione di numerosità N , attraverso una predeterminata procedura
casuale, costituisce l’universo dei campioni .
Un aspetto fondamentale dell’inferenza statistica è quello relativo alla teoria della stima
statistica di un parametro ϑ della popolazione. La stima può essere effettuata :
in modo puntuale, usando un opportuno stimatore o formula, il cui valore, ricavato dai dati
del campione estratto, ci offre la stima di ϑ̂ . A tale stimatore possibilmente si richiede di
essere:
1)
corretto ( il valor medio delle stime campionarie ottenute da tutti i possibili
campioni dell’universo di partenza, deve coincidere con il valore del parametro da
stimare);
2)
efficiente (la distribuzione delle stime campionarie che ci fornisce, non deve
avere una variabilità rilevante),
3)
consistente (( al crescere di n , la stima del parametro deve tendere al valore del
parametro nella popolazione),
4)
sufficiente (deve utilizzare tutte le informazioni offerte dal campione.
per intervallo, si fa riferimento a due valori come estremi di un intervallo entro il quale, con
una certa probabilità (livello di confidenza), cade il valore del parametro incognito.
26
Se si vogliono ottenere stime per intervallo è necessario utilizzare la distribuzione
campionaria delle stime: Se questa è conosciuta, una volta stabilita una probabilità α, è
possibile scegliere in quale intervallo può verificarsi la doppia limitazione
ϑ - t ≤ ϑˆ ≤ ϑ + t
Se si sottrae ϑ + ϑ̂ dai termini della disuguaglianza e cambiando il verso, si ottiene
l’intervallo fiduciario
ϑˆ - t ≤ ϑ ≤ ϑˆ + t
che varia al variare del campione e, dunque, della stima ϑ̂ ; una percentuale di intervalli
pari ad α avranno al loro interno il parametro ϑ .
Se si considera un solo parametro µ, media aritmetica della popolazione,, si ha:
1
∑ x i (media aritmetica), esso è corretto,
n
1)
utilizzando lo stimatore
2)
la varianza della distribuzione campionaria delle stime µ̂ è:
σ µ̂2 =
σ µ̂2 =
3)
σ2
n
σ2 N - n
n N -1
ipotesi di estrazione con ripetizione;
ipotesi di estrazione senza ripetizione.
se la popolazione è distribuita normalmente, la distribuzione campionaria delle
stime è normale,
4)
se la popolazione non è distribuita normalmente, la distribuzione campionaria
delle stime non è normale, ma tende alla normalità al crescere dell’ampiezza del
campione ( teorema del limite centrale) ,
27
5)
se la varianza della popolazione è nota, lo scarto standardizzato
X -µ
σ
X -µ
ovvero
σ
n
n
N-n
N -1
si distribuisce secondo una normale standardizzata quando la popolazione
originaria è distribuita normalmente; si distribuisce sostanzialmente secondo una
normale standardizzata quando la popolazione originaria non è distribuita
normalmente, ma il campione è sufficientemente numeroso (> 30 – 50 unità),
6)
se la varianza
della popolazione non è nota, usando la sua stima corretta
(secondo Bessel) tratta dal campione,
∑ (xi - µ̂ )
S =
2
2
n -1
lo scarto standardizzato
X -µ
S
S
n
si distribuisce secondo una
X -µ
ovvero
n
N-n
N -1
“ t “ di Student se la popolazione è distribuita
normalmente e se il campione è piccolo; se il campione è grande, lo scarto si
distribuisce sostanzialmente secondo una normale standardizzata anche se la
popolazione non è distribuita normalmente.
28