UNITA’ -> oggetti a cui si interessa la ricerca. L’insieme delle unità costituisce la POPOLAZIONE / collettivo /
universo
Mediante la DEFINIZIONE OPERATIVA
o
o
Si passa dalle UNITA’ ai CASI
Si passa dalle PROPRIETA’ alle VARIABILI (i casi devono presentare almeno due stati delle proprieta)
 Attraverso delle operazioni canoniche
 Classificazione
Creazione di un determinato numero di classi di equivalenza nel rispetto delle
condizioni di esaustività e esclusività.
 Ordinamento
Come la classificazione dà origine a una partizione del dominio di una proprietà, le
categorie individuate godono oltre che della relazione di equivalenza, della
relazione d’ordine, non è però possibile quantificare la distanza tra le categorie
 Misurazione
Presuppone l’esistenza di una unità di misura alla quale rapportare l’ammontare di
proprietà posseduta da ciascun caso
 Conteggio
Enumerazione degli oggetti posseduti, è possibile quando la proprietà è pensabile
come quantità discreta
A seconda delle operazione compiute vengono generati diversi tipi di variabili
CLASSIFICAZIONE DEI LIVELLI DI SCALA DI STEVENS
Una variabile o una scala di misura è un sistema che mette in corrispondenza gli stati di oggetti su
determinate proprietà e i numeri reali =>
< SE,f,SN>
SE è un sistema relazionale empirico, SN un sistema relazionale numerico e f è la funzione che fa
corrispondere a ogni elemento di SE uno e uno solo degli elementi di SN.
Per ogni SE possono esistere più rappresentazioni numeriche
Trasformazione ammissibile : se α è un SE rappresentato dal SN β; una trasformazione dei valori di scala
f’(a)= T[f(a)] è detta ammissibile se anche f’(a) è una rappresentazione del SE α attraverso SN β

(SCALA NOMINALE)
variabili categoriali
Un SE composto da elementi su cui è possibile definire solo relazioni di uguaglianze e
diseguaglianza, viene rappresentato da un SN attraverso una funzione di corrispondenza che
assegna lo stesso numero agli stati uguali e un numero diverso agli stati differenti (i numeri hanno
solo funzione di etichette)
Trasformazione ammissibile => transcodifica o corrispondenza biunivoca y’ = t(y)
tale che se yi = yj => y’i = y’j e se yi ≠ yj => y’i ≠ y’j
 SCALA ORDINALE
variabili ordinali
Quando sul SE è definita la relazione di maggiore o minore, oltre a quella di uguaglianza, la scala
che ne deriva dalla sua rappresentazione numerica è detta scala ordinale.
Le distanze tra i “pioli” della scala non sono però costanti o quantificabili esattamente
Sono ammesse tutte le trasformazioni che non alterano l’ordine tra le modalità
Trasformazione ammissibile => trasformazioni isotoniche (monotone strettamente crescenti)
y’=m(y)
tale che se yi < yj => y’i < y’j e se yi = yj => y’i = y’j
 SCALA DI INTERVALLI
variabili cardinali
Un SE sul quale è possibile definire una relazione di uguaglianza degli intervalli tra gli stati di una
proprietà dà origine a una scala di intervalli, entriamo nel mondo della misurazione propriamente
detta. Il nostro sistema di rilevazione è dotato di un’unità di misura (convenzionale), garantita dalla
costanza degli intervalli. Lo 0 della scala è però convenzionale
Poiché l’aggiunta di una costante non altera la differenza tra i valori della scala è anche ammessa
anche la traslazione ( non varia il rapporto tra gli intervalli)
Trasformazioni ammissibili => trasformazioni lineari (affini) y’= my+a con m > 0
 SCALA DI RAPPORTI
variabili caridnali
Quando nel SE è definita oltre alla relazione di uguaglianza degli intervalli anche l’uguaglianza dei
rapporti, la sua rappresentazione numerica è detta scala di rapporti.
Esiste uno 0 assoluto, che sta a indicare l’assenza di proprietà
Trasformazioni ammissibili => trasformazioni di similarità
y’= my
con m > 0
I quattro tipi di scala individuati da Stevens stanno a una precisa gerarchia: la scala nominale rappresenta il
livello più basso, sono poche le relazioni matematiche definite nel SN; la scala di rapporti è invece il livello
più alto poiché a questo livello la variabile gode di tutte le proprietà dei numeri reali.
Rispetto alle trasformazioni ammissibili, più il livello di scala è basso più le funzioni sono generali, sono
minori cioè i vincoli per passare da una rappresentazione numerica a un’altra. Salendo la gerarchia delle
scala la natura delle funzioni si fa più restrittiva
Altri esempi di scale
 Scale assolute
variabili cardinali
Non si hanno unità di misura, ma di conto (ad esempio libri, figli, reati,….)
 Variabili di tipo Likert
Variabile che presenta solitamente cinque o sette modalità ordinate che esprimono gradi di
accordo con una certa affermazione
 Scale auto ancoranti
La variabile presenta etichette verbali soltanto alle due modalità estreme
La scale di intervalli, di rapporti e assolute sono accomunate dalla presenza di un’unità di misura o di conto
e di conseguenza dal fatto che i valori numerici che esse assumono godono di tutte le proprietà dei numeri
cardinali. È consuetudini riferirsi a questa famiglia di variabili col nome di VARIABILI CARDINALI
Concetto di STATISTICA IDONEA
Una statistica è idonea per un determinato livello di scala se e soltanto se il suo risultato è invariante per il
tipo di trasformazione ammissibile per quel livello di scala. L’invarianza può essere di tre tipi:
1. Invarianza assoluta
Se f[t(y)] = f(y)
Il risultato della statistica è il medesimo sia sui dati di partenza, sia su quelli sottoposti a una
trasformazione ammissibile
2. Equivarianza (o invarianza di riferimento)
Se f[t(y)] = t[f(y)]
La funzione che consente il passaggio dalla statistica sui dati di partenza al risultato della medesima
sui dati trasformati è la trasformazione ammissibile t
3. Ortovarianza (o invarianza di confronto)
Se f[t(y)] = g[f(y),t]
La statistica sui dati trasformati è esprimibile attraverso una funzione g (diversa da t) che dipende
esclusivamente da f(y) e dai parametri della trasformazione (t)
Esempio: deviazione standard applicata a una scala di intervalli
MATRICI DI DATI
Possiamo distinguere le matrici in base a:
 Il numero di vie, cioè il numero di entrate della matrice
 Il numero di modi, cioè il numero di famiglie di entità distinte a cui il dato rimanda
 Il condizionamento, una matrice a due vie è
o Unconditional se consente confronti tra celle sia per riga che per colonna
o Row conditional se autorizza soltanto confronti entro le righe
o Column conditional se consente confronti soltanto entro le colonne
MATRICE CxV (caso x variabile)-> matrice in cui le colonne rappresentano le variabili, le righe
rappresentano i casi
STATISTICA DESCRITTIVA MONOVARIATA
Insieme degli strumenti statistici che permettono di rispondere a domande relative a una singola variabile
DISTRIBUZIONE SEMPLICE DI FREQUENZE: modo di organizzare i dati di una matrice CxV che affianca a ogni
modalità della variabile in esame la frequenza con cui essa si è manifestata nel collettivo
=> compressione dei valori, da un insieme di N valori passiamo a un insieme di K valori (tanti quanti sono il
numero delle modalità della variabile)
 Variabile categoriale
 Variabile ordinale
 Variabile cardinale
->
->
->
serie sconnessa di frequenze
serie ordinata di frequenze
seriazione di frequenze
Serie sconnessa di frequenze
Dato un collettivo di N unità e una variabile X che può assumere due modalità x1 e x2, possiamo organizzare
le nostre osservazioni in un vettore di una matrice CxV. Se contiamo quanti soggetti presentano la
modalità x1 e quanti la x2 e disponiamo i dati ottenuti in una tabella otteniamo una tabella di frequenze
semplici.
 Frequenze relative -> n
I valori n1 e n2 rappresentano le frequenze assolute con cui compaiono rispettivamente le modalità x1 e x2.
La somma delle frequenze assolute delle modalità è uguale alla numerosità del collettivo, ovvero
𝐾
∑ 𝑛𝑘 = 𝑁
= n1 + n2 + … + nk = N
𝑘=1
dove k rappresenta una generica modalità e K indica il numero delle modalità della variabile
 Frequenze relative -> f
per confrontare due variabili è necessario eliminare l’effetto dell’ampiezza del collettivo => è sufficiente
dividere ciascuna frequenza assoluta per il numero complessivo dei casi.
𝑛𝑘
𝑓𝑘 =
𝑁
𝐾
∑ 𝑓𝑘 = 1
𝑘=1
In termini formali le frequenze relative sono date dal rapporto tra le frequenze assolute di ciascuna
modalità (n) e la numerosità del collettivo
 Frequenze percentuali -> q
È sufficiente moltiplicare per 100 le frequenze relative. Se indichiamo con qk la frequenze percentuale di
una generica modalità abbiamo
𝐾
𝑞𝑘 = 𝑓𝑘 ∗ 100
∑ 𝑞𝑘 = 100
𝑘=1
Rappresentazione grafica =>
o
o
Diagramma a barre:
rettangoli aventi tutti la stessa base e un’altezza proporzionale alla frequenza con xui la
modalità si è presentata nel collettivo
Diagramma a torta (preferibile):
vengono riportati tanti settori quante sono le modalità e l’area di ciascun settore è
proporzionale alla frequenza della modalità corrispondente [α= 360° nj/N]
Serie ordinata di frequenze
Oltre a tutti i tipi visti in precedenza per questo tipo di variabili possiamo avere anche le
 Frequenze cumulate -> n’, f’, q’
Se a fianco di ogni modalità riportiamo il numero di soggetti che rientrano nella modalità stessa otteniamo
delle frequenze cumulate. Queste possono essere calcolate per le frequenze assolute, relative e percentuali
𝑛𝑘′ = 𝑛1 + 𝑛2 + … + 𝑛𝑘
𝑓𝑘′ = 𝑓1 + 𝑓2 + … + 𝑓𝑘
𝑞𝑘′ = 𝑞1 + 𝑞2 + … + 𝑞𝑘
Le frequenze retro cumulate si ottengono invece partendo dalla modalità più alta (indicate con n’’, f’’, q’’)
Rappresentazione grafica =>
o
o
Istogramma :
i rettangoli sono accostati uno all’altro per sottolineare la contiguità tra le categorie
Spezzata a gradini (per le frequenze cumulate):
sull’asse delle ascisse vengono riportate le diverse modalità, sull’asse delle ordinate le
frequenze cumulate
Seriazione di frequenze
È necessario raggruppare preliminarmente i dati in classi, in modo tale da avere poche modalità, ognuna
rappresentata da un certo numero di soggetti. Ogni classe è individuata attraverso il valore minimo e
massimo in essa inclusi, ossia attraverso i suoi limiti.
Per calcolare l’ampiezza della classe* è sufficiente fare la differenza tre il limite superiore e il limite
superiore e aggiungervi un’unità. I limiti veri delle classi si ottengono togliendo 0.5 al limite inferiore della
classe e aggiungendo 0.5 al limite superiore
Rappresentazione grafica =>
o
Istogramma:
la base dei rettangoli è proporzionale all’ampiezza della classe e l’altezza rappresenta la
densità di frequenza (dk)
𝑛𝑘
𝑑𝑘 =
𝑎𝑘
Dove ak rappresenta l’ampiezza* della k-esima classe (calcolo tramite i limi veri)
o
o
Quello che viene rappresentato sull’asse delle ordinate è così il numero di osservazioni per
ogni sottoclasse di ampiezza unitaria, mentre la frequenza della classe è rappresentata
dall’area del rettangolo
Quando tutte le classi hanno uguale ampiezza sulle ordinate è indifferente riportare le
densità di frequenza o direttamente le frequenze.
Poligonale di frequenze
Si ottiene partendo da un istogramma, congiungendo con una spezzata i valori centrali
delle basi superiori di ciascuna classe (utile quando si devono confrontare le distribuzioni di
due o più collettivi riferite alla medesima variabile)
Quando il collettivo è molto ampio e le classi hanno un’ampiezza molto piccola la
poligonale tende a assume l’aspetto di una curva continua => curva di Gauss
Ogiva (per le frequenze cumulate)
Poligonale usata per frequenze cumulate di variabili cardinali
OPERATORI MONOVARIATI
Dispositivi che sintetizzano la distribuzione di una variabile in uno scalare (un numero). Si possono
distinguere tre principali classi di operatori monovaratiati:
o
o
o
Operatori di tendenza centrale
Restituiscono uno scalare che esprime sinteticamente come si è manifestata la proprietà in
esame nel collettivo considerato; deve rispettare il criterio di internalità (valore compreso
tra quelli che la variabile può assumere)
Operatori di dispersione
Restituiscono uno scalare che informi circa la diversità esistente tra le osservazioni,
valutano quanto il valore di tendenza centrale è rappresentativo
Indici di forma
Utilizzabile per le variabili cardinali, si dividono in operatori che valutano la simmetria della
distribuzione e operatori che valutano quanto una distribuzione simmetrica e unimodale è
simile a una curva normale
Operatori di tendenza centrale e altri operatori di posizione
 MODA
Quando una variabile è categoriale l’operatore di tendenza centrale adeguato a rappresentare la
distribuzione è la moda, ovvero la modalità più ricorrente nella variabile.
In una distribuzione possono essere presenti più mode (d. bimodale).
La moda può essere calcolata anche per variabili ordinali e cardinali (se la seriazione di frequenze riguarda
dati raggruppati in classi non della stessa ampiezza, per determinare la moda è necessario considerare la
densità di frequenza delle diverse classi e non la frequenza assoluta)
 MEDIANA
Per le variabili ordinali si dispone di un ulteriore misura di tendenza centrale, la mediana.
Quando l’ampiezza del collettivo (N) è un numero dispari, la mediana è la modalità a cui appartiene quel
caso (= caso mediano -> CMdn) che divide esattamente a metà la distribuzione
𝐶𝑀𝑑𝑛 =
(𝑁+1)
2
possiamo indicare la mediana come:
𝑀𝑑𝑛 = 𝑥(𝑁+1)⁄2
Per calcolare la mediana è necessario: ordinare le modalità in ordine crescente, calcolare le frequenza
assolute cumulate (f’), osservare in quale modalità cade il soggetto mediano.
Quando N è un numero pari abbiamo due casi mediani, rispettivamente in (N/2)-esimo e il (N/2 +1)-esimo
Quando si hanno variabili cardinali la mediana è data da:
𝑥𝑁/2 + 𝑥𝑁⁄2+1
2
se N è par e da
𝑥𝑁+1
2
se è dispari
 MEDIA
Data una variabile cardinale X contenente valori x1, x2, …. , xN la media aritmetica è:
𝑁
1
𝑥̅ =
∑ 𝑥𝑖
𝑁
𝑖=1
La media si ottiene quindi sommando tutti i valori di X (da 1 a N) e dividendo tale somma per il numero dei
casi. La media aritmetica gode di importanti proprietà:
la somma algebrica degli scarti dei valori xi dalla loro media aritmetica è uguale a 0
la somma algebrica dei quadrati degli scarti dai valori xi dalla loro media è minima
∑𝑁
𝑖=1(𝑥𝑖 − 𝑥̅ ) = 0
𝑁
∑𝑖=1(𝑥𝑖 − 𝑥̅ )2 = 𝑚𝑖𝑛
talvolta al posto della media aritmetica semplice si ricorre alla media aritmetica ponderata:
∑𝑁
𝑖=1 𝑥1 𝑤1
𝑥̅𝑝 =
𝑤1 + 𝑤2 + ⋯ + 𝑤𝑛
Dove xi rappresenta il valore assoluto dall’i-esimo caso e wi rappresenta il peso ad esso attribuito e N il
numero dei casi .
Per calcolare la media su dati raggruppati in classi:
𝐾
1
𝑥̅ = ∑ 𝑥𝑘 𝑛𝑘
𝑁
𝑘=1
Dato che nk/N = fk possiamo anche scrivere:
𝐾
𝑥̅ = ∑ 𝑥𝑘 𝑓𝑘
𝑘=1
Dove xk rappresenta il valore centrale della generica classe k e nk e fk rispettivamente la sua frequenza
assoluta (n) e relativa (f), mentre K è il numero di classi
Per capacità informativa di un operatore intendiamo la sua capacità di sfruttare tutte le proprietà dei
numeri cardinali possedute da una variabile almeno a livello di scala di intervalli. Media moda e mediano
possono essere poste in una precisa gerarchia rispetto alla loro capacità informativa: la mediana è più
informativa della moda poiché considera anche l’ordine tra le osservazioni, mentre le più informativa è la
media che considera anche la distanza tra le osservazioni.
Va tenuto presente che però la media è sensibile alla eventuale presenza di valori anomali (outliers).
Se chiamiamo robustezza la proprietà di essere poco sensibile ai valori anomali, possiamo affermare che la
media è la meno robusta delle tre. La mediana è più robusta della media e la moda è più robusta della
mediana. Per questo quando in una variabile cardinale si sospetta la presenza di valori anomali è preferibile
ricorrere alla mediana.
 QUANTILI
È possibile suddividere una distribuzione in più parti uguali, originando quelli che vengono definiti quantili o
operatori di posizione.
I quantili vengono detti quartili quando suddividono la distribuzione in quattro parti uguali. Il I quartile è la
modalità della variabile che lascia alla sua sinistra il 25% dei casi e alla sua destra il 75%. Il secondo quartile
coincide con la mediana, il terzo quartile lascia alla sua sinistra il 75% dei cari e alla sua destra il 25%.
Calcolo dei quartili:



Q1= (N + 1) / 4
Q2 = 2(N + 1) / 4 = (N + 1) / 2
Q3 = 3 (N + 1) / 4
Operatori di dispersione
Consentono una quantificazione del grado di rappresentatività di un particolare operatore di tendenza
centrale.
Per le variabili categoriali si parla mutabilità per indicare la dispersione di una distribuzione (omogenea o
eterogenea). Per variabili ordinali e cardinali si parla invece di variabilità (variabilità non metrica per le
ordinali e metrica per le categoriali).
Per ciascun tipo di variabile è possibile distinguere tra operatori che restituiscono valori assoluti e che
restituiscono valori relativi.
MUTABILITA’
Per variabili categoriali. Data una variabile di K modalità, la massima omogeneità si ha nel caso in cui una
solo modalità ha frequenza assoluta pari a N; la massima eterogeneità quando ciascuna modalità ha la
stessa frequenza, pari a N/K
Si utilizza la mutabilità di Gini:
𝐾
𝐸1 = 1 − ∑ 𝑓𝑘2
𝑘=1
Ovvero la differenza tra l’intero e la somma di tutte le frequenze relative delle varie modalità della variabile
elevate al quadrato. Questa misura assume valore minimo uguale a 0 quando tutti i casi sono addensati in
una sola modalità, mentre assume valore massimo paria (K-1)/K quando i soggetti sono equamente
distribuiti nelle K modalità.
La mutabilità di Gini è una misura assoluta, per relativizzare una misura di eterogeneità occorre sottrarre
alla misura assoluta (E) il valore minimo che essa può assumere e dividere il risultato per il suo intervallo di
variazione; la nuova misura (e) assumerà valori compresi tra 0 e 1.
La misura relativa e1 si ottiene partendo dalla mutabilità di Gini
𝑒1 =
𝐸1 − 0
𝐸1
𝐾
=
=
𝐸
𝐾−1
𝐾−1
𝐾−1 1
𝐾
𝑘−0
MUTABILITA’ METRICA
Quando le variabili sono cardinali è possibile individuare due famiglie di operatori: gli intervalli di variazione
e gli scarti da un valore centrale
GLI INTERVALLI DI VARAIZIONE
Sono operatori che quantificano la variabilità misurando la diversità tra due particolari termini della
distribuzione. Il più semplice intervallo di variazione è dato dalla differenza tra il valore massimo e il valore
minimo della distribuzione. Esso viene denominato campo di variazione (gamma o range)
𝑊 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
Un secondo intervallo di variazione è la differenza interquartile che si ottiene semplicemente individuando i
quartili della distribuzione e calcolando la differenza
𝑊 ′ = 𝑄3 − 𝑄1
SCARTI DA UN VALORE CENTRALE
Sono gli operatori di dispersione per variabili cardinali più ricorrenti:
scostamento semplice medio
𝑠𝑚𝑒 =
∑𝑁
𝑖=1|𝑥𝑖 − 𝑥̅ |
𝑁
Dato dalla media aritmetica e dagli scarti assoluti dalla media
Varianza
𝑆2 =
2
∑𝑁
𝑖=1(𝑥𝑖 − 𝑥̅ )
𝑁
È la sommatoria degli scarti dalla media elevati al quadrato fratto la numerosità della variabile
La varianza ha lo svantaggio di essere una grandezza quadratica e quindi non direttamente confrontabile on
la media, per questo viene più frequentemente usata la sua radice, la deviazione standard
𝑆2 =
Esiste una formula che ne abbrevia notevolmente i calcoli
2
∑𝑁
𝑖=1(𝑥𝑖 − 𝑥̅ )
𝑁
= ̅̅̅
𝑥 2 − 𝑥̅ 2 ossia la
differenza tra la media dei quadrati e il quadrato della media
2
𝐷𝑒𝑣 = ∑𝑁
𝑖=1(𝑥𝑖 − 𝑥̅ )
Il numeratore della varianza prende il nome di devianza
Deviazione standard
∑𝑁 (𝑥𝑖 − 𝑥̅ )2
𝑆 = √ 𝑖=1
𝑁
Questo valore è direttamente confrontabile con la media
Le misure fin ora descritte sono assolute, il loro valore dipende dall’unità di misura delle variabili. Per poter
confrontare la variabilità di distribuzioni espresse con diverse unità di misura si può ricorrere al coefficiente
di variazione
𝐶𝑣 =
𝑆
𝑥̅
Si tratta di un numero puro (rapporto fra due grandezze espresse nella stessa unità di misura) e permette
confronti diretti tra qualsiasi distribuzione.
Il coefficiente di variazione può essere applicato soltanto a variabili a livello di scala di rapporti o scala
assoluta in quanto soltanto a questi livelli di scala è una statistica idonea
Esiste un concetto più generale del quale media, varianza e media dei quadrati sono casi specifici, ed è
quello di momento omogeneo. un momento omogeneo consiste nella media dei valori di una variabile
presa con esponente positivo. L’esponente determina l’ordine del momento. I momenti possono essere
divisi in centrali o non centrali. Sono momenti centrali (o rispetto alla media) quelli calcolati considerando
gli scarti dalla media; sono momenti non centrali (o rispetto all’origine) quelli calcolati sui dati di partenza.
Formula di una generico momento omogeneo:
𝑁
1
𝑀 = ∑ 𝑥𝑖𝑟
𝑁
𝑖=1
Dove X può essere una variabile grezza o uno scaro da una media e r è un intero positivo.



Il momento omogeneo non centrale di primo ordine (media) informa sulla
tendenza centrale di una distribuzione
μ1 : tendenza centrale (media)
Il momento omogeneo centrale di secondo ordine (varianza) informa sulla
dispersione
μ2: varianza
I momenti di terzo e quarto ordine danno informazioni relative alla simmetria e alla
curtosi di una distribuzione
μ3: simmetria
μ4: curtosi
Indici di forma
Indici di simmetria (o di Skeweness): γ1
si definisce distribuzione simmetrica una distribuzione in cui le modalità che sono equidistanti dalla
mediana hanno la stessa frequenza. In una distribuzione simmetrica media e mediana coincidono. Se la
distribuzione è unimodale anche la moda coincide con media e mediana
Se una distribuzione è asimmetrica positiva le osservazioni sono addensate sui valori bassi della variabile
con una lunga coda sui valori alti della variabile. La media è maggiore della moda e della mediana. (
media>mdn>mo)
Se una distribuzione è asimmetrica negativa le osservazioni sono addensate sui valori alti
della distribuzione con una lunga coda sui valori bassi della variabile. La media è minore
della mediana. (media<mdn)
Se la distribuzione è simmetrica i momenti centrali di ordine dispari sono uguali a 0, sono maggiori di 0 nel
caso di asimmetria positiva, sono minori di 0 nel caso di asimmetria negativa
𝛾1 =
𝜇̅ 3
3/2
𝜇̅1
1 𝑁
∑𝑖=1(𝑥𝑖 − 𝑥̅ )3
𝑁
=
1
2 3⁄2
[𝑁 ∑𝑁
𝑖=1(𝑥𝑖 − 𝑥̅ ) ]
1 𝑁
∑𝑖=1(𝑥𝑖 − 𝑥̅ )3
𝑁
=
𝑆3
Ossia il rapporto tra il momento centrale di 3° ordine e il cubo della deviazione standard



distribuzione simmetrica => μ3 = 0
distribuzione asimmetrica positiva => μ3 > 0
distribuzione asimmetrica negativa => μ3 < 0
μ3 costituisce una misura assoluta, dipende dall’unità di misura della distribuzione, per rendere la misura
indipendente dall’unità di misura viene fatto il rapporto con S3. γ1 è quindi una misura di simmetria relativa,
non dipende dall’unità di misura


se γ1 = 0 => curva simmetrica
se γ1 > 1 => curva ragionevolmente simmetrica

se γ1 > 2 => curva non ragionevolmente simmetrica
la curva normale è il più importante esempio di curva simmetrica
Curtosi
La curtosi è una misura di quanto la distribuzione è più appuntita di quella normale (viene detta
leptocurtica) o più piatta (viene detta platicurtica).
Il momento omogeneo centrale di quarto ordine 𝜇̅ 4 è una misura di curtosi. Anche in questo caso la misura
può essere relativizzata, dividendola per il quadrato della varianza
1 𝑁
∑𝑖=1(𝑥𝑖 − 𝑥̅ )4
𝜇̅ 4
𝑁
𝛾2 = 2 =
−3
1 𝑁
𝜇̅ 2
2
2
∑
[𝑁 𝑖=1(𝑥𝑖 − 𝑥̅ ) ]



1 𝑁
∑𝑖=1(𝑥𝑖 − 𝑥̅ )4
𝑁
=
−3
𝑆4
se γ2 = 0 => distribuzione mesocurtica (normale)
se γ2 > 0 => distribuzione leptocurtica
se γ1 < 0 => distribuzione platicurtica
STANDARDIZZAZIONE
Le distribuzioni standardizzate si caratterizzano per avere media paria 0 e varianza uguale a 1
Formula della standardizzazione
𝑧𝑖 =
(𝑥𝑖 − 𝑥̅ )
𝑠
Al numeratore quella che viene effettuata è un’operazione di centratura, originando una variabile che
contiene gli scarti dalla media, detta variabile scarto; che viene poi divisa per la deviazione standard della
variabile (operazione detta uniformazione). I valori che si ottengono vengono detti punteggi z e presentano
le seguenti proprietà:
∑𝑁
𝑖=1 𝑧𝑖 = 0
2
∑𝑁
𝑖=1 𝑧𝑖 = 𝑁
La scala dei punteggi z può essere ulteriormente trasformata in modo da assumere come media e varianza
valori, sempre prefissati dal ricercatore ma diversi da 0 e 1. La formula generale per effettuare questo
cambiamento di scala non è altro che una trasformazione lineare dei punti z : y= bz+a Dove y è il punteggio
della nuova scala, b rappresenta il valore che si vuol fare assumere alla deviazione standard della nuova
variabile e a il valore che si vuole far assumere alla media.
TEORIA DELLA PROBABILITA’
Evento aleatorio (o casuale) : dato un insieme di condizioni C, l’evento A può accadere oppure no. È
possibile associare a ogni evento aleatorio con numero p, che rappresenti il grado della sua probabilità di
realizzazione. Possiamo collocare gli eventi su un ipotetico continuum: a un estremo si collocano gli eventi
certi (p=1) e all’altro estremo gli eventi impossibili (p=0). A ciascuno degli eventi aleatori, a seconda della
posizione sul continuum, può essere associato un numero reale compreso tra 0 e 1
Sono state date differenti definizioni probabilità:

Concezione frequentista (Von Mises)
“la probabilità di Ei è uguale per definizione alla frequenza relativa limite di ni su n, per n che tende
a infinito.” In cui Ei rappresenta una classe di eventi ripetibili; n è il numero totale della volte in cui
la prova viene ripetuta a parità di condizioni e ni è il numero di volte in cui l’evento Ei si verifica. ni/n
è la frequenza relativa di Ei
𝑛𝑖
𝑃(𝐸𝑖 ) = lim
𝑛→ ∞ 𝑛
Si tratta di un tipo di probabilità calcolata a posteriori, dopo avere osservato il valore
effettivamente assunto da una frequenza in un numero molto grande di prove.

Definizione classica o simmetrica (Laplace)
La probabilità di un evento E viene definita come il rapporto tra il numero degli esiti che realizzano
l’evento E, e tutti gli esiti possibili in una certa prova, purché i diversi esiti siano tutti equiprobabili.
𝑛° 𝑐𝑎𝑠𝑖 𝑓𝑎𝑣𝑜𝑟𝑒𝑣𝑜𝑙𝑖
𝑃(𝐸) =
𝑛° 𝑐𝑎𝑠𝑖 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖
Più in generale se gli esiti elementari sono K e tutti egualmente probabili, la probabilità di uno di
essi sarà: 𝑃(𝐸𝑖 ) = 1⁄𝑘
Nella teoria classica abbiamo una probabilità calcolata a priori, sulla base di un ragionamento
logico, fondato su determinati assunti

Concezione soggettivista (Ramsey, DeFinetti)
La probabilità dell’evento E è la somma che un individuo coerente è disposto a scommettere in un
gioco equo nel quale al verificarsi di E egli riceve dal banco un importo unitario. L’equità si realizza
se in ogni momento giocatore e banco sono disposti a scambiarsi le parti.
La valutazione numerica della probabilità è connessa alle valutazioni personali di un soggetto circa
la verificabilità di un certo esito incerto.

Definizione assiomatica (Kolmogorov)
la teoria delle probabilità viene intesa come disciplina matematica; concetti come probabilità ed
evento sono considerati concetti primitivi che, in quanto tali, non necessitano di una definizione
esplicita: è sufficiente una definizione implicita, attraverso la definizione di alcune regole circa il
loro impiego coerente.
PROPRIETA’ ELEMENTARI DELLA PROBABILITA’
Gli eventi elementari che compongono un generico insieme Ω: [ω1, ω2, … ωi …. ωn] possono essere: un
numero finito (numero di facce di un dado); un numero infinito numerabile (l’insieme dei numeri razionali);
un numero infinito non numerabile (l’insieme dei numeri reali)
Definito lo spazio degli eventi elementari di Ω (tutti gli eventi elementari che compongono l’insieme), è
possibile individuare degli eventi più complessi, che si presentano come sottoinsieme di Ω
Se chiamiamo E un evento complesso , che è formato dall’associazione di eventi elementari, l’evento
complementare di e rispetto a Ω viene indicato col simbolo 𝐸̅ → [𝐸̅ = Ω − 𝐸]
Ω è l’evento certo (comprende tutti gli esiti possibili), mentre il suo complementare (∅) è l’evento
impossibile (l’insieme nullo)
Se Ω è un insieme finito o infinito non numerabile, si può identificare l’insieme delle parti ad esso associato
BΩ, che comprende tutti i sotto insiemi di Ω, compresi gli eventi ∅ e Ω stesso. Se Ω è un insieme infinito non
numerabile BΩ è scelto arbitrariamente tra tutti gli eventi di interesse associabili a Ω.
Dato un insieme Ω di cardinalità N (composto da n elementi) il suo insieme delle parti è dato da 2N
BΩ è una classe additiva, essa non è vuota ed è chiusa rispetto all’operazione di negazione e all’operazione
di unione; ossia i risultati di queste due operazioni su BΩ fanno ancora parte di BΩ
Fissato BΩ si associa a ogni evento uno scalare che rappresenta la probabilità per ciascun evento di
costituire l’esito di una prova aleatoria. L’assegnazione deve rispettare i seguenti assiomi:
1. Gli eventi, sottoinsiemi di uno spazio Ω, formano una classe additiva BΩ
2. A ogni evento Ei è assegnato un numero reale maggiore uguale a 0 → 𝑃(𝐸𝑖 ) ≥ 0
3. La probabilità di Ω è uguale a 1
→ 𝑃(Ω) = 1
La probabilità di un evento (uno dei possibili risultati elementari o una loro combinazione) viene indicata
con uno scalare compreso tra 0 e 1.
La terna {Ω, BΩ, P} è detta spazio probabilistico. Con: Ω= eventi che compongono l’insieme, BΩ = insieme
delle parti dell’insieme (comprende tutti i sotto insiemi possibili di Ω) e P = probabilità che si verifichi uno
degli eventi compresi nell’insieme.
4. La probabilità (P) di un evento ottenuto come l’unione di eventi incompatibili è uguale alla
somma delle probabilità dei singoli eventi. → Ei∩Ej=0, per ogni i ≠ j, allora P(Ei U Ej) =P(Ei)+P(Ej)
Il quarto assioma è noto anche come il principio delle probabilità totali (o principio della somma). Se
l’evento complesso E è dato dall’associazione di ω1 e ω2, dove i due eventi sono incompatibili allora
𝑃(𝐸) = 𝑃(𝜔1 ) + 𝑃(𝜔2 )
Eventi incompatibili: appartengono a due insiemi disgiunti se la loro intersezione restituisce insieme vuoto.
Eventi compatibili appartengono a due insiemi che hanno almeno un elemento in comune
Dai precedenti assiomi si assume anche che:




P(∅)=0
̅) = 1 − P(E)
Se 𝐸̅ è il complemento di E rispetto a Ω allora: 𝑃(E
Se Ei e Ej sono eventi compatibili → 𝑃(𝐸1 ∪ 𝐸2 ∪ 𝐸3 … ) = 𝑃(𝐸1 ) + 𝑃(𝐸2 ) + 𝑃(𝐸3 ) …
Se Ei e Ej sono eventi incompatibili → 𝑃(𝐸1 ∪ 𝐸2 ∪ 𝐸3 … ) = 𝑃(𝐸1 ) + 𝑃(𝐸2 ) + 𝑃(𝐸3 ) −
𝑃(𝐸1 ∩ 𝐸2 ) − 𝑃(𝐸1 ∩ 𝐸3 ) − 𝑃(𝐸2 ∩ 𝐸3 ) + 𝑃(𝐸1 ∩ 𝐸2 ∩ 𝐸3 )
Per calcolare la probabilità che due eventi si presentino congiuntamente [𝑃(𝐸1 ∩ 𝐸2 )] occorre prima
distinguere la situazione in cui gli eventi sono stocasticamente indipendenti da quella in cui non lo sono.
Un evento (Ei) è considerato condizionato quando si assume una qualche informazione su un altro evento
che indirettamente riguarda la probabilità dell’avverarsi dell’evento Ei. Il condizionamento viene indicato
col simbolo “|” => P(E1|E2) che si legge “probabilità di E1 posto che si sia verificato E2.
La probabilità condizionata viene calcolata con la formula:
𝑃(𝐸1 |𝐸2 ) =
𝑃(𝐸1 ∩ 𝐸2 )
𝑃(𝐸2 )
Siamo in presenza di due eventi stocasticamente indipendenti se la probabilità di un evento di BΩ si
verifiche non è influenzata dal fatto che un altro evento, anch’esso appartenente a BΩ si sia verificato.
L’indipendenza stocastica è espressa con la formula:
𝑃(𝐸1 |𝐸2 ) = 𝑃(𝐸1 ) 𝑒 𝑠𝑝𝑒𝑐𝑢𝑙𝑎𝑟𝑚𝑒𝑛𝑡𝑒 𝑃(𝐸2 |𝐸1 ) = 𝑃(𝐸2 )
Per calcolare una probabilità composta; consideriamo dapprima la combinazione la due eventi {E1} e {E2}
generati da due processi stocasticamente indipendenti; in questo caso abbiamo che:
𝑃(𝐸1 |𝐸2 ) =
𝑃(𝐸1 ∩ 𝐸2 )
= 𝑃(𝐸1 )
𝑃(𝐸2 )
Se invece i due eventi sono dipendenti
𝑃(𝐸1 |𝐸2 ) ≠ 𝑃(𝐸1 )
𝑑𝑎 𝑐𝑢𝑖 𝑠𝑖 𝑟𝑖𝑐𝑎𝑣𝑎 → 𝑃(𝐸1 ∩ 𝐸2 ) = 𝑃(𝐸1 ) ∗ 𝑃(𝐸2 )
𝑃(𝐸1 ∩ 𝐸2 ) = 𝑃(𝐸1 ) ∗ 𝑃(𝐸1 |𝐸2 )
E2 influenza E1, moltiplico la probabilità elementare di uno degli eventi per la probabilità
condizionata dell’altro. La probabilità condizionata {P(E1 ‫׀‬E2)} è comunque un evento elementare
(trattiamo sempre l’evento E1).
Se E2 si è verificato…..
ΩE1 non viene modificato => P(E1 ‫׀‬E2)= P(E1) => eventi indipendenti
ΩE1 viene modificato => eventi dipendenti
Nel primo caso abbiamo una prova aleatoria con reinserimento, nel secondo caso abbiamo una
prova senza reinserimento (quindi viene modificata la numerosità dello spazio campione)
Se ΩE1 viene modificato….
Il n° di casi favolevoli a E1 si modifica allo stesso modo => Il rapporto tra Ω e i casi favorevoli a
E1 non cambia => P(E1 ‫׀‬E2)= P(E1) => eventi indipendenti
Il n° di casi favolevoli a E1 si modifica in modo diverso => Il rapporto tra Ω e i casi favorevoli a
E1 cambia => P(E1 ‫׀‬E2) ≠ P(E1) => eventi dipendenti
VARIABILI ALEATORIE E INFERENZA STATISTICA
Il concetto di variabile aleatoria rinvia al fatto che esse è generata da un esperimento di cui non siamo in
grado di prevedere l’esito con certezza. Le variabili così descritte possono essere variabili aleatorie (v.a.)
discrete o continue; unidimensionali o multidimensionali.
 Variabili aleatorie unidimensionali discrete
Dato uno spazio di eventi elementari Ω =[ω1, ω2, … ωn] finito o infinto numerabile in cui ognuno
degli eventi elementari è equiprobabile, si definisce BΩ l’insieme delle parti (l’insieme di tutti gli
eventi Ei costruibili con gli elementi presenti in Ω) e P la funzione di probabilità che assegna ad ogni
elemento Ei (ad ogni elemento dell’insieme delle parti) una probabilità P(Ei).
Agli eventi Ei viene assegnato in modo univoco un numero reale ovvero
𝑋(𝐸𝑖 ) = 𝑥𝑖
A ognuno di questi eventi Ei è assegnata una probabilità pi tale per cui
𝑛
𝑃(𝑥𝑛 ) = 𝑝𝑛
𝑐𝑜𝑛 𝑝𝑖 > 0 (𝑖 = 1,2, … . 𝑛)
→ ∑ 𝑝𝑖 = 1
𝑖=1
Chiamiamo v.a. discreta unidimensionale l’insieme di coppie xi e pi , dunque:
𝑋 = [(𝑥1 , 𝑝1 )(𝑥2 , 𝑝2 ) … . (𝑥𝑛 , 𝑝𝑛 )]
L’insieme dei valori (numeri reali) che una v.a. può assumere con probabilità positiva è detto
supporto della v.a.
Ogni elemento di Ω trova un’immagine di un punto di ascissa x della retta R (il supporto); d’altro
canto i punti della retta R così individuati hanno una contro immagine in Ω e in BΩ
Tutti gli elementi di Ω che si trovano sullo stesso punto x della retta R formano un sottoinsieme E di
eventi, che sono un elemento dell’insieme delle parti BΩ al quale è assegnata una stessa funzione di
probabilità
Possiamo definire un’altra importante funzione Φ(𝑥), detta funzione di ripartizione (phi)
Φ(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑃(𝑋 = 𝑥𝑖 ) 𝑃(𝑋 = 𝑥𝑖 )
𝑥𝑖 ≤𝑥
Che fornisce la probabilità che in un esperimento casuale la v.a. X assume un valore inferiore a x; si
tratta dunque di una funzione cumulativa
 Variabili aleatorie unidimensionali continue
Definiamo una v.a. “continua” se gli elementi che formano Ω sono un insieme infinito non
numerabile. Una v.a. unidimensionale continua X è una quantità variabile che può assumere tutti i
valori reali di un intervallo dx, anche molto piccolo, a cui risulta associata una funzione f(x),
denominata funzione di densità di probabilità, in cui la probabilità è individuata dall’area sottesa
alla curva in un dato intervallo.
 Variabili aleatorie multidimensionali
È possibile associare a ogni evento anche una coppia, tripla,…. n-pla ordinata di numeri reali, e
studiare la distribuzione di probabilità; si parla allora di v.a. multidimensionali, utili a valutare
connessioni, concordanze e rapporti tra variabili da un punto di vista inferenziale. Ogni dimensione
è a sua volta una v.a. unidimensionale, detta variabile componente. Anche in questo caso si
distingue tra variabili discrete e continue
VALORI CARATTERISTICI DI UNA DISTRIBUZIONE TEORICA DI PROBABILITA’
Come per una distribuzione di frequenze, anche per una distribuzione di probabilità possiamo definire vari
indici di tendenza centrale, di variabilità,…
Valore atteso [ μ o E(X) ]
𝑛
𝐸(𝑋) = ∑ 𝑥𝑖 𝑝(𝑥𝑖 )
𝑖=1
Ovvero il valore atteso di una v.a. si calcola con la sommatoria degli xi moltiplicato alla loro
probabilità.
E(X) gode delle seguenti proprietà:
o Data una costante c,
-> E(c)= c
o Data una costante c e una v.a. X
-> E(cX)= c E(X)
o Date n vv.aa. Xi con i=1,2,….n
-> E(ΣXi)= Σ E(Xi)
o Date n vv.aa. Xi indipendenti
-> E(ΠXi)= Π E(Xi)
Varianza [ σ2 oppure VAR(X) ]
𝑛
𝑉𝐴𝑅(𝑋) = ∑(𝑥𝑖 − 𝜇)2 𝑝(𝑥𝑖 )
𝑖=1
La varianza di una v.a. di calcola facendo la sommatoria degli scarti dal valore atteso (μ) elevati al
quadrato e moltiplicati per la probabilità degli xi
ESEMPI DI DISTRIBUZIONI TEORICHE DI PROBABILITA’ PER VV.AA. DISCRETE
VARIABILE ALEATORIA DI BERNOULLI
Sia E un evento che si può presentare (successo) in un esperimento aleatorio con probabilità p (0<p<1). Al
risultato dell’esperimento venga associata una v.a X[(X=1,p) (X=0,q)], dove X assume valore 0 per 𝐸̅
(insuccesso) e 1 per E (successo), e dove q=1-p.
Una variabile che assume esclusivamente i valori 1 e 0, rispettivamente con probabilità p e q prende il
nome di v.a. Bernoulliana.
Gli eventi generati da una prova possono essere dicotomizzati, al di là della natura del sistema fisico o
simbolico su cui la prova si basa.
Per riassumere:
Ha un supporto numerico dicotomico -> Ωr{0,1};
1 = xi associato all’evento successo -> (p);
0 = xi associato all’evento insuccesso -> (q)
p+q= 1
q= 1-p
P(0 o 1)= P(Ωr)=1
Funzione di probabilità per una bernoulliana:
1
𝑓(𝑥; 𝑝) = ( ) 𝑝 𝑥 (1 − 𝑝)1−𝑥
𝑥
[p= parametro che regola la variabile; X = valore che può assumere l’evento]
Se ne ricava che :
f(X=1)=
p1 (1-p)1-1 = p1* q0 = p
f(X=0) = p0 (1-p)1-0 = p0 * q1 = q
calcolo del valore atteso e della varianza
𝑛
1
1
𝐸(𝑋) = ∑ 𝑥𝑖 𝑝(𝑥𝑖 ) → (0) ( ) 𝑝0 (1 − 𝑝)1 + (1) ( ) 𝑝1 (1 − 𝑝)0 =
0
1
0∗𝑞+1∗𝑝 =0+𝑝=𝑝
𝑖=1
𝑛
1
1
𝑉𝐴𝑅(𝑋) = ∑(𝑥𝑖 − 𝜇)2 𝑝(𝑥𝑖 ) → (0 − 𝑝)2 ( ) 𝑝0 (1 − 𝑝)1 + (1 − 𝑝)2 ( ) 𝑝1 (1 − 𝑝)0 = 𝑝(1 − 𝑝)
0
1
𝑖=1
=𝑝∗𝑞
VARIABILE ALEATORIA BINOMIALE
Sia E l’evento come è stato definito nel caso della v.a. bernoulliana, e si consideri il risultato congiunto di n
prove indipendenti. A ciascuna prova può essere associata una v.a. di Bernoulli, secondo le modalità
precedentemente descritte (𝐸̅ = 0; 𝐸 = 1)
somma di N v.a Bernoulliane, sotto la condizione che esse siano i,i,d {identicamente. indipendentemente
distribuite}. ciascuna Bernoulliana è governata dallo stesso parametro (p)
funzione di probabilità binomiale:
𝑛
𝑓(𝑥; 𝑝; 𝑛) = 𝑃(𝑋 = 𝑥) = ( ) 𝑝 𝑥 𝑞𝑛−𝑥
𝑥
Dove con n intendiamo il numero di prove (quante bernoulliane compongono la binomiale); con p si
intendono le probabilità di successo e con x il numero di successi che assumiamo di ottenere
Calcolo del valore atteso e della varianza
𝑛
𝑛
𝐸(𝑋) = 𝐸(∑ 𝑋𝑖 ) = ∑ 𝐸(𝑋𝑖 ) = 𝑛𝑝
𝑖=1
𝑖=1
In una binomiale la media è uguale al numero di prove (n)* le probabilità di successo (p)
𝑛
𝑛
𝑉𝐴𝑅(𝑋) = 𝑉𝐴𝑅(∑ 𝑋𝑖 ) = ∑ 𝑉𝐴𝑅(𝑋𝑖 ) = 𝑛𝑝(1 − 𝑝) = 𝑛𝑝𝑞
𝑖=1
𝑖=1
In una binomiale la varianza è uguale al prodotto tra il numero di prove, la probabilità di successo e la
probabilità di insuccesso
Riassumendo le caratteristiche fondamentali di queste due variabili aleatorie discrete
V.A. BERNUOLLIANA
{0;1}
Ωr
Supporto numerico
1
f(x)
𝑓(𝑥; 𝑝) = ( ) 𝑝 𝑥 (1 − 𝑝)1−𝑥
𝑥
funzione di probabilità
Parametri che governano P (probabilità di successo)
la distribuzione
Valori caratteristici
E (x) = p
VAR (x)= p*q
V.A. BINOMIALE (bernoulliane i,i,d)
{0,1,2… n}
𝑛
𝑓(𝑥; 𝑝; 𝑛) = 𝑃(𝑋 = 𝑥) = ( ) 𝑝 𝑥 𝑞𝑛−𝑥
𝑥
p;
n (numero di prove)
E (x) = np
VAR (x) = np*q
ESEMPI DI DISTRIBUZIONI TEORICHE DI PROBABILITA’ PER VV.AA. CONTINUE
VARAIBILE ALEATORIA NORMALE
si caratterizza per avere un supporto numerico infinito non numerabile -> Ωr [ - ∞, + ∞}. La sua
distribuzione di probabilità assume una forma a campana (distribuzione normale o gaussiana). Sull’asse
delle ascisse vengono indicati i valori che assume il supporto numerico (Ωr); sull’asse delle ordinate è
indicata la densità di probabilità f(x)
Non è possibile associare a P un numero (Ωr è infinito e non numerabile) => siccome P(X=x)= 0 è necessario
che questa proporzione venga rispettata, cosa che non è possibile se P è associato a dei numeri reali =>
associamo delle P (probabilità) a degli intervalli piccoli a piacere di valori => le P sono delle aree sottese a
una curva.
+∞
per calcolare P dobbiamo calcolare degli integrali: ∫−∞ 𝑓(𝑥)𝑑(𝑥).
Dove f(x) è la funzione di densità della probabilità e d(x) è un intervallo piccolo a piacere. Si tratta di fare la
sommatoria di aree di rettangoli con una base infinitamente piccola e dove i rettangoli sono tantissimi
È accertato che le misure di una grandezza, ripetute un gran numero di volte si distribuiscono attorno a un
valore, in modo che al crescere del valore assoluto dell’errore diminuisce la sua frequenza. La frequenza di
ciascun errore positivo è uguale alla frequenza dell’errore negativo di pari valore assoluto (simmetria)
La distribuzione, sinteticamente indicata con 𝑋~𝑁 (𝜇, 𝜎 2 ), è definita su tutto l’asse reale con funzione di
densità di probabilità:
𝑓(𝑥; 𝜇; 𝜎 2 ) =
−∞ < 𝑥 < +∞,
1
𝜎√2𝜋
𝑒 −(𝑥−𝜇)
2 ⁄2𝜎 2
− ∞ < 𝜇 < +∞;
𝜎>0
Dove μ e σ2 sono rispettivamente la media e la varianza della distribuzione (parametri che la governano),
π = nota costante 3,14…
e = base dei logaritmi naturali (2,7183)
(x- μ)2= scarto dalla media della distribuzione elevato al quadrato
L'equazione della funzione di densità è costruita in modo tale che l'area sottesa alla curva rappresenti
la probabilità. Perciò, l'area totale è uguale a 1, quindi l’integrale della funzione da −∞ a +∞ è uguale
a1
+∞
∫
𝑥 = 𝑓(𝑥)𝑑(𝑥) = 𝜇
−∞
↓
↓
=𝜇
𝑝(𝑥)
∑𝑥
+∞
→ 𝑃(Ω𝑟 ) = 1
→ ∫
𝑥 = 𝑓(𝑥)𝑑(𝑥) = 1
−∞
integrale -> operazione che restituisce un’area:
𝜇
 ∫−∞ 𝑓(𝑥)𝑑(𝑥) = 0,5 (metà della distribuzione che va da − ∞ a μ)
+∞
 ∫𝜇
𝑓(𝑥)𝑑(𝑥) = 0,5 (metà della distribuzione che va da μ a + ∞ )
Graficamente una distribuzione normale si presenta come una curva a campana, unimodale e
perfettamente simmetrica rispetto al punto di ascissa x=μ, con due punti di flesso in 𝑥 = 𝜇 − 𝜎 e 𝑥 = 𝜇 +
𝜎. La moda coincide con la media e con la mediana della distribuzione. La normale è inoltre asintotica
rispetto all’asse delle ascisse. I punti in cui la curva da convessa diventa concava si trovano in
corrispondenza a ±1 deviazione standard dalla media;
I due parametri della variabile casuale normale, detti pure valori attesi, cioè μ e σ2, corrispondono alla
media E(X) e varianza Var(X) della distribuzione. Si dimostra infatti che:
+∞
1
2
2
𝐸(𝑋) = ∫ 𝑥
𝑒 −(𝑥−𝜇) ⁄2𝜎 𝑑𝑥 = 𝜇
−∞ 𝜎√2𝜋
+∞
𝑉𝐴𝑅(𝑋) = ∫
−∞
(𝑥 − 𝜇)2
1
𝜎√2𝜋
𝑒 −(𝑥−𝜇)
2 ⁄2𝜎 2
𝑑𝑥 = 𝜎 2
Ogni distribuzione normale è univocamente definita dalla media e dalla varianza.
Al variare della media e della varianza la curva subisce sia uno spostamento sull’asse dell’ascissa, sia un
appiattimento; mentre se si fa variare solo la varianza e si tiene costante la media, la curva si appiattisce
quando la varianza cresce e diventa più appuntita quando la varianza si riduce.
Per distinguere la distribuzione normale da altre distribuzioni che presentano forma simile occorre tenere
presente che la probabilità di X assume sempre, per ogni μ e σ2 i seguenti valori nei seguenti intervalli tipici:
𝜇+𝜎
(𝑥)𝑑𝑥 = 0,6826 → 68%
𝑃(𝜇 − 𝜎 ≤ 𝑥 ≤ 𝜇 + 𝜎) = ∫
𝜇−𝜎
𝜇+2𝜎
(𝑥)𝑑𝑥 = 0,9545 → 95%
𝑃(𝜇 − 2𝜎 ≤ 𝑥 ≤ 𝜇 + 2𝜎) = ∫
𝜇−2𝜎
𝜇+3𝜎
𝑃(𝜇 − 3𝜎 ≤ 𝑥 ≤ 𝜇 + 3𝜎) = ∫
𝜇−3𝜎
(𝑥)𝑑𝑥 = 0,9974 → 99%
Variabile aleatoria normale standardizzata
Trasformando i valori della variabile X in punteggi standardizzati (punti Z), otteniamo una v.a. normale
standardizzata, che ha parametri μ e σ rispettivamente pari a 0 e 1.
La distribuzione normale standardizzata si ottiene con la trasformazione lineare dei punti grezzi in
punti z:
𝑍=
𝑥−𝜇
𝜎
La funzione di densità di probabilità della distribuzione normale standardizzata è:
𝑓(𝑧) =
1
√2𝜋
𝑒 −𝑧
2 ⁄2
Con −∞ < 𝑧 < +∞
E(Z)= μ= 0
VAR(Z)= σ2=1
Mediante l’uso della relativa tavola di probabilità è possibile ricavare l’area sottostante ad ogni porzione
della curva, compresa tra la media e una certa ascissa (Z). Le probabilità corrispondenti alle superfici
racchiuse dalla curva normale possono essere calcolate. Queste probabilità sono state tabulate per la
normale standardizzata e vengono riportate in apposite tabelle. Ciò evita il calcolo di integrali per trovare le
probabilità che una v.a. X assuma valori compresi all’interno di intervalli della retta reale.
Le tavole di probabilità della normale standardizzata vengono utilizzate per calcolare l’area compresa tra
due determinati valori della variabile oggetto di studio.
Le tavole della distribuzione normale standardizzata riportano l’area compresa tra media e il valore di z
oppure l’area che si colloca oltre il punto z nella coda della distribuzione. Nella prima colonna abbiamo il
valore di z con il primo decimale e nella prima riga la seconda cifra decimale. Dall’intersezione della riga e
della colonna corrispondente al valore z calcolato, si individua il valore dell’area.
Dato che la distribuzione normale è simmetrica nelle tavole dei punti z i valori sono solo positivi, in quanto
la proporzione dei valori tra la media e un valore z=1.00 e tra la media e un valore z=-1.00 è uguale a
0.3413.
VARIABILE ALEATORIA CHI QUADRATO
L a v.a. chi quadrato è una funzione di variabile aleatorie. Si chiama 𝜒 2 la sommatoria dei quadrati di n
variabili indipendenti normali standardizzate
𝑁
2
𝜒 =
∑ 𝑍𝑖2
𝑖=1
𝑁
𝑋𝑖 − 𝜇𝑖 2
= ∑(
)
𝜎2
𝑖=1
La funzione di densità di probabilità 𝑓(𝜒 2 )è un caso parti calore della v.a. gamma generalizzata ed è
espressa come: 𝑓(𝜒 2 , 𝜈)
La funzione è definita per valori positivi 0 ≤ 𝜒 2 ≤ +∞, ed è caratterizzata dal parametro 𝜐 (nu) che
rappresenta i gradi di libertà della distribuzione, pari a 𝜐 = 𝑛
La distribuzione 𝜒 2 ha media e varianza pari a:
𝜐
𝐸(𝜒
2)
=
𝜈
𝐸 (∑ 𝑍𝑖2 )
𝑖=1
= 𝜈 → ∑ 𝐸(𝑍𝑖2 ) = 𝜈
𝑖=1
𝑉𝐴𝑅(𝜒 2 ) = 2𝜈
La funzione di densità della v.a. 𝜒 2 al variare dei gradi di libertà (gdl) assume forme diverse; per 𝜐 che tende
a infinito essa converge con la normale: l’approssimazione è considerata adeguata a partire da 𝜈 = 30
VARIABILE ALEATORIA T DI STUDENT
Possiede le stesse caratteristiche della distribuzione normale, ma ha una forma più schiacciata che esprime
una variabilità maggiore intorno alla media.
La variabilità della media e lo schiacciamento della curva dipendono dall’ampiezza campionaria, ovvero
tanto più i campioni sono piccoli, maggiore sarà la variabilità e tanto più schiacciata risulterà la curva.
Il valore di t dipende dalla numerosità campionaria, quindi non esiste una sola distribuzione t, ma ne
esistono tante in funzione dei gradi di libertà, dati dalla quantità n-1.
𝛺𝑟 {−∞ , + ∞}
𝜈 =𝑛−1
𝐸(𝑡) = 0
𝑉𝐴𝑅 (𝑡) = 𝑣/ (𝑣 − 2)
La sua f(x) è governata dai suoi gdl
Se v > 30 la distribuzione approssima una normale
VARIABILE ALEATORIA NORMALE BIVARIATA
Costituisce la generalizzazione a 𝑘 dimensioni della v.a. normale. (in questo caso K=2)
Rappresentando una funzione di densità di una v.a. bivariata,ricaveremo una sorta di cappello
rappresentato su tre dimensioni; la sezione parallela all’asse delle x o delle y rappresenta una distribuzione
normale. Se invece sezioniamo il cappello con un taglio parallelo al piano individuato da x e y, otterremo un
ellisse, tanto maggiore quanto il taglio si avvicina il piano xy. La forma dell’ellisse dipende dalla varianza
della X e Y e dalla loro covarianza. Considerando il caso che le due variabili siano standardizzate. In caso di
relazione positiva tre le due variabili, le ellissi saranno direzionate lungo la bisettrice del primo e del terzo
quadrante del piano cartesiano; in caso di associazione negativa lungo la bisettrice del secondo e quarto
quadrante.
DISTRIBUZIONI CAMPIONARIE
Ogni statistica campionaria (indicata con lettere dell’alfabeto latino) è una v.a. che ha una sua distribuzione
di probabilità. Tali statistiche avranno un valore che varia intorno all’omologo parametro della popolazione
(sempre ignoto, indicato con lettere greche). In virtù di questa “attrazione” delle statistiche da parte del
parametro corrispondente, è ragionevole tentare una stima del parametro (che è fisso ma sconosciuto) a
partire dalla statistica osservata. Tale stima sarà inevitabilmente affetta da un certo margine di errore
accidentale, in quanto noi operiamo su uno solo dei campioni potenzialmente estraibili dalla popolazione.
Le vv.aa. sono distribuzioni teoriche, o leggi di probabilità, che intervengono nella statistica inferenziale
come strumento per rappresentare una distribuzione osservata mediante un modello matematico che
dipende da un ristretto numero di parametri.
Più precisamente una v.a. teorica entra in un processo ci inferenza in due modi:
 Alcuni problemi di inferenza statistica per essere risolti richiedono particolari assunti sulla forma
della distribuzione che caratterizza l’universo
 Altri problemi di inferenza invece, pur non richiedendo particolari assunti distribuzionali della
popolazione, sfruttano le caratteristiche di una distribuzione teorica partendo dal fatto che essa
caratterizza una distribuzione campionaria
Le distribuzioni teoriche vengono utilizzate innanzi tutto per rappresentare la distribuzioni campionarie
(una distribuzione campionaria può essere distribuita in modo normale, chi quadrato, …) vi sono poi alcune
distribuzioni che, oltre a coincidere con dispositivi procedurali, sono utilizzabili per rappresentare in forma
parsimoniosa, cioè come modello , il modo in cui le variabili sono distribuite nella popolazione.
Occorre classificare i principali modi in cui si impostano le procedure di inferenza statistica:
Test sulle ipotesi statistiche: concernono una congettura su una o più caratteristiche di una v.a.
assunta come modello interpretativo del fenomeno in esame; si tratta di procedure che portano il
ricercatore a trattenere o respingere un’ipotesi.
Rispetto all’uso di una v.a. come modello della popolazione possiamo individuare duegrandi
famiglie di test:
o TEST PARAMETRICI (funzionali)
Vengono applicati a ipotesi relative ai valori numerici dei parametri di una o più
popolazioni, che si assumono distribuite secondo una legge di probabilità nota
o TEST NON PARAMETRICI (distributio-free)
In questo caso le uniche informazioni sulla popolazione si traggono dal campione senza
ulteriori assunti
Procedure di stima: servono a identificare il valore incognito di certi parametri della legge di
probabilità assunta come modello, essi si articolano a loro volta in due classi di operatori:
o STIMA PUNTUALE
Consiste nell’ottenere un singolo valore che sia un buon rappresentante del parametro
(ignoto)
o STIMA INTERVALLARE
Consiste nell’individuare un intervallo entro il quale con una certa probabilità ricade il
parametro
INFERENZA SU UNA VARIABILE
Si definisce popolazione qualsiasi insieme di elementi simili tra loro per una o più caratteristiche che
rappresentano l’oggetto dello studio.
Può essere finita, ovvero costituita da un numero finito di unità (comunque molto grande) o infinita
trattiamo come popolazioni anche insiemi che non sono enumerabili e che si realizzeranno anche nel
futuro.
Si definisce campione un sottoinsieme della popolazione, ovvero una raccolta finita di elementi estratti da
una popolazione. Scopo dell’estrazione: ottenere informazioni sulla popolazione
Pertanto il campione deve essere rappresentativo della popolazione da cui viene estratto (‘non viziato’).
Per corrispondere a queste esigenze il campione viene individuato con un campionamento casuale.
Campionamento ed inferenza sono due processi simmetrici, l’inferenza permette di dire qualcosa sulla
popolazione a partire dai dati ottenuti sul campione.
Definiamo statistica campionaria la statistica calcolata per le osservazioni che compongono il
campione (T). In generale, le statistiche campionarie sono definite in modo tale da essere degli
stimatori non distorti dell’omologo parametro della popolazione (θ).
Una distribuzione campionaria è la distribuzione relativa ad una specifica statistica calcolata su più
campioni di dimensione n tutti estratti dalla stessa popolazione.
La funzione campionaria è una funzione di probabilità il cui dominio è costituito dai valori di una statistica
(es media) e il codominio è costituito dalle probabilità che i valori della statistica hanno di verificarsi.
Per costruire una distribuzione campionaria occorre:
1. Estrarre dalla stessa popolazione dei campioni con lo stesso numero di casi (n)
2. Le estrazioni devono essere casuali e indipendenti.
3. In questo modo, le determinazioni (osservazioni) campionarie (x1, x2, ..xn) sono variabili
indipendenti, ed hanno la stessa funzione di probabilità della popolazione di origine, ovvero sono
identicamente distribuite (variabili IID: indipendenti, identicamente distribuite)
4. Sui campioni così estratti si procede a calcolare la statistica della quale si vuole definire la
distribuzione campionaria
DISTRIBUZIONE DELLA V.A. MEDIA CAMPIONARIA
Siano 𝑋1 , 𝑋2 , … , 𝑋𝑛 delle prove indipendenti di un processo aleatorio con: valore atteso 𝐸(𝑋𝑖 ) = 𝜇; e
varianza 𝑉(𝑋𝑖 ) = 𝜎 2 . Si definisca la somma delle variabili aleatorie 𝑋𝑖 come: 𝑈 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
Dato che 𝑋1 , 𝑋2 , … , 𝑋𝑛 sono variabili aleatorie indipendenti, ciascuna delle quali definita con media 𝜇 e
varianza 𝜎 2 , il valore atteso e la varianza di U diventano:
𝐸(𝑈 ) = 𝐸(𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ) = 𝐸(𝑋1 ) + 𝐸(𝑋2 ) + ⋯ + 𝐸(𝑋𝑛 ) = 𝑛 𝜇
𝑉(𝑈 ) = 𝑉(𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ) = 𝑉(𝑋1 ) + 𝑉(𝑋2 ) + ⋯ + 𝑉(𝑋𝑛 ) = 𝑛 𝜎2
Definiamo ora la distribuzione della media campionaria, che è data da:
𝑋̅ =
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑈
=
𝑛
𝑛
Poiché ogni v.a. Xi ha una distribuzione identica a quella della popolazione di riferimento, è facile
dimostrare che la media della distribuzione campionaria 𝜇𝑋̅ è uguale alla media della popolazione
𝑈
1
1
𝜇𝑋̅ = 𝐸(𝑋̅) = 𝐸 ( ) = 𝐸(𝑈) = 𝑛𝜇 = 𝜇
𝑛
𝑛
𝑛
Anche la varianza della media campionaria, denotata da 𝜎𝑋2̅ , è in relazione con l’omologo parametro della
variabile nella popolazione
𝑈
1
1
𝜎2
𝜎𝑋2̅ = 𝑉𝐴𝑅(𝑋̅) = 𝑉𝐴𝑅 ( ) = 2 𝑉𝐴𝑅(𝑈) = 2 𝑛𝜎 2 =
𝑛
𝑛
𝑛
𝑛
Se il campionamento non è bernoulliano e la popolazione è finita, occorre moltiplicare per un fattore di
𝑁−𝑛
riduzione 𝑁−1 dove 𝑁 e 𝑛 sono rispettivamente la numerosità della popolazione e quella campionaria.
La varianza della media campionaria è inversamente proporzionale all’ampiezza del campione.
La forma assunta dalla distribuzione della media campionaria è normale quando la popolazione da cui
deriva è normale.
Alla distribuzione della media campionaria è possibile applicare il teorema del limite centrale: se si
estraggono ripetuti campioni casuali di dimensione n da un qualsiasi universo (qualunque sia la sua forma)
con media 𝜇 e varianza 𝜎 2 , all’aumentare della dimensione n del campione, la distribuzione della media
campionaria sarà normale e avrà come media 𝜇 e come varianza 𝜎 2 /𝑛
Quindi al crescere della grandezza del campione, la distribuzione campionaria della media tende ad una
distribuzione nomale.
La deviazione standard della media campionaria si definisce errore standard e rappresenta un indice di
precisione della media stimata su un campione.
𝐸𝑆𝑋̅ = 𝜎𝑋̅ =
𝜎
√𝑛
La stima fornita dal singolo campione è affetta da incertezza, a causa dell'errore casuale del
campionamento.
L’errore standard è una misura dell’incertezza di una statistica misurata su un campione (ad esempio la
media). L’errore standard rappresenta l’errore che noi commettiamo se consideriamo ad esempio la media
calcolata su un campione come la media vera della popolazione.
La variabilità delle medie campionarie (𝐸𝑆) è minore della variabilità della popolazione (𝜎), ed è tanto
minore, tanto maggiore è la numerosità campionaria.
NB: deviazione standard è diversa dall’errore standard:


La deviazione standard è una misura di variabilità fra individui
L’errore standard è una misura di incertezza della stima.
DISTRIBUZIONE DELLA V.A. VARIANZA CAMPIONARIA
Anche la statistica 𝑆 (deviazione standard o scarto quadratico medio) ha una sua distribuzione campionaria,
ovvero gli scarti quadratici medi dei campioni si distribuiscono attorno al vero scarto quadratico medio
della popolazione, proprio come le medie dei campioni si distribuiscono attorno alla media della
popolazione.
NB: 𝑆 2 è una stima sistematicamente errata di 𝜎 2 .
La media della distribuzione campionaria di 𝑆 2 per campioni casuali, non è 𝜎 2 ; non si verifica l’eguaglianza
perfetta tra valore atteso della varianza campionaria e il suo omologo nella popolazione: i due valori
risultano connessi come segue: 2
𝐸(𝑆 2 ) =
𝑛−1 2
𝜎
𝑛
Per questo motivo siamo portati a definire un’altra statistica, definita come varianza campionaria corretta:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1 2
𝑆̂2 =
𝑆 =
𝑛
𝑛−1
In questo modo avremo che 𝐸(𝑆̂2 ) = 𝜎 2
Il valore atteso della varianza campionaria (calcolata con 𝑛 − 1) è la varianza della popolazione, in altre
parole la varianza campionaria (calcolata con 𝑛 − 1) è una stima non distorta della varianza della
popolazione.
Sovente non si conosce la deviazione standard della popolazione di riferimento, si usa allora la statistica S
del campione per ottenere l’errore standard stimato: 𝜎̂𝑥 = 𝑆⁄√𝑛 − 1
La distribuzione della varianza campionaria corretta ha una funzione di densità basata sul chi quadrato con
𝜎2
2
𝑛 − 1 gradi di libertà: 𝑛−1 𝜒(𝑛−1)
La varianza di una varianza è funzione dl momento centrale di quart’ordine del fenomeno x, della varianza
alla seconda e dell’ampiezza del campione 𝑉𝐴𝑅 (𝑆 2 ) = 𝑓𝑢𝑛𝑧𝑖𝑜𝑛𝑒 ( 𝜇4, 𝜎4, 𝑛)
In sintesi: La distribuzione campionaria delle medie permette di fare inferenza sulla media della
popolazione quando si conosce 1 solo campione di dimensioni n.
Ha le seguenti proprietà:
la media della distribuzione campionaria delle medie è uguale alla media μ della popolazione.
La deviazione standard della distribuzione campionaria delle medie è funzione della
numerosità n del campione e della deviazione standard (σ) della popolazione. Tale quantità si
chiama Errore standard (ES): 𝜎 /√𝑁 . Se non conosciamo σ della popolazione, può essere
stimato a partire dai dati del campione, e l’ES diventa: 𝑆/√𝑁 − 1
La distribuzione campionaria è approssimativamente normale, indipendentemente dalla
distribuzione della popolazione, posto che n sia sufficientemente grande (𝑛 ≥ 30).
CAMPIONE
 𝑚𝑒𝑑𝑖𝑎
 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎
 𝑑𝑒𝑣. 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑
𝑥̅
𝑆2
𝑆
POPOLAZIONE
 𝑚𝑒𝑑𝑖𝑎
 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎
 𝑑𝑒𝑣. 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑
𝜇
𝜎2
𝜎
DIST CAMPIONARIA DELLE MEDIE
 𝑚𝑒𝑑𝑖𝑎
𝐸(𝑋̅) = 𝜇
 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎
𝑉𝐴𝑅(𝑋̅) = 𝜎 2
 𝑑𝑒𝑣. 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝐸𝑆(𝑋̅) = 𝜎⁄√𝑁
DISTRIBUZIONI CAMPIONARIE E DISTRIBUZIONI DI PROBABILITÀ
Per associare una probabilità ad una media campionaria (𝑛 ≥ 30) se conosciamo δ della popolazione
facciamo riferimento alle tavole della normale standardizzata.
La standardizzazione sarà fatta usando i parametri di tale distribuzione campionaria:
𝑥̅ − 𝜇
𝑍𝑥̅ = 𝜎
⁄ 𝑛
√
Quando il campione è piccolo e/o non conosciamo la varianza della popolazione possiamo stimarla
attraverso quella del campione, ma per associare un valore di probabilità al risultato ottenuto in un
campione bisogna utilizzare la distribuzione t di Student al posto della normale standardizzata.
La distribuzione t di Student (William Gosset 1876-1937): possiede le stesse caratteristiche della
distribuzione normale, ma ha una forma più schiacciata che esprime una variabilità maggiore intorno alla
media.
La variabilità della media e lo schiacciamento della curva dipendono dall’ampiezza campionaria, ovvero
tanto più i campioni sono piccoli, maggiore sarà la variabilità e tanto più schiacciata risulterà la curva.
Il valore di t dipende dalla numerosità campionaria, quindi non esiste una sola distribuzione t, ma ne
esistono tante in funzione dei gradi di libertà, dati dalla quantità 𝑛 − 1.
Se i gdl sono quei valori liberi di variare, poste certe restrizioni, allora se abbiamo un campione di
numerosità n, i gdl saranno sempre un valore in meno rispetto ad n: 𝐺𝑑𝑙 = 𝑛 − 1
Il percorso dell’inferenza statistica si svolge seguendo le seguenti fasi:
1. estrazione di un campione della popolazione
2. calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati contenuti nel
campione
3. stima dei parametri nella popolazione in base ai risultati forniti dal campione.
Distinguiamo tra
θ = (teta) PARAMETRO -> valore reale, fisso riferito a una popolazione che però non possiamo
conoscere, è ignoto; è uno dei valori che governa la variabile all’interno della popolazione
T = STIMATORE del parametro θ; (T)-> funzione delle determinazioni campionarie T= f(Xi) è anche detto
riassunto campionario
t = uno dei valori possibili di T, estratto dal campione selezionato
per indicare che il valore trovato (t) è una stima del parametro θ, si mette il simbolo ^ sopra il simbolo del
parametro
Proprietà degli stimatori:
Correttezza
uno stimatore si definisce corretto se il suo valore atteso corrisponde al valore del parametro nella
popolazione 𝐸(𝑇) = 𝜃 → 𝐸(𝑇) − 𝜃 = 0
Ad esempio 𝐸(𝑥̅ ) = 𝜇
La distorsione di uno stimatore B (Bias) si definisce: 𝐸(𝑇) − 𝜃 = 𝐵𝑖𝑎𝑠
 Stimatore assolutamente corretto 𝐸(𝑇) − 𝜃 = 0
 Stimatore asintoticamente corretto se la distorsione tende a zero quando n tende a infinito 𝑛 →
∞ ; 𝐵𝑖𝑎𝑠 → 0
 Stimatore distorto 𝐵𝑖𝑎𝑠 ≠ 0
In termini di correttezza la mediana è uno stimatore corretto tanto quanto la media
La varianza campionaria è uno stimatore solo asintoticamente corretto, dal momento che al crescere di n la
varianza campionaria e la varianza campionaria corretta tendono a coincidere
Efficienza
uno stimatore si definisce efficiente se, a parità di altre condizioni, la sua varianza risulta minore. La
stima dell’errore standard (per popolazioni finite) è: 𝑆(𝑥̅ ) =
𝑆̂
√𝑛
𝑁−𝑛
( 𝑁−1 )
L’efficienza relativa di uno stimatore corretto 𝑇 rispetto a un altro stimatore corretto 𝑇′ è dato dal
rapporto tra le loro precisioni:
𝐸𝑓𝑓
𝑇 𝑉𝐴𝑅(𝑇′)
=
𝑇′ 𝑉𝐴𝑅(𝑇)
𝜎𝑇 è più efficiente di 𝜎𝑇′ se il loro rapporto è > 1:
La media è uno stimatore più efficiente della mediana.
1⁄𝜎𝑇
1⁄𝜎𝑇′
=
1
𝜎𝑇
∗
𝜎𝑇′
1
=
𝜎𝑇′
𝜎𝑇
>1
Quando uno stimatore risulta più efficiente di qualsiasi altro si parla di efficienza assoluta.
Precisione
Uno stimatore è tanto più preciso quanto minore è la dispersione della distribuzione campionaria.
Questa caratteristica ci fornisce una stima dell’accuratezza dello stimatore, e è misurata attraverso l’errore
standard (SE): 𝐸𝑆: 𝜎⁄√𝑛
Consistenza
Uno stimatore viene definito consistente se all’aumentare della numerosità campionaria aumenta anche la
probabilità che il valore della stima (T) sia uguale al valore del parametro nella popolazione (θ). Cioè che la
distorsione B (bias) e la varianza di T tendono entrambe a 0
Una misura della consistenza è l’errore quadratico medio (MSE):
𝑀𝑆𝐸 = 𝐸(𝑇 − 𝜃)2
dove T è un generico stimatore del parametro θ
L’MSE risulta scomponibile in due parti: la varianza dello stimatore dovuta all’errore casuale (imprecisione)
e il quadrato della distorsione: 𝜎 2 (𝑇) + 𝐵2 (𝑇).
Si dice che T è consistente se l’MSE tende a 0 quando n tende a infinito
L’individuazione della funzione dei dati campionari che permette di avere una stima dei parametri è detta
naturale => vi è un reciproco tra T calcolato sul campione e θ della popolazione di riferimento
Un esempio di un estimatore naturale è la media e la varianza 𝜇 = 𝑥̅ ; 𝜎 2 = 𝑆 2
STIMA PUNTUALE
se non è possibile individuare un estimatore diretto si utilizzano degli algoritimi detti “metodi di stima” per
calcolare la stima del parametro
due di questi metodi sono:
il metodo dei minimi quadrati (MMQ)
il metodo della massima verosimiglianza (ML)
Con il metodo dei minimi quadrati (MMQ) si stima il parametro mediante quel valore che rende minima la
somma delle distanze al quadrato tra le osservazioni e il parametro stesso.
Ad esempio: se vogliamo stimare la vera lunghezza di un oggetto, sulla base di n misurazioni ( 𝑥𝑖 ) affette da
errore casuale, la stima del parametro è quel valore che minimizza la seguente espressione:
𝑛
𝑛
2
∑(𝑥𝑖 − 𝑥̅ ) = min
𝑖=1
1
𝑥̅ = ∑ 𝑥𝑖
𝑛
𝑖=1
Massima verosimiglianza (ML) (Fisher) è legato all’idea che le reali caratteristiche della popolazione
generano con diversi livelli di probabilità distribuzioni campionarie diverse.
Il metodo di stima della massima verosimiglianza funziona al contrario: dato un certo campione si cerca di
stimare quei parametri che con un grado di probabilità più elevato possono aver generato il campione
osservato.
Vado a considerare come stima di μ il valore che rende massima la probabilità di osservare quel valore =>
probabilità di un evento composto indipendente
𝑃(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) = 𝑃(𝑥1 ) ∗ 𝑃(𝑥2 ) … ∗ 𝑃(𝑥𝑛 )
Se 𝑥1 , 𝑥2 , … , 𝑥𝑛 sono osservazioni campionarie di un campione casuale con reinserimento. Ogni
osservazione assume un valore che è indipendente da quello delle altre e ha una funzione di
probabilità f(𝑥𝑖 ; Θ). La densità di probabilità congiunta dell’intero campione è data da:
𝑛
𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; Θ) = 𝑓(𝑥1 ; Θ) ∗ 𝑓(𝑥2 ; Θ) … ∗ 𝑓(𝑥𝑛 ; Θ) = ∏ 𝑓(𝑥𝑖 ; Θ)
𝑖=1
Mentre la funzione di verosimiglianza è data da:
𝑛
𝐿(Θ) = 𝐿(Θ; 𝑥1 , 𝑥2 , … , 𝑥𝑛 ) = ∏ 𝑓(𝑥𝑖 ; Θ)
𝑖=1
Tra i diversi valori che un parametro può assumere cerchiamo quello che ha maggiore probabilità di
aver generato i dati campionari osservati.
Per ottenere questo valore bisogna calcolare il massimo della funzione L(θ).
NB: Oltre alla stima puntuale deve essere sempre anche indicato l’errore standard della stima σT (indica
quanto la stima si discosta dal parametro). Più l’errore standard è piccolo più la stima è buona
STIMA INTERVALLARE
Nella stima puntuale non possiamo aspettarci che la nostra stima T coincida con il parametro vero θ, ma è
più lecito chiedersi qual è il grado di approssimazione che possiamo aspettarci.
Negli anni 30 Neyman propose di fare una stima intervallare ovvero individuare un intervallo “I” entro il
quale il parametro ignoto si trova con un certo grado di probabilità. Non stimiamo più il valore esatto del
parametro, ma un intervallo di valori che, con un certo grado di probabilità o fiducia, conterrà il vero valore
della popolazione.
Pertanto spesso si preferisce stimare un intervallo di valori entro i quali si ritiene sia compreso il parametro
in esame con un certo grado di “confidenza”. Questo range di valori si chiama intervallo di confidenza o di
fiducia.
I limiti dell’ intervallo (L1 , L2 ) sono detti limiti di fiducia o di confidenza; più è ampio l’intervallo maggiore
sarà la probabilità che contenga il vero valore della popolazione. L’ampiezza dell’intervallo di confidenza
dipende dal livello di probabilità (o di confidenza) che è fissato a priori dal ricercatore.
A parità di livello si significatività la precisione della stima intervallare migliora al crescere della numerosità
del campione. Fissando a priori il livello di accuratezza desiderato calcoliamo quanto deve essere grande il
campione per ottenere una stima con quel livello di accuratezza.
La procedura di stima intervallare richiede che sia verificato almeno uno dei seguenti pre-requisiti:


La variabile si distribuisca normalmente
Il campione sia sufficientemente ampio (𝑛 ≥ 30) per cui grazie al tlc (teorema del limite centrale),
la forma della distribuzione della variabile nella popolazione è indifferente
Si definisce intervallo di confidenza un range di valori costruito intorno alla stima campionaria, all’interno
dei quale, con un certo grado di probabilità sarà contenuto il vero valore del parametro della popolazione.
L’ampiezza dell’intervallo viene determinata in base a un livello di probabilità che è fissato a priori dal
ricercatore.
Il livello di probabilità che viene fissato, è definito dall’espressione 1 − 𝛼 è detto livello di significatività. I
valori più usati di α sono 0,05 e 0,01 a cui corrispondono i coefficienti di fiducia 0,95 e 0,99
Quindi la stima di 𝜃̂ è dato da : 𝜃̂ = 𝑡 ± 𝑣𝑎𝑙𝑐 𝜎𝑇
valc : valore critico, dipende dal livello di confidenza (1-α) ; il valore critico dipende dal tipo di distribuzione
della variabile. Se si tratta di una distribuzione normale utilizziamo lo z critico
data una popolazione on distribuzione di probabilità caratterizzata dal parametro θ ed estratti numerosi
campioni casuali indipendenti, si verifica che ogni campione fornisce una stima diversa e quindi l’intervallo
di fiducia è posizionato in modo diverso rispetto a θ; nell’1-α di questi intervalli sarà contenuto il valore del
parametro ignoto (θ). In pratica il ricercatore estrae uno solo di questi campioni e osserva pertanto un solo
intervallo al quale attribuisce una probabilità 1-α di contenere il vero valore di θ
stima intervallare di una media
il caso più semplice di stima intervallare riguarda la media della distribuzione di una variabile nella
popolazione con campione grande (>30) e varianza nota
il procedimento di stima di μ avviene mediante la media campionaria Xmedio ; poiché questa di
distribuisce normalmente con media μ e errore standard 𝜎/√𝑛, la probabilità di ottenere un valore
Xmedio che non si discosti da μ ±zc volte l’errore standard è data dalla seguente relazione:
𝑃 (𝑥̅ − 𝑧𝑐
𝜎
√𝑛
≤ 𝜇 ≤ 𝑥̅ + 𝑧𝑐
𝜎
√𝑛
)=1−𝛼
Il valore si z critico è connesso al valore di α prescelto (vedi tabelle)
In una distribuzione normale standardizzata il 95% dei valori è compreso tra -1.96 e +1.96
−1.96 < 𝑍 < +1.96
Dunque un IC al 95% per la media (μ) è dato da: (𝑋𝑚𝑒𝑑𝑖𝑜 − 1.96 ∗ 𝜎/√𝑛 ; 𝑋𝑚𝑒𝑑𝑖𝑜 + 1.96 ∗ 𝜎/√𝑛)
Un intervallo di confidenza al 95% è un intervallo in cui in 95 casi su 100 cadrà il vero valore della
media della popolazione. Quindi: Siamo confidenti al 95% che la media μ della popolazione è
compresa.
Per associare una probabilità ad una media campionaria calcolata su un campione con n>30 facciamo
riferimento alle tavole della normale standardizzata, poiché la distribuzione campionaria delle medie è
normale per il tlc.
La standardizzazione della media sarà fatta in riferimento ai parametri di tale distribuzione campionaria che
possono essere calcolati conoscendo quelli della popolazione. Si ricava z attraverso la seguente formula:
𝑍𝑥̅ =
𝑋̅ − 𝜇
𝑋̅ − 𝜇
= 𝜎
𝜎
⁄ 𝑛
√
Se però (come spesso accade) la varianza della popolazione è ignota, occorre stimare σ2 con la varianza
campionaria corretta 𝑆̂2
𝑆̂2 =
𝜇̂ =
𝑥̅
Stima di μ è uguale alla media
del campione
∑(𝑥𝑖 − 𝑥̅ )2
𝑛
𝑆2 =
𝑛−1
𝑛−1
𝜎
⁄ 𝑛
√
𝜎𝑥̅ =
σ della media del campione di calcola
facendo il rapporto tra σ e la radice della
numerosità del campione
𝜎̂ =
La stima di σ:
è uguale a
𝑆̂⁄√𝑛 var corretta
𝑆⁄√𝑛 − 1 var non corretta
il fatto che 𝑆̂ sia una stima di σ fa sì che la sua distribuzione di probabilità non sia più normale, ma sia
una t di student 𝑡 = 𝑧⁄ 2
√𝜒 ⁄𝜐
Pur partendo da una distribuzione normale (z) la media standardizzata si distribuisce come un t di
student. I suoi gradi di libertà sono n-1
Il valore critico va cercato nelle tavole della t di student => si usa il t critico (tc)
𝜇̂ = 𝑥̅ ± 𝑡𝑐 𝜎̂𝑥̅
La t ha code più ampie di una distribuzione normale, ma per ν>30 => t ≈ NOR (0,1)
Per gradi di libertà superiori a 30 la t di student approssima una distribuzione normale standardizzata. t è
una distribuzione usata per campioni piccoli
Bisogna distinguere due situazioni:
Campione grande e varianza nota
Distribuzione normale standardizzata
Campione grande e varianza ignota
se non conosciamo la varianza della popolazione possiamo stimarla attraverso quella del campione,
ma per costruire gli IC bisogna utilizzare la distribuzione t di Student al posto della normale
standardizzata
Campione piccolo e varianza della popolazione nota
La procedura di stima è identica al caso in cui N>30: si usa comunque la distribuzione normale
standardizzata.
Campione piccolo e varianza della popolazione ignota
Quando il campione è piccolo e non conosciamo la varianza della popolazione possiamo stimarla
attraverso quella del campione, ma per costruire gli IC bisogna utilizzare la distribuzione t di
Student al posto della normale standardizzata
La distribuzione t di student possiede le stesse caratteristiche della distribuzione normale, ma ha una forma
più schiacciata che esprime una variabilità maggiore intorno alla media.
La variabilità della media e lo schiacciamento della curva dipendono dall’ampiezza campionaria, ovvero
tanto più i campioni sono piccoli, maggiore sarà la variabilità e tanto più schiacciata risulterà la curva.
Il valore di t dipende dalla numerosità campionaria, quindi non esiste una sola distribuzione t, ma ne
esistono tante in funzione dei gradi di libertà, dati dalla quantità n-1.
I gradi di libertà esprimono i valori liberi di variare poste alcune restrizioni. Se i gdl sono quei valori liberi di
variare, poste certe restrizioni, allora se abbiamo un campione di numerosità n, i gdl saranno sempre un
valore in meno rispetto ad n: Gdl=n-1
La t di student è una famiglia di variabili aleatorie, cambiano in base ai gradi di libertà
NB: la media campionaria standardizzata con σ stimato, si distribuisce come una t di student solo se la
popolazione si distribuisce normalmente ( non è un problema se la popolazione è grande, ma lo è se la
popolazione è piccola)
La dicitura “ipotesi mono o bidirezionale” presente sulle tavole ha a che fare col valore delle code della
distribuzione
o
o
Bidirezionale = α va spaccato a metà, nelle due code (ogni coda vale α/2)
Monodirezionale = α sta tutta su una coda
Stima intervallare di una proporzione
Se consideriamo una variabile qualsiasi dicotomica e codificata con valori 0 e 1, la media costituisce la
proporzione degli 1 sul totale. La varianza 𝜎 2 è data da 𝑝 ∗ 𝑞, ovvero le rispettive probabilità di
accadimento delle due classi di eventi (0; 1): l’errore standard è quindi dato da: √
𝑝∗𝑞
𝑛
Per la stima intervallare di una proporzione si procede come nel caso di stima intervallare della media
(distinguendo a seconda della numerosità del campione e delle informazioni sulla varianza).
Quando stimiamo proporzioni possiamo procedere come se la varianza fosse nota, assumendo per cautela
il suo valore massimo, raggiunto quando 𝑝 = 𝑞 = 0,5
Precisione della stima e ampiezza del campione
A parità di livello di significatività, la precisione della stima intervallare migliora al crescere della numerosità
campionaria.
Se il campionamento non è affetto da distorsione sappiamo che otterremo una media campionaria tale
che: 𝑥̅ = 𝜇 ± 𝜀
Dove 𝜀cè l’errore casuale e μ è la media della variabile della popolazione (il parametro da stimare)
Sappiamo anche che l’errore standard della distribuzione campionaria delle medie (𝜎⁄√𝑛 ) diminuisce
all’aumentare della numerosità campionaria. Pertanto a parità di condizioni, un campione più grande di un
altro fornisce rispetto a quest’ultimo una stima dei parametri più accurata.
È necessario fissare a preventivamente il livello di fiducia dell’errore che si è disposti a compiere.
Se il rapporto tra n (numerosità campionaria) e N (numerosità dell’universo è superiore al 5%, e il
campionamento è senza ripetizione, l’errore campionario va calcolato tenendo conto della frazione di
campionamento:
𝑒 = 𝑧𝑐
𝜎
√𝑛
𝑁−𝑛
(√ 𝑁−1 )
TEST DI IPOTESI STATISTICHE
In un test di verifica di ipotesi, a differenza dei metodi di stima precedenti, non si mira a identificare
approssimativamente il valore di un parametro incognito, ma si vuole accertare se una certa affermazione
su parametro debba ritenersi vera o falsa.
Un’ipotesi è un’affermazione relativa a un fenomeno che può essere controllata empiricamente. Verificare
un’ipotesi significa controllare attraverso i dati di un campione la plausibilità dell’ipotesi stessa (è sinonimo
di testare).
I test statistici sono procedure formalizzate con le quali si sottopone a falsificazione una certa ipotesi
(definita ipotesi nulla H0); l’ipotesi alternativa o di ricerca, indicata con H1 , contiene un’affermazione non
compatibile con quella dell’ipotesi nulla. In altri termini H0 e H1 devono essere mutualmente esclusive
Si va a valutare se H0 è compatibile o meno coi dati del campione; a tale fine viene calcolata la statistica
test. Si mira a verificare se H0 è incompatibile coi dati al fine di rinforzare l’ipotesi del ricercatore
o
o
se H0 è compatibile coi dati => accettiamo H0
se H0 è incompatibile coi dati => rifiutiamo H0
qualunque sia l’ipotesi che ha passato un test, è bene tenere presente che essa non può mai in ogni caso,
essere assunta come definitivamente provata.
L’ipotesi alternativa H1 è un’ipotesi composta, essa afferma l’esistenza di una differenza tra due parametri
che non è riassumibile in un valore puntuale, bensì in un intervallo attorno ad esso (oppure alla sua sinistra
o alla sua destra). In alcuni casi l’ipotesi di ricerca prevede in segno della differenza tra il parametro di base
al il valore di riferimento, nel qual caso si parla di ipotesi unidirezionale. In altri casi si limita a prevedere
una differenza solo in termini assoluti, nel qual caso si parla di ipotesi bidirezionali.
L’ipotesi nulla H0 è invece per la più rappresentata da un’ipotesi semplice, rappresentabile come un punto
nello spazio dei parametri.
Per stabilire una regola di decisione su quale delle due ipotesi trattenere, è necessario fissare a priori
l’entità della differenza che consideriamo statisticamente significativa tra i due valori. Dobbiamo decidere a
priori il confine oltre al quale il nostro dubbio è considerato come probabilmente infondato.
Una volta formulate correttamente le ipotesi, si tratterà di individuare il test adeguato per il problema in
oggetto. Si noti che ogni test richiede che siano verificati determinati assunti: alcuni valgono per quasi tutti
i test, altri sono tipici di alcuni tipi specifici.
I test di ipotesi statistiche possono essere classificati secondo diversi criteri. Un primo criterio di
classificazione dei test di ipotesi statistiche è il tipo di variabile del campione (ed eventualmente il tipo di
proprietà ella popolazione) che sottoponiamo a test; in questo caso distingueremo tra test per variabili
categoriali, ordinali e cardinali. Un secondo criterio riguarda il numero di variabili implicate, secondo il
quale distinguiamo tra test su singole variabili e test su relazioni tra variabili (in questo caso diventa
rilevante la distinzione tra dipendenza e indipendenza tra le variabili).
Di notevole importanza è poi la distinzione tra test parametrici e test non parametrici. Generalmente, i test
parametrici sono applicabili a variabili cardinali, mentre i test non parametrici a variabili categoriali e
ordinali.
Errori del primo e del secondo tipo (α e β)
Poiché gli eventi studiati sono intrinsecamente probabilistici, la decisione che prendiamo circa la
veridicità/falsità delle ipotesi che li riguardano è per definizione affetta dalla possibilità di commettere un
errore.
 È possibile respingere un’ipotesi H0 che in realtà è vera, commettendo un errore del primo tipo. La
probabilità di commettere tale errore, o livello di significatività del test è indicato con 𝛼
 È possibile che si accetti un’ipotesi H0 che in realtà è falsa, commettendo un errore del secondo
tipo. La probabilità di commettere questo errore è indicata con 𝛽
Non è possibile, dato un certo campione, ridurre la probabilità di commettere l’errore di un tipo senza nello
stesso tempo aumentare la probabilità di commettere quello dell’altro tipo.
La probabilità massima di commettere un errore del primo tipo viene stabilita a priori, ad 𝛼 viene attribuito
un valore si 0,01 o 0,05. Con la scelta del livello di significatività, oltre a fissare il rischio di commettere un
errore del primo tipo, fissiamo il valore che può assumere l’errore del secondo tipo: a parità di condizioni,
al diminuire di uno aumenta l’altro.
La probabilità di commettere un errore del primo tipo è uguale alla somma delle probabilità dei risultati che
ci fanno respingere l’ipotesi nulla, ossia di quei risultati che rientrano nella regione di rifiuto.
Occorre sempre tenere presente l’errore di tipo beta: se non possiamo respingere l’ipotesi nulla dato un
certo livello di significatività non è detto che essa sia sicuramente vera.
I test statistici sono costruiti in modo tale da bilanciare i due tipi di errore, si può però osservare che test
diversi hanno una diversa sensibilità all’errore del secondo tipo; si parla a tal proposito di potenza di un
test. Formalmente la potenza è definita come 1 − 𝛽
Accettazione H0
Rifiuto H0
H0 vera
H0 falsa
Congruenza
Errore del 2° tipo
𝑝 =1−𝛼
𝑝= 𝛽
Errore del 1° tipo Congruenza
𝑝=𝛼
𝑝 = 1−𝛽
Per effettuare un Test di verifica di ipotesi occorre:
1. creare un SISTEMA DI IPOTESI ovvero espletare H0 e H1
2. associare al sistema di ipotesi una STATISTICA TEST che permette di decidere se accettare o meno
H0
3. stabilisco il valore di α
4. calcolo della distribuzione campionaria della statistica test
5. andiamo a calcolare il valore della statistica test e lo posizioniamo in base alla sua distribuzione
campionaria => osservo se H0 è visino o meno al valore atteso
VERIFICA DI IPOTESI MONOVARIATE
test binomiale sulla probabilità di un evento
viene applicato a variabili dicotomiche (variabili categoriali). Permette di testare ipotesi sulla probabilità del
verificarsi di un certo evento in un numero n di prove
𝐻0 ∶ 𝑝 = 𝑝0
𝐻1 : 𝑝 ≠ 𝑝0
Si vuole testare la probabilità del verificarsi di un determinato evento sia uguale a un prefissato valore p0.
Effettuiamo n prove dello stesso esperimento e basare il nostro test sul numero delle volte in cui l’evento
successo p si è verificato.
Ogni estrazione è una prova bernoulliana, nella quale i due venti, successo e insuccesso, hanno
rispettivamente probabilità p e q di verificarsi (con 𝑝 + 𝑞 = 1 ). L’estrazione di un singolo caso è una
variabile aleatoria di Bernoulli; quando procediamo a n estrazioni, il numero di successi è una variabile
aleatoria, questa volta con una distribuzione binomiale ancora governata da p, probabilità del successo, ma
che dipende ora anche dal numero delle prove effettuate (n).
Consideriamo vera l’ipotesi nulla, calcoliamo quale probabilità hanno i singoli valori che costituiscono il
supporto della variabile aleatoria binomiale X
𝑁
𝑃(𝑋 = 𝑥) = ( ) 𝑝 𝑥 ∗ 𝑝𝑁−𝑥
𝑥
Individuata la distribuzione campionaria opportuna, attraverso il valore di α individuiamo la regione del
rifiuto. Si tratta di trovare quel valore di x che lascia alla sua sinistra un insieme di valori la cui probabilità
totale è uguale a α; il valore che individua la regione di rifiuto viene detto valore critico.
Il valore critico xo sarà quel valore per il quale:
𝑥0
∑ 𝑝(𝑥𝑖 ) ≠ 𝑝0
𝑖=0
Dal momento che l’ipotesi di ricerca è bidirezionale vanno individuati due valori critici, ciascuno dei quali
lascia sulla coda della distribuzione un insieme di valori la cui probabilità totale fosse pari a 𝛼 ⁄2
Il test binomiale viene applicato soltanto quando n è molto piccolo; al tendere di n a infinito infatti, per il
Teorema del limite centrale, la distribuzione binomiale tende a quella normale con media 𝑚 ∗ 𝑝 e varianza
𝑛 ∗ 𝑝 ∗ 𝑞: sarà sufficiente allora standardizzare il valore osservato di X e utilizzare come distribuzione
campionaria la normale standardizzata. In generale si ritiene accattabile l’approssimazione partire da valori
di 𝑛 ≥ 30
test del chi quadrato per la bontà di adattamento
permette di verificare se una distribuzione empirica si discosta significativamente da una qualche
distribuzione teorica, discreta o continua. Questo test viene applicato a variabili categoriali
𝐻0 : 𝑋~𝑓(𝑋; 𝜃)
𝐻1 : 𝑋 𝑛𝑜𝑛 ~𝑓(𝑋; 𝜃)
Si va a impostare una tabella con indicate le frequenze teoriche e quelle osservate. Possiamo a questo
punto calcolare la statistica χ2 che è dato dalla seguente formula:
𝐾
2
𝜒 = ∑
𝑘=1
(𝑛𝑘 − 𝑛̂𝑘 )2
𝑛̂𝑘
Dove 𝑛𝑘 indica la frequenza empirica di una generica modalità , 𝑛̂𝑘 la corrispondente frequenza teorica
(frequenza derivata in base all’ipotesi nulla) e K indica il numero di categorie.
Se l’ipotesi nulla è vera, la statistica test si distribuisce approssimativamente come la v.a. χ2 con K-1 gradi di
libertà.
Per verificare ipotesi relative a distribuzioni continue; in questo caso la statistica test opera su frequenze, si
tratta quindi di discretizzare i valori della distribuzione, suddividendo le osservazioni ad esempio in decili.
Perché il test abbia una sufficiente potenza, vi è il vincolo che le frequenza teoriche siano almeno uguali a 1
e che il 20% o più delle frequenze teoriche non contenga valori inferiori a 5
test della media di una popolazione
test usato per variabili cardinali, si mira a verificare se la media X nella popolazione è uguale a un valore
dato
𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 ≠ 𝜇0
Si utilizza la statistica test z, confrontata con una distribuzione normale standardizzata, se la varianza della
popolazione è nota. Si utilizza la statistica test t,confrontata con la distribuzione t di student se la varianza
della popolazione è ignota.
Se l’ipotesi nulla è vera e gli assunti sono rispettati, sappiamo che la distribuzione campionaria della media
è normale, con media 𝜇0 e varianza 𝜎 2 ⁄𝑛, dove 𝜇0 e 𝜎 2 rappresentano la media e la varianza della
popolazione di riferimento e n è la numerosità del campione. Se standardizziamo la media campionaria
essa avrà una distribuzione normale standardizzata, con media 0 e varianza pari a 1.
Il valore critico (detto z critico) andrà ricercato nella tavola statistica della distribuzione normale
standardizzata. Il valore critico sarà quello che lascia alla sua sinistra un insieme di valori la cui probabilità
totale è 0,5-α se l’ipotesi alternativa è monodirezionale; o,5-α/2 se l’ipotesi alternativa è bidirezionale. Si
confronta il valore dello zc con quello dello z calcolato dalla statistica test:
𝑧=
𝑥̅ − 𝜇0
𝜎⁄√𝑛
Nel caso in cui la media della popolazione è nota mentre è ignota la varianza varia solamente la
distribuzione campionaria della statistica test. Dovendo utilizzare al posto dello scarto quadratico medio
della popolazione la sua stima campionaria corretta, la media campionaria standardizzata non si
distribuisce più come una v.a. normale standardizzata ma come una v.a. t di student, con n-1 gradi di libertà
𝑡=
𝑋̅ − 𝜇
𝑠̂ ⁄√𝑛
𝑜𝑝𝑝𝑢𝑟𝑒
𝑡=
𝑋̅ − 𝜇
𝑠⁄√𝑛 − 1
Quando il campione è sufficientemente grande è possibile ricorrere anche in quest’ultimo caso alla
distribuzione normale standardizzata, poiché al crescere dei gradi di libertà, e quindi al crescere di n, la
distribuzione t approssima sempre di più una distribuzione normale standardizzata.
INFERENZA SU DUE VARIABILI
Stima intervallare della differenza tra due medie
In questo caso si ricorre alle medie di due campioni (𝑋̅1e 𝑋̅2) per stimare μ 1 e μ2
Si considerino due popolazioni con media e varianza rispettivamente (𝜇1 e 𝜎12 ) e (𝜇2 e 𝜎22 ) da cui possono
essere generate due distribuzioni campionarie di medie, rispettivamente 𝑋̅1e 𝑋̅2 . Prendendo tutte le
possibili combinazioni di questi campioni delle due popolazioni, otteniamo una distribuzione campionaria
della differenza tra le de medie, 𝑋̅1-𝑋̅2 . La media e la deviazione standard di questa distribuzione
campionaria sono denotate rispettivamente da: 𝜇𝑋̅1 −𝑋̅2 e 𝜎𝑋̅1 −𝑋̅2
Se i campioni scelti sono indipendenti :
La distribuzione campionaria della differenza tra medie per popolazioni infinite assume i seguenti valori
caratteristici:
𝜇𝑋̅1 −𝑋̅2 = 𝐸(𝑋̅1 − 𝑋̅2 ) = 𝜇1 − 𝜇2
𝜎𝑋̅1 −𝑋̅2
= 𝑉𝐴𝑅(𝑋̅1 − 𝑋̅2 ) = 𝑉𝐴𝑅(𝑋̅1 ) + 𝑉𝐴𝑅(𝑋̅2 ) − 2𝐶𝑂𝑉(𝑋̅1 , 𝑋̅2 ) =
𝜎12 𝜎22
+
𝑛1 𝑛2
La varianza della differenza tra medie è necessariamente maggiore delle varianze delle medie prese
singolarmente: essa infatti deriva da due diverse fonti di fluttuazione, una per ognuno dei campioni.
Se le due popolazioni sono normali la forma della distribuzione campionarie della differenza tra due medie
è approssimativamente normale con media (𝜇1 − 𝜇2 ) e varianza (𝜎1 ⁄𝑛1 + 𝜎2 ⁄𝑛2 )
Se le popolazioni non sono normali e i campioni estratti dalle due popolazioni hanno ampiezze n1 e n2
molto grandi, per il teorema del limite centrale la distribuzione tenderà comunque a una normale
 campioni grandi e varianze delle popolazioni note
la differenza tra due medie campionarie si distribuisce normalmente , con media (𝜇1 − 𝜇2 ) e varianza
(𝜎1 ⁄𝑛1 + 𝜎2 ⁄𝑛2 ).
La determinazione dell’intervallo di confidenza è analoga a quanto avviene per il caso di parametri
singoli:
𝜎12 𝜎22
𝜎12 𝜎22
𝑃 ((𝑋̅1 − 𝑋̅2 ) − 𝑧𝑐 √ +
≤ 𝜇1 − 𝜇2 ≤ (𝑋̅1 − 𝑋̅2 ) + 𝑧𝑐 √ + ) = 1 − 𝛼
𝑛1 𝑛2
𝑛1 𝑛2
 campioni grandi e varianze delle popolazioni ignote
in questo caso vale una formula che si differenzia da quella precedente solo per il fatto che 𝑠̂12 e 𝑠̂22
prendono il posto di 𝜎12 e 𝜎22 . Quindi :
𝑠̂12 𝑠̂22
𝑠̂12 𝑠̂22
𝑃 ((𝑋̅1 − 𝑋̅2 ) − 𝑧𝑐 √ +
≤ 𝜇1 − 𝜇2 ≤ (𝑋̅1 − 𝑋̅2 ) + 𝑧𝑐 √ + ) = 1 − 𝛼
𝑛1 𝑛2
𝑛1 𝑛2
 campioni piccoli e varianze delle popolazioni note
è possibile utilizzare la procedura per i campioni grandi, a patto che le distribuzioni delle
popolazioni in esame si possano assumere normali. In caso contrario è necessario ricorrere a stime
non parametriche
 campioni piccoli e varianze delle popolazioni ignote
sempre sotto condizione che le popolazioni siano normali, è possibile ricorrere alla distribuzione
campionaria t di Student:
𝑠12 𝑛1 + 𝑠22 𝑛2 𝑛1 + 𝑛2
𝑠12 𝑛1 + 𝑠22 𝑛2 𝑛1 + 𝑛2
𝑃 ((𝑋̅1 − 𝑋̅2 ) − 𝑡𝑐 √
∗
≤ 𝜇1 − 𝜇2 ≤ (𝑋̅1 − 𝑋̅2 ) + 𝑡𝑐 √
∗
)
𝑛1 + 𝑛2 − 2 𝑛1 ∗ 𝑛2
𝑛1 + 𝑛2 − 2 𝑛1 ∗ 𝑛2
=1−𝛼
poiché perdiamo un grado di libertà nella stima di ciascuna varianza, i gradi di libertà per la
distribuzione t saranno pari a n1+n2-2
test della differenza tra due medie in due campioni indipendenti
consideriamo ora la verifica di ipotesi sulla tendenza centrale quando si disponga di variabili cardinali.
Analogamente a quanto visto per la stima intervallare possiamo distinguere a seconda della conoscenza o
meno delle varianze delle popolazioni, della loro uguaglianza o diversità e a seconda dell’ampiezza del
campione.
 Campioni di grandi dimensioni, con varianze delle popolazioni ignote e diverse (eteroschedasticità)
𝐻0 : 𝜇1 = 𝜇2
𝐻1 : 𝜇1 ≠ 𝜇2
Poiché i campioni sono grandi la distribuzione campionaria della differenza tra due medie è normale,
con media pari a (𝜇1 − 𝜇2 ) e varianza (𝜎1 ⁄𝑛1 + 𝜎2 ⁄𝑛2 ).
Calcoliamo la differenza tra le medie standardizzata, ricorrendo ad una stima delle varianze delle
popolazioni (utilizzando la varianza corretta):
𝑧=
(𝑥̅1 − 𝑥̅2 ) − (𝜇1 − 𝜇2 )
𝑠̂ 2 𝑠̂ 2
√ 1+ 2
𝑛1 𝑛2
Utilizzando invece la varianza non corretta:
𝑧=
(𝑥̅1 −𝑥̅2 )− (𝜇1 −𝜇2 )
2
𝑠2
1 + 𝑠2
𝑛1 −1 𝑛2 −2
√
Assumendo per vera l’ipotesi nulla il numeratore della formula si semplifica:
𝑧=
(𝑥̅1 − 𝑥̅2 )
𝑠̂ 2 𝑠̂ 2
√ 1+ 2
𝑛1 𝑛2
Sarà allora sufficiente individuare sulla tavola della normale standardizzata la regione critica.
 Campioni di grandi dimensioni, con varianze delle popolazioni uguali
In questo caso è utile apportare un calcolo di 𝑠̂𝑥̅ 1 −𝑥̅2 ; una buona stima sarà infatti la media ponderata
delle varianze campionarie, cioè una media che tiene conto delle diverse numerosità campionarie:
𝑠̂𝑥̅1 −𝑥̅2 = √
𝑠12 𝑛1 + 𝑠22 𝑛2
1
1
∗√ +
𝑛1 + 𝑛2 − 2
𝑛1 𝑛2
Questa nuova quantità andrà a sostituire il denominatore della formula precedente:
𝑧=
(𝑥̅1 − 𝑥̅2 ) − (𝜇1 − 𝜇2 )
𝑠 2 𝑛 + 𝑠22 𝑛2
1
1
√ 1 1
√
𝑛1 + 𝑛2 − 2 ∗ 𝑛1 + 𝑛2
In questo modo diventa minore la dispersione, l’errore standard, della distribuzione campionaria della
differenza tra medie.
MODIFICHE DA APORTARE AL TEST DELLA DIFFERENZA TRA MEDIE
CAMPIONI GRANDI
VARIANZE DELLE
NOTE
1
1
POPOLAZIONI UGUALI
𝑠̂𝑥̅1−𝑥̅2 = √𝜎 2 ( + )
𝑛1 𝑛2
Z normale standardizzata
IGNOTE
𝑠̂𝑥̅1−𝑥̅2 = √
NOTE
𝑠12 𝑛1 + 𝑠22 𝑛2
1
1
∗√ +
𝑛1 + 𝑛2 − 2
𝑛1 𝑛2
𝜎12
𝑠̂𝑥̅1−𝑥̅2 = √
𝑛1
+
𝑠12
𝑠̂𝑥̅1−𝑥̅2 = √
𝑠12 𝑛1 + 𝑠22 𝑛2
1
1
∗√ +
𝑛1 + 𝑛2 − 2
𝑛1 𝑛2
T di Student con n1+n2-2 gdl
𝜎22
𝑛2
Z normale standardizzata
IGNOTE
1
1
𝑠̂𝑥̅1−𝑥̅2 = √𝜎 2 ( + )
𝑛1 𝑛2
Z normale standardizzata
Z normale standardizzata
VARIANZE DELLE
POPOLAZIONI DIVERSE
CAMPIONI PICCOLI
𝜎12 𝜎22
𝑠̂𝑥̅1−𝑥̅2 = √ +
𝑛1 𝑛2
Z normale standardizzata
𝑠22
𝑠̂𝑥̅1 −𝑥̅2 = √
+
𝑛1 − 1 𝑛2 − 1
Z normale standardizzata
𝑠12
𝑠22
𝑠̂𝑥̅1 −𝑥̅2 = √
+
𝑛1 − 1 𝑛2 − 1
T di Student con n1+n2-2 gdl
test della differenza tra due medie in due campioni dipendenti
I due campioni sono tra loro dipendenti, ad esempio misuriamo una variabile in due tempio diversi (t0 e t1)
Se le due medie sono uguali, allora la media delle differenze tra le sue risposte in ogni soggetto della
popolazione sarà pari a 0. Se indichiamo questo parametro con il simbolo μD, l’ipotesi nulla sarà μD=0.
Per verificare che vi sia una differenze significativa tra le medie sarà quindi sufficiente confrontare D, la
media delle differenze riscontrata nel campione con μD.
si applica quindi lo stesso procedimento visto nel test della media per una popolazione
si applica rispettivamente la distribuzione z o la distribuzione t a seconda che il campione sia piccolo oppure
grande.
Test della differenza tra le varianze di due campioni indipendenti
L’uguaglianza tra le varianze di due popolazioni può essere una vera e propria ipotesi di ricerca, oppure
essere un assunto per poter effettuare altri tipi di inferenza con altri test. In entrambi i casi serve un
dispositivo che permetta di verificare la presenza o meno di omogeneità tra le varianze.
𝐻0 : 𝜎1 = 𝜎2
𝐻1 : 𝜎1 ≠ 𝜎2
Utilizziamo come statistica test la F di Fisher-Snedecor, ottenuta come rapporto tra le due varianze
campionarie corrette
Quando l’uguaglianza delle varianze rientra tra gli assunti di un determinato test si parla di
omoschedasticità, ed è a tale utilizzo del test della differenza tra le varianze di due campioni indipendenti
che faremo riferimento.
Se l’ipotesi nulla è vera il rapporto tra le due stime 𝑆̂12 e 𝑆̂22 , dovrebbe assumere un valore non
eccessivamente distante da uno:
𝐹=
𝑆̂12
𝑆̂22
Il rapporto tra le due stime è distribuito secondo una funzione nota come v.a. F di Fisher-Snedecor con un
numero di gradi di libertà, 𝜐1 e 𝜐2 , pari rispettivamente a 𝑛1 − 1 e 𝑛2 − 1
Si tratterà allora di individuare quei valori di F che lasciano alla code della distribuzione i valori che
complessivamente hanno una probabilità α di verificarsi.
Per comodità il rapporto viene effettuato ponendo al numeratore la varianze più grande, in modo da poter
consultare più agevolmente le tavole. Posto in questo modo il rapporto sarà sempre maggiore o uguale a
uno: a seconda che l’ipotesi alternativa sia uni o bidirezionale, si farà riferimento a un livello di
significatività pari a α o α/2
STATISTICA DESCRITTIVA MULTIVARIATA
Date due variabili X e Y, categoriali, ordinali o cardinali ricondotte in classi, si può essere interessati a
conoscere come si distribuiscono i casi della variabile X all’interno ci ciascuna modalità della variabile Y e
viceversa.
Con le lettere I e J indichiamo il numero delle modalità rispettivamente della variabile X e Y.
Possiamo definire la distribuzione doppia di frequenza di X e Y come la distribuzione che affianca una
frequenza ad ogni coppia (𝑥𝑖 𝑦𝑖 ). Il numero di modalità della distribuzione doppia è dato dal numero delle
combinazioni possibili tra le modalità della prima e della seconda variabile è quindi pari a 𝐼 ∗ 𝐽
Possiamo rappresentarne la distribuzione di frequenza congiunta in una tabella a doppia entrata detta
tabella di contingenza
x1
xi
xI
Tot di
colonna
y1
yj
yJ
n11
ni1
nI1
n.1
n1j
nij
nIj
n.j
n1J
niJ
nIJ
n.J
Totale
Di riga
n1.
ni.
nI.
N
Frequenze marginali: l’ultima riga e l’ultima colonna rappresentano rispettivamente la distribuzione di
frequenza (univariata) marginale di colonna e di riga (𝑛𝐼. e 𝑛.𝐽 )
Frequenze congiunte: le celle interne della tabella riportano la distribuzione di frequenza (bivariata)
congiunta delle 2 variabili (𝑛𝐼𝐽 ).
Tra le frequenze marginali valgono le seguenti relazioni:
𝐼
𝑛.𝑗 = ∑ 𝑛𝑖𝑗
𝑖=1
𝐽
𝑛𝑖. = ∑ 𝑛𝑖𝑗
𝑗=1
𝐽
𝐼
𝐽
𝐼
∑ 𝑛𝑖𝑗 = ∑ 𝑛𝑖𝑗 = ∑ ∑ 𝑛𝑖𝑗 = 𝑁
𝑗=1
𝑖=1
𝑗=1 𝑖=1
Le frequenze marginali di riga e di colonna non sono altro che la distribuzione di frequenze semplici
rispettivamente delle variabili X e Y. La somma di tutte le frequenze interne è uguale alla somma delle
frequenze marginali di riga e alla somma delle frequenze marginali di colonna. Tutte e tre le somme
restituiscono infatti la numerosità totale del collettivo (N).
Su una tabella di contingenza possiamo cola colare i percentuali di riga, di colonna e sul totale; dividendo
ciascun valore della cella per il suo marginale e moltiplicando per 100.
Quando calcoliamo percentuali di riga siamo autorizzati a fare confronti all’interno delle singole colonne,
quando calcoliamo i percentuali di colonna siamo autorizzati a confrontare le percentuali all’interno delle
singole righe.
Rappresentazione grafica di una distribuzione doppia di frequenze
o
Stereogramma: la rappresentazione avviene in uno spazio a tre dimensioni (x,y,z) nel quale
vengono rappresentate sui primi due assi le modalità delle due variabili e sul terzo le frequenze con
cui ciascuna coppia di modalità si è presentata nel collettivo. All’incrocio di ogni coppia di modalità
viene eretto un parallelepipedo di altezza proporzionale alla frequenza con cui la coppia di modalità
si è presentata nel collettivo. Le frequenze possono essere assolute, relative o percentuali.
Lo stereogramma è usato per variabili categoriali o ordinali, non è molto informativo per le variabili
cardinali, a meno che i loro valori vengano ricondotti a un numero non troppo grande di classi
o
Diagramma di dispersione: è un diagramma cartesiano nel quale i punti rappresentano i casi e le
variabili costituiscono gli assi, in esso è del tutto assente l’informazione sulla distribuzione
congiunta. Le coordinate di ogni punto del diagramma non sono altro che i valori che il caso
presenta sulle due variabili
Dipendenza o indipendenza tra variabili
In una tabella di contingenza si ha indipendenza tra variabili se ciascuna distribuzione parziale contenente
le frequenze relative o percentuali è uguale alla corrispondente distribuzione marginale. Tra le variabili
deve quindi essere mantenuta le seguente relazione: 𝑦|𝑥1 = 𝑦|𝑥2 che a loro volta dovranno coincidere con
la distribuzione marginale della variabile y.
Conoscendo le distribuzioni marginali possiamo allora calcolare i valori di cella che dovremmo aspettarci
nel caso di completa indipendenza tra le due variabili. Per la generica cella 𝑛𝑖𝑗 la formula è la seguente:
𝑛𝑖𝑗 =
𝑛𝑖. ∗ 𝑛.𝑗
𝑁
Se effettuiamo i calcoli per tutte le celle otteniamo la tabella delle frequenze teoriche, ossia quella che si
avrebbe nella condizione di totale indipendenza tra le variabili.
Se le variabili fossero completamente indipendenti le frequenze assolute osservate dovrebbero coincidere
con le frequenze toriche.
Uno dei principali compiti della statistica bivariata consiste così nel fornire misure per valutare quanto ci si
allontana dalla condizione di totale indipendenza.
In termini generali date due variabili possiamo affermare che tra esse esiste una relazione se i valori di una
variabile variano in modo sistematico con i valori dell’altra.
Parliamo di connessione intendendo con tale termine la misura dell’intensità (forza) della relazione tra due
variabili o, specularmente, dell’indipendenza tra due variabili. In altri termini la connessione mira a
evidenziare l’interdipendenza tra le variabili.
Di una relazione tra variabili possiamo talvolta valutare il grado di concordanza (o discordanza).

Concordanza tra variabili categoriali.
Date due variabili in cui: vi è lo stesso numero di modalità; ogni modalità X è considerabile a priori,
sulla base di un ragionamento logico affine a una e solo una delle modalità di Y, e viceversa, allora
parliamo di concordanza quando i casi che appartengono contemporaneamente a una categoria i
della variabile X e alla categoria affine j della variabile Y sono superiori alle frequenze teoriche

Concordanza tra variabili ordinali e cardinali
In questo caso la concordanza, oltre alla sua intensità, ci informa sulla direzione della variazione di
una variabile al variare dell’altra. Se al crescere di X cresce anche Y, la misura avrà segno positivo.
Viceversa, se al crescere di X, Y decresce, la misura avrà segno negativo.
Data una connessione o una concordanza, è possibile calcolare talvolta la determinazione: misura che ci
informa, in valori percentuali, su quanta variabilità o mutabilità viene “prevista” da una variabile sull’altra.
Per le variabili ordinali o cardinali, infine, oltre all’intensità e la direzione, è possibile valutare la forma della
relazione; questa può essere esplorata, in prima battuta da un diagramma di dispersione. Tra le variabili
può sussistere una relazione lineare o non lineare.
OPERATORI BIVARIATI
Un operatore statistico bivariato è un procedimento di calcolo che considera due variabili e sintetizza
l’informazione sulla loro distribuzione congiunta in uno scalare. Vengono distinti in tre classi:
 Operatori che servono a valutare la connessione
Producono uno scalare sempre positivo; essi assumono valore zero in assenza di connessione e
maggiore a zero in presenza di connessione tra le variabili. Si applicano per variabili categoriali e in
misura minore a variabili ordinali
 Operatori che servono a valutare la concordanza
Si caratterizzano per la presenza di un punto neutro, lo zero; e due poli, uno negativo e uno
positivo. Lo zero segnala l’assenza di concordanza o discordanza. I poli positivi e negativi indicano
rispettivamente una concordanza o una discordanza. Si applicano principalmente alle variabili
almeno ordinali in quanto in grado non solo di quantificare la forza della relazione, ma anche la sua
direzione
 Operatori che servono a valutare la determinazione
Possono assumere soltanto valori positivi e hanno come valore minimo zero e come valore
massimo uno ; essendo quote di variabilità riprodotta, possono essere espressi più
opportunamente in termini percentuali.
Le dicotomie meritano un discorso a parte; il tipo di operatore applicabile dipende dalla loro natura. Nel
caso le modalità delle dicotomie non presentino tra loro un ordine si ricorre principalmente a operatori di
connessione; viceversa, può essere più informativo applicare operatori di concordanza così da poter
valutare, oltre al’intensità della sue relazione anche la sua direzione. Gli operatori di determinazione
vengono applicata dicotomie di entrambe le nature.
È possibile infine distinguere tra operatori simmetrici e asimmetrici.
Date due variabili X e Y è simmetrico l’operatore (O) per il quale vale l’uguaglianza 𝑂𝑥|𝑦 = 𝑂𝑦|𝑥 . Quando
𝑂𝑥|𝑦 ≠ 𝑂𝑦|𝑥 l’operatore si dice asimmetrico. Le scritture x|y e y|x vengono utilizzate quando le due
variabili possono essere distinte in dipendenti e indipendenti. La scrittura x|y rappresenta la situazione in
cui X assume il ruolo di variabile dipendente e Y quello di variabile indipendente; mentre la scrittura y|x
indica la situazione opposta
Operatori di connessione
CHI QUADRATO
Le tabelle delle frequenze osservate e teoriche hanno in comune i marginali e differiscono per i valori di
cella. Più le celle interne della tabella empirica si allontanano dalle rispettive celle interne della tabella di
frequenze teoriche, più è elevato il grado di connessione tra le variabili; ed è proprio sulla differenza tra le
frequenze empiriche e i valori teorici che si bada l’operatore chi quadrato (χ2):
𝐽
𝐼
2
𝜒 = ∑∑
𝑗=1 𝑖=1
(𝑛𝑖𝑗 − 𝑛̂𝑖𝑗 )2
𝑛̂𝑖𝑗
Con 𝑛𝑖𝑗 viene indicata la frequenza osservata all’incrocio della generica modalità i della variabile posta sulle
righe della generica modalità j della variabile posta sulle colonne, mentre con 𝑛̂𝑖𝑗 viene indicata la
corrispondente frequenza teorica.
Nel chi quadrato dunque per ogni cella interna si calcola lo scarto tra le frequenze osservate e teoriche, si
eleva lo scarto al quadrato, si divide il risultato ottenuto per la frequenza teorica e infine si procede
sommando le quantità ottenute.
La formula precedente può essere anche scritta come:
𝐽
𝐼
2
𝜒 = 𝑁 ∑∑
𝑗=1 𝑖=1
(𝑓𝑖𝑗 − 𝑓̂𝑖𝑗 )2
𝑓̂𝑖𝑗
Il chi quadrato assume come valore minimo 0, mentre il valore massimo è rappresentato dal minore dei
seguenti valori: 𝑁(𝐼 − 1) e 𝑁(𝐽 − 1). Il valore massimo dipende strettamente dall’ampiezza del collettivo, e
dal numero di righe e colonne delle tabella. Questo rende il valore prodotto di difficile interpretazione
PHI QUADRATO
Questa misura di connessione è basate sul chi quadrato, ma è indipendente dal numero dei casi ed è stata
proposta da Pearson. Consiste nel rapporto tra il valore che chi quadrato e la numerosità dei casi:
I
J
i
j
(𝑓𝑖𝑗 − 𝑓̂𝑖𝑗 )2
χ2
Φ =
= ∑∑
N
𝑓̂𝑖𝑗
2
Il phi quadrato è una misura simmetrica e assume come valore minimo 0. Solo nel caso delle tabelle 2xJ o
Ix2, ha come limite massimo l’unità, negli altri casi il valore massimo è funzione del numero id modalità
delle variabili: (min [𝐼 − 1; 𝐽 − 1])
Spesso al posto del phi quadrato si utilizza la sua radice:
J (𝑓𝑖𝑗 − 𝑓̂𝑖𝑗 )2
𝑓̂𝑖𝑗
Φ = √Φ2 = √∑Ii ∑j
Il phi è una misura di contingenza quadratica media
COEFFICIENTE DI INCERTEZZA
Ixy, detto coefficiente di incertezza assume valore 0 nel caso di assenza di relazione, nel caso di perfetta
relazione questa misura assume valore 1 se le variabili hanno lo stesso numero di modalità, diversamente il
suo valore sarà inferiore a 1
Operatori di connessione
o
K DI COHEN
Si può parlare di concordanza nel caso di variabili categoriali soltanto se tra le categorie delle variabili esiste
una specifica affinità dal punto di vista logico. In questi casi possiamo concentrare la nostra attenzione sulle
celle della tabella di contingenza che incrociano modalità affini e trascurare le rimanenti.
La tabella a doppia entrata su cui si calcola la K di Cohen contiene sia sulle righe sia sulle colonne le
medesime categorie. Si considerano unicamente le frequenze poste in diagonale principale, quelle cioè che
riguardano l’incrocio tra le categorie affini. Se le frequenze sono maggiori rispetto ai valori teorici, calcolati
come nel caso delle contingenze, si ha una concordanza,a l contrario, se le frequenze sono inferiori a quelle
teoriche si ha una discordanza.
Si utilizzano le frequenze relative (sul totale). Il K di Cohen è dato dalla seguente espressione:
𝐾=
𝜃 − 𝜃̂
1 − 𝜃̂
Dove 𝜃 è la somma delle frequenze relative poste in diagonale principale e rappresenta l’accordo
osservato: 𝜃 = ∑𝐼𝑖=1 𝑓𝑖𝑗 .
𝜃̂ è la somma delle frequenze relative teoriche: 𝜃̂ = ∑𝐼𝑖=1 𝑓𝑖. 𝑓.𝑖 e rappresenta il caso di assenza di
concordanza.
Come nel caso del chi quadrato le frequenze teoriche si ottengono attraverso il prodotto delle frequenze
marginali. La frequenza teorica della cella che incrocia la i-esima modalità della prima variabile con la
medesima modalità della seconda variabile 𝑓̂𝑖𝑖 è data dai prodotto dei relativi marginali: 𝑓̂𝑖𝑖 = 𝑓𝑖. 𝑓.𝑖
L’operatore K può variare un minimo di −
̂
𝜃
̂
1−𝜃
che corrisponde a un totale disaccordo, ad un massimo di 1,
che indica completo accordo. Inoltre il valore 0 rappresenta la completa indipendenza tra le variabili
o
Q DI YULE
Nel caso di due dicotomie, se esse presentano un’affinità tra coppie di categorie, o se comunque si tratta di
dicotomie con modalità ordinate, nella vieta di applicare il K di Cohen. Quando in ciascuna dicotomia i
codici numerici indicano differenze di grado si può ricorrere alla Q di Yule.
𝑄=
𝑛11 𝑛22 − 𝑛12 𝑛21
𝑛11 𝑛22 + 𝑛12 𝑛21
La Q di Yule varia tra -1 e +1; i due valori estremi indicano rispettivamente massima discordanza e massima
concordanza, mentre il valore 0 indica l’indipendenza assoluta delle due variabili.
Il valore Q di Yule, preso in modulo, può essere utilizzato anche con le dicotomie i cui codici numerici
rimandano unicamente a differenze qualitative.
o
COEFFICIENTE DI CORRELAZIONE DI SPEARMAN
Tra le misure di concordanza che possono essere calcolate a livello di scala ordinale, consideriamo il
coefficiente rs si Spearman detto anche coefficiente di correlazione per ranghi. La sue formula è:
∑𝐼𝑖=1 ∑𝐽𝑗=1(𝑥𝑖 − 𝑥𝑗 )(𝑦𝑖 − 𝑦𝑗 )
𝑟𝑠 =
2
2
√∑𝐼𝑖=1 ∑𝐽𝑗=1(𝑥𝑖 − 𝑥𝑗 ) ∑𝐼𝑖=1 ∑𝐽𝑗=1(𝑦𝑖 − 𝑦𝑗 )
rs è fuzione della somma delle differenze di tutte le coppie all’interno di ciascuna graduatoria. Attraverso la
sviluppo del numeratore e del denominatore è possibile riscrivere la formula dell’ rs in un formato più
compatto:
𝐼
𝑟𝑠 = 1 − 6 ∑
𝑖=1
(𝑥𝑖 − 𝑦𝑖 )2
𝑁 (𝑁 2 − 1)
Il coefficiente rs assume valori estremi -1 e +1. In particolare assume valore +1 quando, per ogni soggetto, il
rango sulla prima graduatoria e quello della seconda coincidono. Si ottiene una perfetta discordanza
quando per ciascun soggetto si hanno posizioni opposte nelle graduatorie delle due variabili.
Per poter applicare questo coefficiente di correlazione quando le variabili ordinali non sono in origine delle
graduatorie, esse devono essere trasformate in ordinamenti per rango. Questa misura di concordanze è
applicabile, a rigore, soltanto nel caso in cui non vi siano pareggi
o
COVARIANZA
Valuta la concordanza tra due variabili cardinali X e Y:
𝑁
𝑠𝑥𝑦
1
=
∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑁
𝑖=1
La covarianza non è altro che la media dei prodotti degli scarti della due variabili dalle loro medie.
La formula privata del fattore 1⁄𝑁 è detta invece codevianza di X e Y.
I valori massimi e minimi che la covarianza può assumere sono rispettivamente −𝑠𝑥 𝑠𝑦 e +𝑠𝑥 𝑠𝑦 ; il valore 0
indica l’assenza di relazione lineare tra le due variabili. Il modulo del valore massimo dipende dall’unità di
misura in cui sono espresse le variabili. Quando le variabili sono indipendenti la covarianze assume valore 0.
La covarianza può essere definita come una momento misto centrale di secondo ordine
o
CORRELAZIONE LINEARE
La covarianza ha il difetto di essere una misura assoluta, molto più utilizzato è il coefficiente di correlazione
r di Bravais e Pearson, detto anche coefficiente di correlazione prodotto-momento, ottenuto dividendo la
covarianza per il valore massimo che esso può raggiungere in modulo, |sxsy|:
𝑟𝑥𝑦
𝑠𝑥𝑦
=
|𝑠𝑥 𝑠𝑦 |
∑𝑁
̅)
𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦
→ 𝑟𝑥𝑦 =
2 𝑁
√∑𝑁
̅)2
𝑖=1(𝑥𝑖 − 𝑥̅ ) ∑𝑖=1(𝑦𝑖 − 𝑦
La correlazione tra le variabili X e Y non è altro che la media dei prodotti dei punteggi standardizzati delle
variabili, o in altri termini, la covarianza delle due variabili standardizzate:
𝑟𝑥𝑦 = 𝑠𝑥𝑦
L’r ha così la comoda proprietà di assumere come valori massimo e minimo rispettivamente +1 (quando
𝑠𝑥𝑦 è max, cioè pari a +𝑠𝑥 𝑠𝑦 ) e -1 (quando 𝑠𝑥𝑦 è min, cioè pari a −𝑠𝑥 𝑠𝑦 ) indipendentemente dall’unità di
misura in cui sono espresse le variabili; r assume valore 0 quando le variabili sono linearmente
indipendenti. Quando r assume valore +1 o -1 le due variabili, X e Y sono in perfetta relazione lineare.
Se rappresentiamo questa situazione attraverso un diagramma di dispersione i punti non costituiranno più
una nuvola più o meno dispersa, ma saranno allineati su una retta
INFERENZA SU PIU’ VARIABILI
Test del chi quadrato sulle tabelle di contingenza
𝐻0 ∶ 𝑋 𝑒 𝑌 𝑠𝑜𝑛𝑜 𝑖𝑛𝑑𝑖𝑝𝑒𝑛𝑑𝑒𝑛𝑡𝑖
𝐻1 : 𝑋 𝑒 𝑌 𝑛𝑜𝑛 𝑠𝑜𝑛𝑜 𝑖𝑛𝑑𝑖𝑝𝑒𝑛𝑑𝑒𝑛𝑡𝑖
La statistica test del chi quadrato di basa sul confronto tra frequenze osservate e teoriche:
𝐼
𝐽
2
𝜒 = ∑∑
𝑖=1 𝑗=1
(𝑛𝑖𝑗 − 𝑛̂𝑖𝑗 )2
𝑛𝑖𝑗
Le frequenze osservate (𝑛𝑖𝑗 ) non sono altro che i valori osservati, e registrati nelle celle interne della tabella
di contingenza IxJ valori, dove I e J sono il numero di modalità rispettivamente della prima e della seconda
variabile; quelle teoriche (𝑛̂𝑖𝑗 ), ancora in numero IxJ, corrispondono a quei valori che dovremmo ottenere,
data quella particolare struttura dei marginali, nel caso le variabili fossero tra di loro indipendenti.
Calcoliamo dunque le frequenza assolute teoriche [ 𝑛𝑖𝑗 =
𝑛𝑖. ∗𝑛.𝑗
𝑛
].
Se l’ipotesi nulla è vera la statistica test si distribuisce asintoticamente come la v.a. 𝜒 2 . Poiché la
distribuzione di 𝜒 2 dipende dai gradi di libertà, 𝜈, è necessario calcolare quanti sono i gradi di libertà in una
tabella di contingenza semplice: i gradi di libertà sono rappresentati dal numero di celle indipendenti, una
volta fissati i marginali.
In una tabella di contingenza IxJ, per le prime (I-1) colonne è possibile scegliere il valore di tutte le celle
meno una, cioè (J-1), il numero dei gradi di libertà è dunque :
𝑔𝑑𝑙 = 𝜈 = (𝐼 − 1)(𝐽 − 1)
Nel caso in cui l’ipotesi nulla fosse vera e le variabili fossero quindi indipendenti , estraendo un numero
molto ampio di campioni, otterremo una distribuzione simile a quella della v.a. 𝜒 2 con 𝜈 gradi di libertà.
In caso di indipendenza tra le variabili non dobbiamo aspettarci un valore si 𝜒 2 nullo, essendo il valore 0 il
limite sinistro della funzione, ma un valore non troppo distante dal valore attero, ossia dal numero di gradi
di libertà della tabella analizzata.
La regione di rifiuto è unidirezionale; rifiuteremo l’ipotesi nulla soltanto se il valore osservato della statistica
è significativamente maggiore del valore critico.
La statistica chi2 si distribuisce come la variabile aleatoria chi quadrato in modo approssimativo (tanto
migliore tanto più il campione è ampio). Non è però possibile definire una numerosità del campione
precisa, dal momento che vi sono diversi totali da prendere in considerazione. Come regola generale
possiamo dire che più IxJ è grande più il campione deve essere numeroso.
Se nella tabella di contingenza vi sono delle celle vuote la statistica non si distribuisce come una chi
quadrato; dipende anche da come si distribuiscono le singole variabili. Empiricamente vanno guardate le
frequenze teoriche (𝑛̂𝑖𝑗 ) minori di 5, se sono più del 20% non è possibile calcolare il chi quadrato.
Test del coefficiente di correlazione
Anche per le misure di connessione, concordanza e determinazione possiamo applicare i test di ipotesi
statistica.
È un test parametrico quindi sono necessari degli assunti sulla popolazione : distribuzione delle proprietà
nella popolazione = normale bivariata (utilizzo variabili aleatorie multidimensionali). La distribuzione si
comporta come una normale bivariata (distribuzione di densità di probabilità congiunta)
Funzione di densità di probabilità congiunta:
𝑓(𝑥, 𝑦, 𝜇𝑥 , 𝜇𝑦 , 𝜎𝑥2 , 𝜎𝑦2 , 𝜌𝑥𝑦 ) =
1
2𝜋𝜎𝑥 𝜎𝑦 √1 − 𝜌2
∗𝑒
− [(
2
𝑋−𝜇𝑥 2 𝑌−𝜇𝑦
𝑋−𝜇𝑥 𝑌−𝜇𝑦
) +(
) −2𝜌(
)(
)]⁄2(1−𝜌2 )
𝜎𝑥
𝜎𝑦
𝜎𝑥
𝜎𝑦
𝜌̂𝑥𝑦 = 𝑟𝑥𝑦
𝜇𝑥 , 𝜇𝑦 , 𝜎𝑥2 , 𝜎𝑦2 sono i parametri che governano le due distribuzioni (media e varianza di X e Y)
𝜌𝑥𝑦 (“rho”) è la controparte a livello della popolazione del coefficiente di correlazione 𝑟𝑥𝑦
se 𝜌𝑥𝑦 è uguale a 0 allora la funzione dipende solo da μ e σ delle due variabili
𝑋−𝜇𝑥
− [(
)
1
𝜎𝑥
2 2
𝑓(𝑥, 𝑦, 𝜇𝑥 , 𝜇𝑦 , 𝜎𝑥 , 𝜎𝑦 , ) =
∗𝑒
2𝜋𝜎𝑥 𝜎𝑦
2
𝑌−𝜇𝑦 2
+(
) ]⁄2
𝜎𝑦
𝐻0 ∶ 𝜌 = 0
𝐻1 : 𝜌 ≠ 0
La statistica test usata è f, ottenuta come rapporto tra le stime della varianza spiegata e la varianza non
spiegata dalla relazione, confrontata con la distribuzione F di Fischer-Snedecor con 1 e n-2 gradi di libertà:
𝑓=
𝑟2
(𝑛 − 2)
1 − 𝑟2
Si può utilizzare anche una statistica test alternativa:
𝑡=
𝑟
√1 − 𝑟 2
√(𝑛 − 2)
Se l’ipotesi nulla è vera la statistica test ha una distribuzione t di Student con n-2 gradi di libertà