STATISTICA Appunti prima settimana - Gulliver

STATISTICA
Appunti prima settimana
1
Appunti 26/09/2012
Dispense:
1° dispensa Calcolo delle probabilità, metodo di stima della massima statistica (disponibile alla clua
interna all’università).
2° dispensa di esercizi svolti (disponibile sul sito e-learning, www.econ.univpm.it in altro a destra,
statistica primo corso, dispensa di esercizi svolti, relativi alla prima parte del corso, statistica
descrittiva).
Definizione di statistica, elementi fondamentali:
1. Fenomeno oggetto dell’analisi, o che deve essere studiato, può essere di qualsiasi natura,
fisico, economico e sociale, indicato con la lettera x.
2. Insieme di individui o unità, indicato come U, e u1 il primo elemento, u2 il secondo ecc.
ecc., noti come unità statistiche, possono sia essere persone che unità astratte.
La statistica è un insieme di metodi che hanno come obbiettivo quello di analizzare ed interpretare
il fenomeno x nell’insieme U oggetto di un’indagine. Il fenomeno x prende anche il nome di
variabile o carattere, l’insieme U viene anche chiamato come popolazione statistica. Noto quanto
dato la statistica è un insieme di metodo che analizza il fenomeno x nella popolazione U.
Il passo successivo dell’analisi è quello di rilevare la variabile nella popolazione di riferimento,
supponendo una variabile x data come il reddito mensile e che la popolazione di riferimento sia
costituita dall’insieme delle famiglie residenti in Italia. Si vuole studiare il reddito mensile nelle
famiglie residenti in Italia. Detto questo è necessario rilevare la variabile nella popolazione di
riferimento, intervistando tutte le famiglie italiane, chiedendo il reddito mensile, questa fase è
nota come fase di rilevazione o misurazione della variabile, è nota come X, l’insieme delle
misurazioni della variabile nella popolazione, in questo caso l’insieme dei redditi delle famiglie
italiane, in generale gli elementi di X si indicano come x+1 n(valore della variabile), x+2n(valore della
variabile)… i vari elementi che compongono l’insieme X.
X prende anche il nome di insieme dei dati elementari o insieme dei dati in forma grezza, questo
insieme è il punto di partenza dell’indagine statistica, noto il fenomeno e i valore nella popolazione
presente, è necessario inserire una serie di strumenti che permettano l’analisi dei dati grezzi,
quanto detto è valido per ogni indagine statistica.
Prima di introdurre la strumentazione considerata per analizzare il fenomeno va aperta una
perentesi su quelle che sono le scale di misura che utilizziamo in statistica per rilevare o misurare il
fenomeno o la variabile nella popolazione di riferimento, queste scale possono essere di quattro
tipi:
1. Scala di misura nominale, è la più semplice, ha come caratteristica fondamentale quelle di
far si che prendendo due generiche osservazioni, o due generici elementi dell’insieme X,
allora se la variabile è stato misurato con una scala nominale da esse sono in grado di dire
se esse sono uguali tra di loro oppure se sono tra di loro diverse.
2. Un’altra scala di misura è quella di tipo ordinale, questa permette, se presi sempre due
generiche osservazioni, possiamo affermare se esse sono uguali tra di loro, oppure se sono
diverse tra di loro ed infine possiamo dire quelle delle due è più grande o più piccola
dell’altra.
2
3. Scala intervallare, in questo caso date due generiche osservazioni, è possibile dire se esse
sono uguali o diverse tra di loro, possiamo stabilire quelle delle due è più grande e
viceversa quale è più piccola e possiamo infine stabilire anche il grado della diversità tra le
due osservazioni, cioè quanto diverse sono le due osservazioni, tramite una serie di gradi di
differenza tra le due osservazioni, si può quantificare quanto esse siano differenti. Questa
scala è poi caratterizzata da un’origine fissata in maniera arbitraria, ciò fa si che non si possa
effettuare rapporti tra due generiche osservazioni.
4. Scala di rapporto, quando invece l’origine della scala è fissata in maniera naturale è allora
possibile effettuare giudizi di questo tipo, si usa una nuova scala di misura, nota come scala
di rapporto, in questo caso si possono effettuare anche giudizi relativi sulle dimensioni e sui
loro rapporti.
Se una variabile di un fenomeno è stato misurato con una scala nominale o ordinale, quel
fenomeno, quella variabile, quel carattere, in statistica prende il nome di variabile qualitativo o
fenomeno qualitativo o carattere qualitativo, al contrario se quella variabile è stata misurata con
una scala intervallare o con una scala di rapporto allora quella variabile prende il nome di variabile
quantitativa o fenomeno quantitativo o carattere quantitativo. Le variabili quantitative si
manifestano tramite numeri, le variabili qualitative si manifestano mediante i cosiddetti “attributi”,
cioè manifestazioni non numeriche.
Nell’ambito delle variabili quantitative si possono distinguere quelle discrete da quelle continue, la
principale differenza tra queste due categorie è che le discrete comprendono variabili le cui
manifestazioni appartengono all’insieme dei numeri naturali, quando invece le manifestazioni di
queste variabili possono essere numeri reali allora significa che la variabile è di tipo continuo.
(scaricare la fotocopia)
3
Appunti del 27/09/2012
Il carattere quantitativo o qualitativo di una variabile deriva da un processo di conteggio, in quanto
è un processo fondamentale per valutare una variabile di tipo discreto, ciò dipende anche dal fatto
che il numero di intervistati e il reddito presentano valori di una variabile naturali, una variabile
quantitativa è un fenomeno che si muove nel continuo senza interruzione, questi fenomeni si
riconoscono dal fatto che i valori che assume la variabile deriva da un processo di misurazione, ciò
contraddistingue le variabili continue. La differenza tra queste due variabili non dipende tanto dal
valore della variabile stessa, difatti entrambe possono essere espresse con valori discreti, ma
dipende tutto dal modo di rilevazione.
Prima delle fasi del metodo di analisi di dati statistici, dato carattere X che vogliamo analizzare su
una certa popolazione, una volta rilevata la variabile è possibile definire un insieme di dati, noto
come insieme di dati grezzi o in forma elementare, è quindi possibile sistemare , riorganizzare
l’insieme dei dati in forma elementare, questa fase è nota come ordinazione o riorganizzazione dei
dati in forma grezza, tutto ciò mediate quelle che sono definite come distribuzioni di frequenza,
con distribuzione di frequenza si indicano delle tabelle che hanno l’obbiettivo di riordinare i dati
per avere una visione più chiara del fenomeno considerato, queste tabelle sono costituite da due
colonne, nella prima vengono posizionati i distinti valori che assume la variabile nella popolazione
di riferimento, l’insieme dei distinti valori assunti da questa variabile prende il nome di supporto
della variabile, e i distinti valori o attributi prendono il nome di modalità della variabile, modalità
del carattere o modalità del fenomeno, nella seconda colonna va poi posizionata la frequenza
assoluta, cioè il numero di volte che si osserva una data modalità nella popolazione di riferimento,
la somma delle frequenze deve coincidere con il numero totale delle osservazioni. Questa è la
modalità più grezza per riorganizzare i dati statistici. Questa modalità di organizzazione si
costituiscono le distribuzioni di frequenza relative alla variabili qualitative e quantitative discrete.
In modo analogo si costituisce la variabile di frequenza di una variabile continua, questa variabile
presenta molti valori tra loro differenti, la distribuzione di frequenta diventerebbe una tabella
estremamente lunga con frequenze molto piccole, per le variabili continue non si può quindi
procedere come per le variabili discrete, si perde la chiarezza necessaria alla rielaborazione, per
risolvere tale problema è necessario prendere il supporto della variabile che viene suddiviso in
classi contigue senza sovrapposizione salvo poi procedere come per la variabile discreta. Si
prendono quindi i distinti valori della variabile considerata, definendone gli estremi, si parte poi
alla
suddivisione in classi, necessariamente contigue e senza sovrapposizione, in maniera che ogni
sovrapposizione corrisponda ad una sola classe, generalmente non esiste un modo oggettivo per
definire le categorie e le classi, anche considerando specificamente una data variabile.
Frequenza relativa, è il rapporto tra la frequenza assoluta e il numero totale di osservazioni svolte,
o somma di tutti i casi analizzati. La frequenza relativa permette di confrontare, data una variabile,
le differenze che vi sono tra i valori in due diversi periodi di tempo.
4
Appunti statistica
Seconda settimana
1
Appunti del 02/10/2012
Concetto di frequenza relativa, Pi: rapporto tra una frequenza assoluta, Ni, e il numero totale del
livello de casi, Pi=Ni/n. l’importanza di questo concetto è strettamente legato con il calcolo delle
probabilità, e per motivi di confronto, di fenomeno tra popolazioni diverse o fra tempi diversi della
stessa popolazione. Le frequenze relative hanno le stesse proprietà delle frequenze assolute, cioè
sono dei numeri positivi maggiori o uguali a zero, la somma delle frequenze assolute corrisponde al
numero delle osservazioni, stessa cosa vale per il numero delle frequenze relative, che però danno
come somma 1.
Costruzione della distribuzione di frequenza necessarie a comprendere il fenomeno nella
popolazione di riferimento. Affianco a questo strumento, è necessario rappresentare graficamente
i dati.
Rappresentazioni grafiche di variabili qualitative, i grafici più semplici sono di due tipi il diagramma
a torta e il diagramma a rettangoli distanziati.
Si considera nel primo caso una circonferenza divisa in tante fette quante le modalità assunte dalla
variabile, la cui grandezza deve essere proporzionale alla frequenza con la quale la probabilità è
osservata. Sviluppare grafico a torta dall’esempio, considera stato lavorativo.
Nel secondo caso invece si considera un riferimento cartesiano, sull’asse delle ordinate si
posizionano i tre supporti della variabile, in corrispondenza di ogni modalità si disegnerà un
rettangolo di altezza proporzionale alla frequenza della modalità, sulle ordinate saranno quindi
presenti le altezze relative.
Rappresentazioni grafiche variabili quantitative, distinguendo tra variabili tipo discreto e variabili di
tipo continuo.
Nel primo caso ci troviamo di fronti a molti diagrammi il più semplice si rivela essere il diagramma
per ordinate, si procede in maniera analoga al diagramma per rettangoli differenziati, si considera
un riferimento cartesiano, nell’asse delle ascisse si inseriscono le modalità osservate, sulle ordinate
si inseriranno le frequenze relative e a seconda delle frequenze relative raggiunte si regola la
proporzionalità della lunghezza del valore considerato.
Nel secondo caso, variabili quantitative continue, la rappresentazione grafica più utilizzata è
l’istogramma di frequenza o diagramma di frequenza. Simile alla variabile discreta, diagramma per
ordinate, ivi invece di considerare le singole modalità osservate, si rappresentano delle classi di
ampiezza. Data difatti una generica distribuzione di frequenza una variabile continua, una volta
definite le classi di appartenenza, e le frequenze relative. L’istogramma di frequenza sarà dato
quindi da un riferimento cartesiano, indicheremo sull’asse delle ascisse il supporto della variabile
suddiviso in classi si ha quindi in corrispondenza di ogni classe un segmento la cui grandezza è
proporzionale con la frequenza di quella modalità. Conviene affiancare alla distribuzione di
frequenza un’altra colonna, Ai, che indica l’ampiezza delle varie classi. Un problema si pome
qualora tutte le classi abbiano la stessa ampiezza, allora la densità della generica classe dipende
dal rapporto di Pi e A (valore generico), a parità di ampiezza aumentando la frequenza diminuisce
la densità di frequenta.
Vi sono alcuni casi in cui l’andamento delle densità è particolare e si può sostituire l’istogramma
con una curva teorica, come accade ad esempio con un sistema di densità decrescenti,
l’andamento è quindi regolare, si decresce aumentando la classe, si può sostituire, all’evidenza, o
curva empirica, una curva completamente teorica, questa particolarità non è sempre possibile, non
sempre si può passare dagli istogrammi osservati alle curve teoriche.
2
Oltre agli strumenti già citati, distribuzioni di frequenza e strumentazioni grafiche, un altro
strumento usato per passare dai dati grezzi a quelli rielaborati è la funzione di ripartizione, questo
strumento può essere usato solo in presenza di variabili quantitative, si escludono le variabili
qualitative, a prescindere dal fatto che sia discreta o continua. Il supporto della variabile si
suppone quindi ordinato in maniera crescente, si ha una funzione di ripartizione, definita
nell’insieme dei numeri reali e che associa ad ogni elemento di questo insieme, un numero
compreso nell’intervallo 0-1, estremi inclusi, la funzione è indicata come F (X), per x che appartiene
all’insieme R. L’associazione tra gli elementi degli assi dei reali e l’intervallo 0-1 avviene associando
ad ogni x appartenente ai reali la frequenza dei casi più piccoli a pari ad x.
Costruzione della funzione di ripartizione, di una funzione quantitativa discreta, dati quindi i valori
di una variabile e le rispettive frequenze relative considerando quindi le varie modalità osservate la
funzione di ripartizione varia a seconda dei numeri considerati ed è comunque pari alla somma di
tutte le frequenze relative delle modalità, relative ad un valore minore di quello osservato. Qualora
il numero si più piccolo della modalità osservata la funzione di ripartizione da come risultato zero.
3
Appunti del 03/10/2012
Funzione di ripartizione, definibile come (vedi quaderno), dati quindi dei valori di supporto per una
variabile e le rispettive frequenze relative, la funzione di ripartizione considera la somma delle
frequenze relative, date da supporti inferiori o uguali a quelli considerati, qualora però il supporto
preso in considerazione sia un supporto “intero”, cioè uno di quelli considerati esplicitamente, e
quindi con una propria frequenza relativa, se il caso considerato è inferiore a uno la funzione di
ripartizione da come risultato 0, per x pari ad 1 la frequenza dei casi più piccoli o al massimo pari a
uno da come risultato la somma dei casi inferiori a uno più la somma dei casi uguale a uno,
consideriamo ora la somma dei casi compresa tra tre e uno, esso sarà uguale al valore assunto per
una frequenza pari o inferiore a uno poiché nell’intervallo considerato la variabile non acquista
nessun valore, nella seconda modalità considerata la funzione di ripartizione sarà la proporzione
dei casi per x al massimo pari a tre, data quindi dalla somma della proporzione dei casi per x
inferiore di tre sommata alla proporzione dei casi per x uguale a tre, quanto detto si ripeterà per
tutti i valori interi e per tutti i valori intermedi che ci troveremo ad affrontare.
La funzione di ripartizione, andando da meno a più infinito tende a non muoversi, assume cioè
sempre lo stesso valore, ciò è valido quando la x raggiunge un valore che appartiene al supporto o
quando è compresa tra due supporti estremi esclusi. Superato il valore dell’ultimo dei numeri
incluso nel sistema di supporto prende il valore di uno. Li situazione con una condizione similare,
stesso valore, si possono associale permettendo di riscrivere la funzione di ripartizione.
Per ottenere la funzione di ripartizione si considerano tutti i valori reali prima del supporto
considerato, nel primo caso e compresa tra i due supporti più vicini consecutivi, nei casi successivi
sino alla coppia compresa tra l’ultimo e il penultimo, includendo l’estremo inferiore e escludendo
quello superiore, nell’ultima modalità si considerano i valori della modalità stessa e tutti i valori
appartenenti a modalità superiori.
Funzione di ripartizione, di una variabile discreta, con un supporto ordinato in maniera crescente,
x1<x2<x3<…<xn, allora la funzione di ripartizione di questa variabile sarà data, x<x 1 F(x)=0, xi<x<x1
(vedi quaderno).
Graficamente la funzione si presenta come una funzione a gradi, con dei salti in corrispondenza
delle modalità osservate, che ne rappresentano anche i punti di discontinuità, la funzione non è
continua, se non a destra della modalità osservata. La funzione di ripartizione è quindi una
funzione non decrescente poiché essa si mantiene costante o crescente.
1. Il limite per x che tende a meno infinito della funzione di ripartizione è uguale a zero.
2. Il limite per x che tende a più infinito la funzione di ripartizione è uguale a uno.
4
Appunti del 04/10/2012
Funzione di ripartizione per variabili discrete abbiamo due possibili condizioni una:
• Non conosco i dati in forma elementare la funzione di ripartizione per una variabile
continua si determina come per le variabili discrete.
• Conoscendo meno i dati in forma elementare, conosco solamente la distribuzione di
frequenza, vi è una suddivisione in classi e per ogni classe si conosce la frequenza.
Parto quindi dalla schema con le distribuzioni di frequenza, si procede definendo la funzione di
ripartizione come determinata in maniera approssimata, si procede con un’ipotesi di equi
distribuzione delle unità all’interno delle classi, ciò implica che le osservazioni all’interno di ogni
classe si distribuiscono in modo equo, cioè equidistanti le une dalle altre, considerando quindi i
dati reali e le relative classi determinate partendo dalla prima della classi sarà possibile suddivide
la prima in due sotto classi con la stessa ampiezza che avranno quindi una frequenza pari alla metà
della frequenza della classe originaria, lo stesso ragionamento può svolgersi per spezzare una
qualsiasi generica classe in due o più sotto classi, la frequenza data alla sottoclasse dipende dalla
frequenza delle stesse.
Dato il caso di x=0 la funzione di ripartizione F(x)=0.
Dato il caso di una x=2 F(x)= P(x<0)+P(0<=x<=2)*
*I(0-2)0,012dx
Caso generico 1° classe: 0<=y<=10 F(x)=P(x<0)+P(0<=x<=y)
Caso generico 2° classe: 10<=y<=20 F(x)= P(x<10)+P(10<=x<=y)
Caso generico 3° classe: 20<=y<=40 F(x)=P(x<20)+P(10<=x<=y)
Le funzioni di caso generico 2° e 3° possono essere generalizzate per tutti possibili intervalli
successivi. La generalizzazione può svolgersi secondo il seguente processo, escludendo l’intervallo
tra zero e meno infinito e l’ultimo numero e infinito, la funzione si comporta in maniera da
determinare delle equazioni, in questo caso di rette, equazioni di primo grado, le rette sono
sempre e comunque crescenti, o costanti, i cui elementi principali sono una costante che coincide
con il valore che la funzione di ripartizione assume nell’estremo inferiore della classe, vi è poi una
parte specifica della relativa classe che considera l’area del rettangolo dell’istogramma, e il valore
assunto nei vari intervalli meno l’estremo inferiore della classe considerata.
Generalizzando avremo che:
x1-xk+1 come estremi della condizione osservata se3 x<x1 F(x)=0, x1<=x<xk+1 F(x)=F(xi)+Fi*(x-xi);
x>=xk+1 F(x)=1
La derivata della funzione di ripartizione dF(x)/dn=d(F(xi)+Fi*(x-xi)=d(F(xi))+d(Fi*x)-d(Fi*xi), la prima
parte corrisponde a zero, la seconda derivata corrisponde a Fi, e la terza parte corrisponde a zero,
avremo quindi che la derivata della funzione in un punto altri non è che l’area della funzione
stessa. La funzione di ripartizione è assolutamente continua con dei punti angolosi.
5
Appunti Statistica
Terza settimana
1
Appunti del 09/10/2012
Funzione di ripartizione, relativa ad una variabile continua e divisa in classi, in ogni intervallo la
funzione di ripartizione è una funzione continua la cui derivata coincide con la densità delle varie
classi. La funzione di ripartizione, considerando una variabile numerica continua divisa in classe è
continua. La derivata di una funzione di ripartizione corrisponde al valore della variabile
nell’intervallo, è interessante poi osservare come si comporta la funzione di ripartizione nei punti
di incontro ove cambia l’inclinazione di una variabili, tutto ciò permette di dimostrare la continuità
della funzione, che però presenta dei punti angolosi, punti ove cambia l’inclinazione della
funzione; come per le variabili discrete, visibile dall’analisi grafica, si tratta di una funzione non
decrescente, o cresce o rimane costante, se presenta diversa la dimostrazione rispetto a quella per
la funzione di ripartizione di una variabile numerica discreta.
Funzione di ripartizione di una variabile teorica
Il fenomeno considerato può essere per approssimato, rappresentato dalla seguente curva teoria:
(vedi appunti foglio). La funzione teorica è una generalizzazione della variabile continua divisa in
classi, si può definire il contenuto della funzione come una variabile continua osservata in un unico
intervallo, anziché più intervalli come già fatto. Dato il fatto che in qualsiasi intervallo la funzione di
ripartizione è la primitiva della funzione, così facendo determiniamo la funzione di ripartizione.
Fase di sinesi:
Dopo la fase di sistemazione dei dati inizia una fase di sintesi con l’obbiettivo di individuare una
costante, C, che prende anche il nome di media, che riassuma il fenomeno osservato, cioè
sintetizzare l’insieme dei dati in forma elementare. Come determinare al costante in grado di
riassumere il fenomeno? (insieme dei dati osservati). Abbiamo quindi diversi metodi per
riassumere i dati:
• Metodo del minimo danno, anche detto criterio del minimo danno.
• Metodo derivante dalla natura del problema, criterio derivante dalla natura del problema.
Metodo o criteri del minimo danno:
Considerando i dati in forma elementare, manifestazione del fenomeno sulle singole unità del
collettivo, X=(x1I; x2I;…;xNI), la costante riassume quindi tette le osservazioni che appartengono a X.
Come scegliere quindi C? La media va scelta in maniera che l’errore commesso, sostituendo C ad
ogni osservazione, sia il più piccolo possibile.
Dato l’esempio uno ove tute le condizioni sono coincidenti, di scarso interesse statistico, è facile
individuare la costante, media, che riassume tutte le osservazioni, che risulta essere occupati,
poiché sostituendo la costante a tutte le osservazioni ciò avviene senza commettere errori, la
costante sintetizza in maniera perfetta la situazione osservata.
Dato il primo esempio e ponendo come condizione di sintesi lo stato di disoccupato ciò non
determina errori per le prime due osservazioni, e nella terza, quarta e quinta osservazione
commetto un errore data la mancata coincidenza tra costante e osservazione.
Secondo il metodo del danno minimo dovremmo scegliere la costante in modo tale che l’errore
globale commesso in ogni osservazione sia il più piccolo possibile.
Per rendere operativa questa procedura si considera gli errori, e quindi determinare C con il grado
minimo di errore, si deve esplicitare l’errore in campo più dettagliato, in generale l’errore è
indicabile con un G e è in funzione del valore assunto dalla costante, se la costante coincide come
visto con disoccupato si hanno due errori, il numero di errori poi aumenta considerando come C la
condizione di non occupato avremo quattro errori, g(xiI;C), errore commesso dalla sostituzione
della C all’i esimo dato considerato, dato quindi l’esempio due l’errore è nullo, pari a zero, se XiI
2
coincide con C, vi è un errore se XiI non coincide con C, l’errore è definibile anche come danno.
Avremo quindi un danno o errore globale, determinato da una sostituzuione di C, come la somma
di tutti i danni determinati dalla sostituzione della costante C. (vedi esempio 3). Così si determina
la media che meglio approssima l’insieme dei dati in forma elementare.
Commento esempio 4 gli errori coincidenti possono poi essere sommati, primo, secondo e terzo
errore, poi sommo, quarto e quinto e infine sommo gli errori, sesto, settimo e ottavo. Avremo un
errore globale dato dalla sostituzione ad un modalità di una costante moltiplicato per la frequenza
della costante considerata, tutto ciò ripetuto per tutte le modalità considerate. Ci si torva a dover
minimizzare la funzione rispetto ad C moltiplicando l’errore la frequenza assoluta della variabile
considerata. Nella pratica si preferisce minimizzare la funzione considerando le frequenze relative
delle variabili considerate. Data l’unica differenza come la costante moltiplicativa il valore di C che
minimizza una funzione minimizzerà anche l’altra.
3
Appunti del 10/10/2012
Medie, costante che ha l’obbiettivo di sintetizzare, riassumere, il fenomeno osservato, una volta
determinata la funzione obbiettivo, (1), che va minimizzata in funzione della variabile C, tale
funzione, detta funzione di errore globale, è pari a zero qual ora la sostituzione avvenga senza
errori, positiva se la situazione determina errori. Come esplicitare però l’errore globale? Vi sono tre
modi diversi per esplicitare in concreto l’errore, essi danno vita alle più famose e comuni medie
statistiche per la sintesi di fenomeni, va però considerato che l’errore può essere esplicitato anche
in altri modi diversi.
1. Il modo più semplici di esplicitazione dell’errore è dato da determinazione dell’errore pari a
zero ogni qual volta vi è coincidenza tra modalità e costante di sintesi, e si pone pari a uno
l’errore ugni qual volta che tra queste due quantità non vi è più uguaglianza, sostituzione
con errore. (2) Si devo trovare il valore della costante tale che il danno globale determinato
è minimo. Per fare ciò si analizza il comportamento della funzione sostituendo alla costante
le già osservate modalità di una variabile. Il caso più semplice si presenta con l’analisi della
distribuzione di frequenza di una variabile discreta. L’errore globale si determina come la
somma delle frequenze relative esclusa quella relativa alla frequenza considerata. Si ha
quindi che la funzione di C per cui si ha il danno globale minore è quella in cui: la frequenza
relativa, esclusa dal calcolo di errore globale, è massima, poiché ciò minimizza il danno
globale. Tale valore è noto come moda. La moda è l’unico indice di sintesi, media,
determinabile per le variabili, qualitative, non numeriche, tale metodo di calcolo è poi il più
semplice e rapido. Presenta poi dei difetti legati al fatto che data una distribuzione questa
può avere più di una moda o può non esistere o coincidere con il supporto della variabile.
a) Data una variabile numerica discreta la moda va calcolata come nel caso dei valori non
numerici. (3)
b) Qualora vi sia una variabile numerica continua di cui non si conosce la distribuzione per
classi il calcolo della moda avviene secondo il seguente metodo, la classe determinata è la
classe modale: date classi che hanno tutte la stessa ampiezza si sceglierà la classe osservata
come la più alta frequenza relativa, il comportamento è lo stesso valido per le variabili
discrete, solo che al posto del valore della variabile discreta si sostituisce la classe dotata di
frequenza relativa maggiore, della classe è poi possibile scegliere un numero
rappresentativo della classe modale, generalmente si sceglie il valore centrale della classe
come rappresentativo della classe stessa ((x1-x2)/2);
c) Date ampiezze della classi differenti tra di loro è necessario riprendere la distribuzione
suddividendole in classi della stessa ampiezza, rielaborando il supporto originario, si può
optare per la rielaborazione della funzione di danno globale considerando al posto della
frequenza relativa la densità di frequenza relativa.
d) Moda determinata per una variabile teorica, per calcolare la moda di una variabile teorica si
può generalizzare quanto detto per una variabile continua divisa in classi quando le classi
non son tutte della stessa ampiezza, in quel caso si sceglieva al classe osservata con la
densità di frequenza relativa più alta, in questo caso per determinare la doma di una curva
teorica determineremo il punto in cui la curva raggiunge il valore massimo, massimizzo la
funzione considerata. (5)
e) Può accadere che la funzione derivata non porti ad alcun risultato (6), si osserva quindi il
segno della derivata, che avendo segno positivo indica che la funzione è stessa è una
funzione crescente, il che indica che si ha un punto di massimo nell’estremo superiore della
4
funzione. Nel caso di una derivata prima non annullata con segno negativo la funzione è
decrescente e si ha quindi un massimo nell’estremo inferiore del supporto.
2. Concentrando l’attenzione sulle variabili numeriche è possibile definire l’errore, in senso
generico in molti altri modi, (7) determinando un errore pari a zero qualora il valore sia
uguale alla costante e pari alla differenza in valore assoluto tra il valore della variabile e la C
considerata e alla densità di frequenza dell’errore considerato. Si deve determinare quindi
la costante C in maniera da minimizzare l’errore totale, in questo caso si considerano solo
variabili numeriche. Si deve derivare la funzione di danno globale e poi porla uguale a zero,
l’unica complicazione presente è quella del valore assoluto, situazione che può essere
risolta eliminando il valore assoluto stesso, in maniera da avere una situazione più trattabile
per poi minimizzare al funzione di errore. (8) Dato detto è possibile sottrarre e aggiungere
la stessa quantità (9).
5
Appunti del 11/10/2012
Esiste quind8 un punto c in cui F(c) vale 0,5, ciò è sempre vero per le variabili continue (1), se la
variabile è discreta tale valore o non esiste (2).1 oppure non è unico (2).2, e quindi in questo
secondo caso si deve effettuare una scelta.
La costante C prende il nome di mediana, ed è quel valore in corrispondenza del quale la funzione
di distribuzione vale 0,5, al di sotto o al disopra la proporzione dei casi vale 0,5. Dato quindi un
supporto ordinato in maniera crescente la mediana è il più piccolo valore del supporto tale per cui
la funzione di ripartizione vale 0,5 oppure supera 0,5 per la prima volta. (3)
Media aritmetica è la più importante delle medie statistiche poiché gode di molte proprietà
soprattutto dal punto di vista inferenziale. Non è possibile trattare in maniera completa la media
aritmetica, poiché interessa la convergenza di variabili casuali e l’integrazione secondo Ledesche. Il
calcolo più facile della media riguarda le variabili continue in classi (4). Le variabili discrete
prevedono un differente calcolo (5).
Per le variabili teoriche la media aritmetica si calcola generalizzando il caso (5) con una unica
classe, data dall’asse dei reali.
Quantili di una distribuzione un quantile è data una distribuzione di frequenza di voler determinare
un numero al di sotto del quale abbiamo una frequenza dei casi pari a p e al di sopra cade una
frequenza dei casi pari a 1-p, il numero si chiama x p, questo numero si chiama quantile di ordine p
e divide la distribuzione in due sottoinsieme nel primo dei quali abbimo una frequenza dei casi pari
a p e nell’altro pari a 1-p. La mediana non è altro che un caso particolare d quantile cioè quando p
è uguale a 0,5, e si sviluppa allo stesso modo della mediana.
6
Appunti statistica
Quarta settimana
1
Appunti del 16/10/2012
Principali caratteristiche di cui godono gli indici di sintesi considerati, moda, media e media
aritmetica, senza considerare la moda va detto che le caratteristiche della mediana e della media
aritmetica sono:
• Mediana: è un indice che, a prescindere dalla variabile considerata, continua o discreta, non
risente della presenza di eventuali valori anomali estremi (1), nota anche come media
robusta.
• Media aritmetica: è il più importante dei valori di sintesi o medie sinora considerate, gode
di molte proprietà: la prima è quella del baricentro (2), ciò implica che data la sommatoria
degli scarti tra le modalità, rispetto alla media aritmetica, la somma degli scarti moltiplicata
per le rispettive frequenze relative avremo come risultante zero; un'altra proprietà della
media aritmetica è nota come internalità (3) la media aritmetica è un valore compreso tra
la più piccola modalità osservata, noti anche come estremi del supporto della variabile; la
terza proprietà prevede che vi sia una relazione nella trasformazione lineare di una
variabile, cioè data una variabile e trasformandola linearmente anche la media della
variabile subisce la tessa trasformazione (4), tale proprietà permette di cambiare l’unità di
misura o di traslare avanti e indietro l’origine della variabile x, in generale la trasformazione
lineare permetti di determinare che la media di una variabile trasformata corrispondi alla
trasformazione della media della variabile; cosa accade quando non trattiamo una
trasformazione lineare (5 da completare), risulta quindi che le due opzioni considerate non
coincidono; proprietà associativa (6), data un collettivo e volendo suddividere in due gruppi
avremo una situazione come da schema (6.1), date quindi la media all’interno del collettivo
avremo (6.2), e poi all’interno di entrambi i due sottogruppi, (6.3) la proprietà associativa
impone che data la media aritmetica delle medie dei gruppi essa coincide con la media
generale. Dato quindi un collettivo suddiviso in k gruppi per k>1 allora la media aritmetica
del collettivo equivale alla media aritmetica delle medie dei singoli gruppi, generalizzazione
(7).
2
Appunti del 17/10/2012
(1)
Media potenziata di ordine s poiché il suo valore dipende dal valore di s, da questa formula
derivano tutte le medie numeriche calcolabili di una distribuzione, il limite imposto di s
diverso da zero la formula è priva di significato, analizzando però il limite per s che tende a
zero della media potenziata esso esiste ed è uguale alla seguente espressione, (sempre in
esempio uno, il limite è però valido solamente considerando valori positivi di valori di xi, che
perde di significato per altre modalità uguali a zero e non esiste per i valori negativi. Quanto
definito prende il nome di media geometrica. Valida non nel valore zero ma per il limite del
valore stesso.
(2)
Se poi alla s si sostituisce il valore uno la media potenziata di primo ordine corrisponde alla
media aritmetica, nel caso di s=2 si chiama media quadratica, nel caso di s=3 si parla di
media cubica, in s=0 si parla di media geometrica, per s=-1 si parla di media armonica.
(3)
La media potenziale è poi dotata della proprietà della infernalità, cioè se x min e xmax, indicano
gli estremi della variabile risulta che la media potenziata di ordine s è compresa tra i due
valori, xmin<(media)<xmax, vedi operazione di verifica.
(4)
La seconda e ultima proprietà è quella della monotonicità, tale proprietà vuole che la media
potenziata assuma valori che sono dipendenti da s, se s aumenta anche la media potenziata
si muove nella stessa direzione, se s si muove in modo decrescente anche la media
potenziata si muoverà nella stessa direzione.
Altro metodo di calcolo per le costanti di sintesi, derivanti dai diversi approcci storicamente
determinati per creare le costanti di sintesi, in particolare in questo caso ci occuperemo del
metodo derivante dalla natura del problema, o noto anche come media di Chisini, questo metodo
prevede come esempio una situazione in cui la costante di sintesi oltre all’obbiettivo di riassumere
una distribuzione o un insieme di numeri deve svolgere anche un altro compito, cioè quello di
soddisfare un vincolo imposto sui numeri, come definito in maniera poco formale può essere
definito come (5), la media quindi che sintetizza il gruppo principali è quella costante c che
sostituita ad ogni elemento della successione realizza un’uguaglianza, cioè il valore assunto nella
successione deve essere uguale al valore assunto ad ogni numero della stesso sostituendo la
costante c.
(6) Considerando un rettangolo con lati 10 e 5 qual è la media di due lati, considerando la
definizione data sino ad ora potrà coincidere a uno dei valori di sintesi, volendo però
calcolare la lunghezza media che lascia inalterato il perimetro del rettangolo allora non
è possibile definire una qualsiasi media, ma una in particolare, cioè quella che realizza
una certa condizione, oltre a sintetizzare i due numeri, il perimetro si presenta come il
doppio delle due variabili sommate, e dipende quindi dai valori di cui sto cercando la
media, si può quindi considerare che questa particolare combinazione di numeri, il
calcolo del perimetro sia raffrontabile al raggruppamento del gruppo principale, per
trovare il lato medio devo sostituire alla funzione il valore c, con relativo confronto alla
relativa formula del perimetro sostituendo a entrambi i valori c, trovando quindi il lato
medio.
(7) Esempio della sintesi Chisiana, dato un insieme di reddito e una funzione di spesa, si vuole
calcolare il reddito medio che lascia inalterata la spesa totale per l’acquisto di un dato
prodotto.
(8) Secondo esempio della sintesi Chisiana, dato il costo di produzione di un bene, il costo di
produzione è poi legato al contenuto di materia prima del bene secondo una relazione,
3
date n scatole di prodotto da realizzare si vuole calcolare il contenuto medio che lascia
invariato il costo totale di produzione.
Formalizzando in maniera precisa la media secondo Chisini può essere definita come: data una
successione di n numeri ed una loro funzione, la costane c è la media della successione rispetto
alla funzione, quando sostituendo c ad ogni elemento della successione si verifica la condizione
invariante.
Finisce la parte della statistica relativa alla sintesi dei dati.
Variabilità.
(9)
Data una distribuzione di dati e una media, costante c, quanto una media rappresenta la
funzione è una buona o una cattiva sintesi della realtà? Data una media esse è o perlomeno
non rappresenta, nonostante l’utilizzo di particolari criteri, in alcun modo la reale
situazione. È quindi lecita la domanda che trova risposta tramite una serie di indici che
permettono di stabilire se una costante sintetizza o meno la funzione.
(10) Dato l’esempio abbiamo una situazione come la seconda dove la situazione riassunta è
rappresentata dalla sintesi, e altre situazioni, completamente opposte, dove la media
assume lo stesso valore.
Per individuare gli indici al punto (9), prevede l’utilizzo:
1)
di un metodo detto come variabilità da un centro, misura la distanza che intercorre
tra la distribuzione di frequenza e la costante c. tanto più piccola è la distanza tanto più la
media sintetizza la distribuzione.
2)
Il secondo approccio prende il nome di mutua variabilità, prevede la quantificazione
di quanto le variabili osservate tra di loro sono diverse, tanto più esse sono diverse tanto
più la costante c rappresenta la funzione, tanto più esse si avvicinano tanto aumenta la
capacità di sintesi di c.
Variabilità da un centro da questo primo approccio derivano degli indici che misurano la distanza
della costante c dalla realtà, gli indici, che misurano la distanza tra la situazione effettivamente
osservata e quella fittizia, devono essere uguali a zero in assenza di variabilità, quando la costante c
riassume la realtà senza commettere errore, e di assumere valore positivi crescenti allontanandosi
da questa situazione.
(11) Indici di variabilità secondo l’approccio della variabilità da un centro, essi devono
essere uguali a zero se la sintesi avviene senza commettere alcun errore e essere positivi
con valori crescenti in presenza e al crescere della variabilità. Questi indici sono molti e
dipendono da c, se la costante c è la mediana, l’indice di variabilità è il seguente (vedi
foglio), considerando la media aritmetica avremo (12)
4
Appunti del 18/10/2012
Proprietà della varianza, che per definizione è data dalla formula (2) manipolando la funzione di
varianza la si può definire, invece di media di scarti quadrati può essere definita come media d
valori già conosciuti (3). Dimostrazione di linearità del fattore varianza (4.1), dimostrazione per la
traslazione, (4.2) dimostrazione per la moltiplicazione per una costante, le due proprietà possono
poi essere considerate congiuntamente (4.3), proprietà già riconosciuta per la media.
Bienaymé-Chebichev (5), autori di un teorema che parte da una variabile di cui non è nota la
distribuzione, di cui sono però note la media aritmetica che la varianza, data quindi una costante
positiva a sostiene che considerando la frequenza dei casi più piccoli o pari di Y-a, e si aggiunge la
frequenza dei casi di x maggiore o uguale a Y+a, tale valore sarà più piccola del rapporto tra la
varianza e la costante a2. Dato il supporto della variabile diviso in due gruppi abbiamo nel primo
tutte le modalità in cui gli scarti dalla media superano o sono uguali ad a, nella secondo gruppo le
restanti modalità, scriveremo poi la funzione di varianza come la sommatoria riferita alle modalità
di uno dei due insiemi. Data questa operazione è possibile sottolineare che la prima è una somma
di scarti al quadrato, quindi positivo o al limite pari a zero, anche considerando la definizione di
varianza, la stessa cosa accade con la seconda sommatoria, si mantiene poi l’uguaglianza
cancellando la seconda sommatoria considerata, la varianza è quindi uguale o meno alla somma
degli scarti riferiti alle modalità solamente contenuta in A, no poiché sono entrambi superiori o
uguali a zero, si può constatare però che cancellando la seconda sommatoria abbiamo che la
varianza della variabili sarà più grande o coincidente alla variabile considerata. Dato quindi il valore
(6) elevando al quadrato entrambi i membri si mantiene il segno dell’uguaglianza, stessa cosa
avviene moltiplicando a destra e sinistra per la generica P i stessa cosa succede sommando una
stessa variabile relativa alle modalità di A in entrambi i valori dell’uguaglianza.
La varianza è la media di una particolare variabile, data dalla media di una variabile meno la
relativa media elevata al quadrato.
5
Appunti statistica
Quinta settimana
1
Appunti del 23/10/2012
Analisi della variabilità di un fenomeno considerando la variabilità dal centro, data una media che
sintetizza la distribuzione è necessario definire il grado di sintesi insito nella media, si è poi detto
che la variabilità può essere misurata tramite un secondo approccio cioè la mutua variabilità (1),
nella variabilità da un centro si considerava la distanza tra c e il centro, con la mutua variabilità si
misurerà la differenza tra le modalità osservate, i due metodi possono essere ricondotti, difatti
allontanando c dalla distribuzione cresce la disuguaglianza tra le modalità, insieme di valori, e le
differenze che vi intercorrono.
Gli indici derivanti da questo approccio devono avere determinate caratteristiche (2), è necessario
quindi stabilire una misura del grado con il quale, considerando due generiche modalità, esse sono
tra di loro diverse, (3) il modo più semplice per individuare quindi questi indici è quello di
considerare tutte le possibili diversità, tra le modalità di una distribuzione e dopo farne una media
aritmetica, il risultato di questa operazione sarà un valore che soddisfa le condizioni di cui al punto
(2), sarà difatti uguale a zero in presenza di differenze pari a zero, e con valori positivi e crescenti
man mano che le diversità diventano positive e crescono.
È necessario quindi formalizzare il calcolo della diversità tra due generiche modalità, il modo più
semplice è effettuare le differenze tra le due modalità, per ogni valore possibile, fratto il numero
totale di differenze effettuate. (4)
Data quindi una tabella a doppia entrata, con tutte le possibili differenze, (5) supponendo di partire
anziché da una distribuzione di frequenza dall’insieme dei dati in forma elementare, distribuite poi
sulle righe e sulle colonne di una tabella a doppia entrata. Dopo di che la tabella va sviluppata
considerando le diversità, tra due generiche osservazioni, supponendo di misurare la diversità tra
le due generiche osservazioni tramite una differenza. Nel caso pratico avremo (5.1), nella diagonale
principale, come da esempio, nel caso particolare un’osservazione meno se stessa, danno come
risultato un’osservazione nulla, a prescindere dal modo di esplicitazione della diversità. Il primo
indice di variabilità si calcola quindi tramite la media aritmetica di tutte le diversità osservate nella
tabella pratica, le differenze vanno prima sommate e poi divise per il numero totale di differenze
considerate, quadrato del numero delle osservazioni.
L’indice si definito soddisfa le caratteristiche di cui al punto (2), poiché ha valore zero in assenza di
variabilità tra i valori, assumerà quindi un valore sempre e comunque pari a zero, malgrado quindi
il grado di variabilità del fenomeno, che è nullo solamente in presenza di variabili banali con
osservazioni che quindi coincidono, anche in presenza di variabilità. Per eliminare questo
inconveniente è necessario considerare le differenze in valore assoluto, cioè a prescindere dal
segno osservato (5.2). Da ciò deriva quindi la seguente formula (5.3). Questo indice prende il nome
di indice di differenza media assoluta con ripetizione, con ripetizione per distinguerlo da un altro
indice, che prende il nome di indice di differenza media assoluta senza ripetizione, il termine
ripetizione deriva dal fatto che sulla diagonale principale di questa tabella, sii trova sempre lo
stesso valore, che sarà sempre pari a zero o nullo, poiché dato dalla differenza tra un’osservazione
e se stessa. Si può quindi evitare di considerare le differenze che si trovano sulla diagonale
principale, e indicabili come (5.4). Da ciò avremo che le osservazioni che danno risultato zero
possono essere escluse dal conteggio della base della media determinando la funzione, l’indice si
detto e determinato si indica con un (delta) (5.5). determinando quindi l’indice di differenza media
assoluta senza ripetizione, l’unica differenza è che il numero di differenze da considerare senza
ripetizione, prevede una sottrazione di n da n2. Entrambi gli indici danno risultato quindi zero
qualora non vi sia variabilità e valori positivi e crescenza e al crescere della variabilità. dato l’indice
2
di differenza media assoluta con ripetizione e moltiplicato per n/n-1, otteniamo l’indice dii
differenza media assoluta senza riptezione.
Gli indici sino ad ora considerati derivano da dati in forma elementare, data come situazione di
partenza una distribuzione di frequenza, relativa a una variabile descritta, avremo quindi che (6).
Osservando quindi la tabella avremo delle righe e delle colonne che si ripetono, prima seconda,
terza quarta e quinta, con una sesta differente e indipendente le righe simili possono essere
raggruppate passando da una tabella in forma estesa a una concentrata, sintesi di quella di
partenza, si devono quindi aggregare le righe e le colonne ripetute, otterremo quindi (6.1), parziale
raggruppando solamente le colonne, moltiplicando ogni elemento della colonna che si ripete per il
numero di volte in cui osserviamo la colonna considerata. Fatto questo processo le osservazioni di
considerare sono quelle totali ma il supporto della variabile considerata. A questo punto lo stessa
operazione può essere svolta per le righe, (6.2). questa ultima tabella ha sia sulle righe che sulle
colonne i valori del supporto della variabile, e all’interno si trovano tutti i valori ottenibili tramite la
differenza tra due generiche modalità della variabile, non più considerando quindi le osservazioni,
le differenze sono poi moltiplicate per due numeri, che coincidono con le frequenze assolute
associate alle modalità di cui si considera la differenza. Calcolare quindi le differenze dei dati in
forma elementare coincide con la differenze di tutte le modalità di una variabile per le volte in cui
le due modalità sono osservate. Da cui deriva la seguente formula (6.3). considerando l’indice con
ripetizione è possibile semplificare le frequenze al numeratore con il numero totale di osservazioni,
scrivendo N2=N*N avremo che (6.4).
Quanto detto è valido per una variabile discreta, data una variabile continua è necessario sostituire
alle due generiche modalità i valori centrali delle classi. La notazione cambia poiché al posto di XI e
XJ verranno inseriti: XI* e XJ*.
Gli indici appena definiti sono solamente alcuni di quelli determinabili tramite il confronto delle
osservazioni, o le modalità di una distribuzione, tutto ciò dipende da come viene esplicitata la
differenza tra due generiche modalità. Sinora si è considerato solamente il caso particolare di
esplicitazione come differenza semplice in valore assoluto, |XI-XJ|, a questo valore si può sostituire
il quadrato delle differenze, |XI-XJ|2 definendo quindi l’indice di differenza media assoluta
quadratica. A prescindere dai casi particolari esplicitando la differenza come |XI-XJ|s troveremo
l’indice di differenza media assoluta di ordine S, tutto ciò per S diverso da zero.
• Considerando il caso S=1 abbiamo l’indice di partenza.
• Considerando il caso S=2 abbiamo l’indice di differenza assoluta quadratica.
Considerando il limite dell’indice di differenza media assoluta di ordine S esso esiste e corrisponde
il valore di massima differenza riscontrabile tra le modalità della variabile, questa differenza prende
il nome di range, ed è anche esso un indice di variabilità, e prende anche il nome di indice campo
di esistenza o indice di definizione, essa corrisponde anche alla differenza tra la più grande e la più
piccola delle modalità.
3
Appunti del 24/10/2012
Differenza interquantile, il concetto di quantile è relativo ad Xp 0<p<1, determinando quindi il
quantile di ordine p numero che divide la distribuzione in due sottoinsieme nel primo con una
frequenza dei casi pari a p, nel secondo con una frequenza dei casi pari a 1-p.
Dato quindi il concetto di quantile avremo caso particolari riferendosi ai decili, tali valori dividono
la sequenza in dieci gruppi con la stessa frequenza dei casi, avremo difatti X0,1, X0,2, …, X0,9.
Un concetto simile si ha per i percentili che dividono la suddivisioni in certo parti equivalenti, X 0,01,
X0,02, …, X0,99.
Abbiamo poi i quartili, quantili di ordine 0,25, 0,5 e 0,75, nel primo caso avremo il primo quarto di
distribuzione, nel secondo la mediana o metà della distribuzione del totale, il terzo non è altro che
l’inversione del primo.
Con la differenza interquantile determiniamo la differenza tra il terzo quartile di ordine 0,75 e il
primo quantile cioè quello di ordine 0,25, tale indice, data la modalità di calcolo, esclude dal
calcolo della variabilità del fenomeno il 25% dei casi inferiori e il 25% dei casi superiori, escludendo
quindi le code della distribuzione.
Concludendo il discorso sugli indici di mutua variabilità si deve considerare un indice, che a
differenza degli altri espressi nello stesso valore della scala di misura, ciò fa si che volendo
confrontare due fenomeni con scale di misura diverso ciò non è possibile. volendo confrontare due
fenomeni con scale di misura diversi è necessario trovare un indice di variabilità non influenzato
dalla scala di misura. Per fare ciò è necessario dividere un qualsiasi indice di variabilità per un altro
indice espresso nella stessa scala di misura, determinando quindi un indice puro non influenzato
dalla scala di misura, il più importante di questi indici è (1) ed è noto come coefficiente di
variazione.
Data il seguente caso pratico (2) si determinano quindi i quantili come nel caso della mediana salvo
cambiare il secondo valore di riferimento, quanto detto è valido per una variabile continua ma si
semplifica nel caso di una variabile discreta, (3).ù
Variabilità da un centro, o da una media, in questo caso si stabilisce quanto la media era o
meno distante dalla media di distribuzione.
Mutua variabilità: si confrontano le modalità per comprendere quanto esse sono
effettivamente diverse.
I due modi sembrano diversi anche se si presentano come complementare l’uno all’altro, difatti
considerando l’indice di differenza media quadratica con ripetizione, indice di mutua variabilità, si
dimostra che vale la seguente relazione (4), eguagliando tale valore con la deviazione standard
moltiplicata per la radice di due, ciò impone un’uguaglianza tra due indici dei due casi considerati,
mutua variabilità contro variabilità da un centro.
Va quindi definita la variabilità di un fenomeno come l’attitudine di un fenomeno stesso di
manifestarsi come unità differenzi nelle diverse unità del collettivo.
Esempio di coefficiente di variazione (5).
Analisi della concentrazione, metodologia diverso rispetto a quelle considerate di valutare la
variabilità di un fenomeno, approccio ulteriore, rientra nell’ambito della misura della variabilità di
un fenomeno.
Si parla di una variabile, presente solo per particolari tipi di variabili, cioè variabili trasferibili da un
soggetto ad un altro, contrapposti a quelli che non possono essere traferiti tra individui. Sino ad
ora la variabilità era calcolabile su ognuno dei caratteri prima indicati, adesso si sposta il centro
dell’analisi sui caratteri trasferibili o cedibili. Tali caratteri si considerano equi distribuiti o non
4
concentrati se l’ammontare complessivo è suddiviso in parti uguali fra le N unità del collettivo. Se
questa ipotesi non si verifica diremo che il carattere è concentrato, esiste cioè almeno un individuo
all’interno della popolazione che ha un ammontare di carattere maggiore rispetto a quello
posseduto dagli altri, in questa situazione può essere interessante valutare di quanto è concentrato
questo carattere.
Supponendo la presenza di dati in forma elementare avremo che (6), popolazione di cinque
individui a cui è stato chiesto il reddito mensile. L’obbiettivo è quindi di quantificare la distribuzione
del carattere considerato, nell’ipotesi più estrema, opposta all’equi distribuzione, nota come
massima distribuzione e prevede il caso (6.1), cioè qualora un individuo abbia concentrato su di
esso l’ammontare complessivo del carattere. Va quindi determinato un indice che esprima la
concentrazione del carattere nella popolazione. Data quindi la condizione generale avremo che (7).
Il valore QI indica la frazione di carattere posseduto dalle prime I unità, FI indica il rapporto tra le I
unità considerate e il numero totale di unità tale valore è detto anche frequenza cumulata
Tornando all’esempio pratico avremo che (8). Verranno interpretati come che il valore F I del
collettivo possiede un ammontare complessivo del carattere pari al relativo Q I. l’introduzione di
frequenze, FI e le frazioni cumulate sono l’elemento fondamentale per calcolare la concentrazione
di un carattere in una popolazione.
5
Appunti del 25/10/2012
(1) Ogni valore corrisponde quindi al precedente più un valore minimo in rapporto del totale.
(2) Dato quindi Fi può essere scritto come. Muovendosi la x da 1 a n sia Qi sia Fi assumono
valori crescenti per un ordine già evidenziato.
(3) La frequenza cumulata, Fi, assume poi un valore sempre maggiore o al limite uguale a Qi, il
simbolo di uguaglianza si ha in due situazione particolari, in primis quando le due
quantità sono calcolate per i pari a n, un altro caso di uguaglianza si ha in presenza di un
carattere equi distribuito. Nel caso di Qi dopo le opportune sostituzioni avremo che
(3.1), xi poi corrisponde alla media del carattere stesso, data quindi la sostituzione
avremo al numeratore la somma di una costante, che in questo caso corrisponde a i*Y,
al denominatore allo stesso modo avremo n*Y, date le opportune semplificazioni
avremo come risultato i/N che corrisponde a Fi.
(4) Data quindi la sequenza dei dati sistemati in maniera ordinata è possibile dividere la
sequenza in due sottoinsieme, nel primo, A, avremo le prime i osservazioni, nell’altro
insieme, B, le restanti osservazioni, nell’insieme A avremo quindi i elementi, nel
secondo, B, avremo n-i osservazioni. Analizzando quindi la media aritmetica delle
osservazioni nel primo insieme e la definiamo come Y(i) e indichiamo Y(n-i) la media del
secondo sottoinsieme, indicando quindi Y come la media dell’insieme generale unito,
facendo riferimento alla proprietà associativa della media e quella della internalità,
risulta che la media Y(i)<=Y<=Y(n-1), il caso = non viene generalmente considerato poiché
parte dell’analisi del caso di una variabile banale. Analizzando solamente la prima parte
della disuguaglianza avremo che: (5) Y>Y(i), data la rielaborazione risulterà verificato che
Fi assume un valore generalmente più grande di Qi. Data quindi una variabile
concentrata al crescere la differenza tra Fi e Qi tanto più la variabile è concentrata
all’interno della popolazione (6). Si rappresenta quindi la condizione di equi
distribuzione, cioè quando Fi e Qi coincidono, situazione osservabile con un variabile
equi distribuita o banale, in questo caso avremo la bisettrice del quadrante,
rappresenteremo poi la situazione effettivamente osservata con Fi>Qi, determineremo
quindi la retta di equi distribuzione. Osservando invece la rappresentazione della
situazione effettivamente osservata avremo la spezzata di concentrazione; tutto il
sistema effettivamente osservato nel grafico va sotto il nome di curva di Lorenz.
All’aumentare della concertazione cresce il divario tra la retta di equi distribuzione e la
spezzata di concentrazione.
(7) Tornando quindi al caso base e ipotizzando un sistema di equi distribuzione avremo la
seguente dimostrazione. Ove spezzata e retta di equi distribuzione sono coincidente
aumentando la concertazione avremo una suddivisione semplice del primo reddito tra
le restanti unità. (8) aumentando ancora avremo che (9). Aumentando ancora la
concentrazione avremo che (10). Aumentando la distribuzione ancora avremo l’ipotesi
di massima distribuzione (11). L’andamento della differenza tra la retta di equi
distribuzione e la spezzata di concentrazione diventa massima, abbassandosi e
avvicinandosi sempre di più all’asse delle ascisse.
(12) Il grado di concentrazione della variabile, dato l’esempio appena considerato, (8-11), e
abbiamo che all’aumentare della concertazione la spezzata di distribuzione si avvicina
all’asse delle x il modo più semplice quindi per calcolare la distribuzione di un dato
avremo che il modo più semplice è determinare l’area compresa la spezzata di
6
(13)
(15)
contrazione e la retta di equi distribuzione, che cresce all’aumentare del grado di
concentrazione. Calcoleremo in primis l’area sottostante la retta di equi distribuzione, a
cui toglieremo l’area sottostante la spezzata di distribuzione. Determinando quindi
l’area compresa tra la retta e la spezzata. Nel primo, area sottostante al retta di equi
distribuzione. caso l’area corrisponderà all’area del triangolo con base pari a uno e
altezza pari a uno, determinando un’area di ½. L’area sottostante la spezzata di
concentrazione è più complesso, sii parte dai punti di coordinate (Fi;Qi) date tutte le
combinazioni possibili (i;i), collegandoli con i rispettivi valori dati da (Fi;0), l’area
sottostante la spezzata di distribuzione si può calcolare tramite la somma delle aree
delle figure geometriche determinate dalla spezzata di distribuzione e la retta che la
connette all’asse delle ascisse. Nel primo avremo, come per la prima area, che è
triangolare, (F1*Q1)/2, nel secondo avremo, data la figura generata che è un trapezio
avremo, ((Q1+Q2)(F2-F1))/2, la stessa cosa accade con le figure geometriche generatesi
successivamente sommeremo le aree generate e le sottrarremo all’area prima
determinate. L’area del generico i esimo trapezio avremo che: ((Qi+1+Qi)(Fi+1-Fi))/2.
Avremo poi l’area al di sotto della spezzata di distribuzione, come sommatoria delle
aree appena definite. Avremo in definitiva l’area sottostante la retta di equi
distribuzione e la spezzata di concentrazione. Il valore è zero in caso di
equidistribuzione e ha valori superiori all’aumentare della distribuzione.
È quindi possibile, derivando la funzione, determinare un indice con valori compresi tra
0 e 1, 0 in assenza di concentrazione, equi distribuzione, e uno se la variabile è
massimamente concentrata. Ciò si otterrà dividendo l’indice R, che vale 0 in assenza di
concentrazione e un certo MaxR in caso di variabile massimamente concentrata.
Dividendo il tutto per il valore di massima concentrazione avremo quindi un valore
compreso tra zero e uno. Tale indice detto è detto normalizzato. Il valore di MaxR
tornando all’esempio pratico, ove il reddito è raggruppato totalmente nelle mani di un
individuo avremo che (14). La formula di R/MaxR può esse scritta considerando solo la
parte superiore.
Considerando invece il calcolo della concentrazione partendo da distribuzione di
frequenza abbiamo gli stessi calcoli, poiché la concentrazione di frequenza è una
derivata dei dati elementari, cambiano solamente le metodologia di calcolo di Fi e Qi
che invece di essere calcolate in presenza di ogni osservazione vengono calcolate sul
valore totale.
7
Appunti statistica
Sesta settimana
1
Appunti del 30/10/2012
Inizio della seconda parte del corso si inizia l’analisi statistica bivariata, tale analisi considera due
variabili, sino ad ora se ne è considerata sempre una, dicasi analisi univariata, l’analisi si complica
considerando congiuntamente due variabili. Si parte dagli stessi dati iniziali, una popolazione di
riferimento sulla quale si rilevano due variabili, determinando due insiemi di osservazioni, il primo
insieme o x contiene le informazioni relative alla prima, abbiamo il secondo insieme y che contiene
le informazioni di una seconda variabile.
Il primo passo prevede il passaggio dai dati in forma grezza alla distribuzioni di frequenza delle due
variabili, congiuntamente.
Riprendendo i dati di inizio corso consideriamo un’analisi basata sul titolo di studio, inteso come x,
e la condizione professionale, y, analizzate congiuntamente nel collettivo di cinquanta individui.
1. I dati vanno quindi organizzati, che data la presenza di due variabili avviene tramite
l’elaborazione di una tabella a doppia entrata, simile a quella introdotta negli indici di
differenza, sulle righe o sulle colonne vanno quindi sistemati i supporti delle due variabili. Si
deve quindi compilare la tabella con quelle che si chiamano frequenze congiunte, tale
frequenze indicano il numero delle volte che si osserva una modalità di una variabile e una
modalità dell’altra variabile, ciò in combinazione lineare. Una volta completata la tabella a
doppia entrata con il calcolo delle frequenze congiunte tale tabella viene completata con i
totali di riga e di colonna. I valori della tabella sono definiti come frequenze incrociate. Le
somme di riga e di colonna sono chiamate frequenze marginali di riga e frequenze marginali
di colonna. Quanto detto può essere generalizzato come segue (2). Quanto detto è valido
per le frequenze assolute, dividendo la generica frequenza congiunta per il numero totale
di osservazioni, n determiniamo, dalla distribuzione di frequenza assoluta, la distribuzione
di frequenza relativa, dicasi distribuzione doppia delle frequenze relative.
3. Oltre alla distribuzione congiunta, a prescindere, dalla natura, a frequenze assolute o
relativa, partendo dallo stesso schema, si possono determinare le distribuzioni
condizionate. Tali valori non sono altro che le distribuzioni di frequenza di una variabile
qualora si consideri solamente una modalità dell’altra variabile. Determineremo la
distribuzione di frequenza di una variabile della quale si consideri solamente il gruppo
rappresentato da una modalità dell’altra variabile. Tale valore si chiama distribuzione
condizionata, condizionata alla distribuzione di frequenza, come unica condizione di
riferimento. Tale distribuzione considera quindi una qualsiasi riga o colonna a seconda del
punto di riferimento. Determineremo una condizione come quella (4).
L’analisi della distribuzione congiunta, anche detta bivariata, consiste nell’andare a verificare se le
variabili si influenzano tra di loro, e successivamente, data la natura delel variabili, determinare il
legame funzionale tra le due variabili, si hanno quindi due piani alternativi, il più semplice verifica,
date due variabili, distribuzione congiunta se si influenzano tra di loro, le fasi successive, in
funzione della natura delle due variabili, permettono di individuare il tipo di influenza esistente tra
le due variabili.
Data una distribuzione di frequenza congiunta, senza specificare la natura delle due variabili, dato
generico senza specificazione, cioè data la distribuzione congiunta se le distribuzioni condizionali,
sono tutte uguali tra di loro, e coincide la distribuzione condizionata con la distribuzione marginale
della variabile, allora diremo che la variabile è indipendente dall’altra. Data l’assenza di questa
condizione, per almeno una delle distribuzioni condizionate di X allora la variabile Y influenza la
2
prima, cioè la variabile X vi è cioè una certa dipendenza, quanto detto è valido anche per la
variabile Y. (5). Dato quindi il caso pratico avremo (6).
3
Appunti del 21/10/2012
Ragionamento sulla dipendenza di due variabile dati difatti distribuzione condizionati uguali che
coincidono con la distribuzione marginale si ha una condizione di indipendenza delle due variabili,
per fini pratici esiste un metodo più semplice per la verifica dell’indipendenza, volendo specificare
le tipologie di dipendenza e indipendenza si considererà per ora l’indipendenza assoluta,
differente da quella in media. Il metodo di calcolo è il seguente (1) partendo difatti dalle
distribuzioni condizionate, e volendo determinare l’indipendenza della variabile y secondo le
modalità di x. Data difatti la tabella di distribuzione condizionata, esclusa quella marginale, che
raccoglie tutte le frequenze condizionate, è possibile notare che nella prima distribuzione
condizionata il primo indice di frequenza è costante, è uguale anche all’indice presente al
numeratore, ciò è valido per ogni riga considerata, tale distribuzioni possono essere unite
sostituendo all’indice di riga un valore i incluso tra uno e due, avremo quindi, si schiacciano nel
senso delle righe le frequenze condizionate.(2).
Data quindi la prima operazione di sintesi avremo che le frequenze condizionate, e quelle marginali
possono a loro volta essere sommata sostituendo ai numeretti l’indice di colonna inteso come j e
che comprende i valori delle tre colonne, si schiaccia nel senso delle le colonne le frequenze
condizionate (3).
Tutta l’operazione di confronto sarà quindi ridotta alla valutazione della generica frequenza
condizionata che deve coincidere con la generica frequenza marginale, riordinando il sistema
avremo che (4). Lo stesso processo si sviluppa identico per la x, basta considerare le distribuzioni
condizionate della variabile x alle modalità dell’altra variabile ottenendo un risultato che è (5),
condizione uguale al caso dell’indipendenza dell’altra variabile. L’assenza dell’uguaglianza
determina la condizione di dipendenza che prevede come passo successivo la quantificazione del
grado di dipendenza.
La dipendenza come detto può avere vari gradi, il limite massimo indica come: variabili
massimamente dipendenti. (6) quanto indicato è una situazione di massima dipendenza poiché
data una modalità di una variabile ad essa ne corrisponde solamente una dell’altra variabile, in
ogni possibile verso di osservazione. Dicasi massima dipendenza reciproca. La possibilità di una
massima dipendente reciproca si ha solamente quando le variabili x e y hanno lo stesso numero di
modalità, si parlerebbe di massima dipendenza unilaterale e non reciproca (7).
Come si misura quindi la forza del legame esistente tra le due variabili avremo (7). È necessario
quindi verificare la dipendenza o indipendenza, per poi quantificarne il grado. Costruiamo quindi,
invece di determinare le frequenze condizionate, una seconda tabella congiunta, chiamata, tabella
congiunta delle frequenze teoriche, sotto l’ipotesi di variabili tra di loro indipendenti, (8). Dato che
almeno una delle frequenze teoriche e quelle osservate determiniamo dipendenza tra le due
variabili. Volendo quantificare il grado di influenza delle due variabili che nel modo più semplice è
sufficiente determinare un indice che sottolinei la distanza tra la tabella delle frequenze osservate
rispetto alla tabella delle variabili teoriche. Data una distanza nulla l’indice di dipendenza, come da
definizione teorica diventa zero sottolineando indipendenza allontanandosi l’indice di distanza
assume valori crescenti che indicano la forza del legame esistente tra le due variabili. L’indice con
più successo, poiché gode di molte proprietà è quella nota come (9), l’indice ha molti pregi dal
punto di vista inferenziale salvo un fondamentale difetto come da esempio (10) tale indice ha il
difetto però di risentire del numero e del valore delle osservazioni, la situazione ha le stesse
frequenze relative e quindi la stessa dipendenza, determinando le frequenze teoriche avremo (12),
dato il calcolo di chi-quadro avremo che (13), l’eliminazione di tale inconveniente si fa dividendo
4
l’indice Chi-quadrato per il numero totale delle osservazioni, tale indice prende il nome di Phiquadrato (14), difatti a parità di dipendenza l’indice cresce al crescere del numero di osservazioni,
dato questo il grado di dipendenza delle situazioni reali considerate al punto (7) e (8) avremo che
(11).
Considerando gli indici chi-quadrato e phi-quadrato, e riprendendo la formula del chi-quadrato,
svolgendo il quadrato al numeratore avremo che (15) il calcolo è più immediato perché per tale
calcolo non si ricorre alle frequenze teoriche si può calcolare quindi la dipendenza utilizzando solo
e direttamente le frequenze congiunte.
5
Appunti Statistica
Settima settimana
1
Appunti del 06/11/2012
Dato l’indice Y2 è necessario calcolare i gradi di dipendenza unilaterali, cioè la forza con cui una
variabile attrae o dipende dall’altra. Partendo quindi dall’indice Y2 si devi misurare la dipendenza
unilatera, di una variabile rispetto all’altra, considerando quindi una situazione semplice,
supponendo di considerare una condizione di massima dipendenza della variabile x dalla variabile
y, la cui situazione più semplice è (1), la massima dipendenza è della variabile x dalla variabile y,
difatti considerando una variabilità di x corrisponde solo una modalità di y, ma non si verifica il
contrario. La marginale di riga coincide con l’unica frequenza di riga presente nel sistema, per
misurare la dipendenza unilaterale quindi si considererà l’indice Y2, calcolato nella particolare
situazione di massima dipendenza della x dalla y, dato quindi l’indice Y2 (2). Sommando quindi la
generica frequenza congiunta secondo il generico indice di riga ci troveremo nella condizione in cui
(3), l’indice quindi che si definisce in tale punto misura proprio la forza con la quale la variabile x
attrae la variabile y e si indica come (3).
Dipendenza della variabile y dalla variabile x, considerando sempre una condizione semplice e
facilmente generalizzabile avremo (4), situazione inversa, righe e colonne rispetto alla precedente.
Ad ogni y corrisponde una x ma non viceversa, per misurare la forza dell’attrazione si calcolerà
l’indice Y2, considerando questa condizione particolare (5) ci ritroveremo quindi nella condizione in
cui (6)
La ruotazione della sommatoria secondo l’indice di rega nel primo caso, e di colonna nel secondo
caso avremo che (7)
In una condizione di massima dipendenza, a prescindere che sia della x o della y, il masso dei valori
che potrà assumere Y2, coinciderà sarà minore o uguale a k-1 o m-1, dividendo quindi Y2 per il
proprio massimo valore, il minore tra k-1 e m-1, si otterrà un indice di dipendenza reciproca che
varrà zero in presenza di variabili indipendente ma avrà volere uno in caso di massima dipendenza,
reciproca o unilaterale (8).
Analisi più semplici di variabili congiunte, a prescindere dalla natura della stessa, analisi sempre
possibile, prescinde la natura delle variabili, data però variabili numeriche allora l’analisi della
dipendenza può essere approfondito, suppon3endo ad esempio che uno delle due variabili sia
quantitativa, nel nostra esempio la y, (9).
Della variabile numerica si possono calcolare molti indici, ad esempio la media della distribuzione
marginale (10) calcolabile sia considerando la distribuzione marginale, sia condizionando il calcolo
alle distribuzioni condizionate secondo il valore di x (11).
Date medie condizionate della variabile y al variare delle modalità dell’altra variabile, sono tutte
uguali tra di loro e coincidono con la media della distribuzione marginale della variabile si ha
l’indipendenza in media dalla variabile x. Se uno dei valori è diversi la variabile y dipende in media
dalla variabile x, l’obbiettivo, come già visto, sarà quantificare il grado con il quale la variabile y
dipende in media dalla variabile x.
Date due variabili quantitative l’analisi considerata sarebbe potuta essere sviluppata anche nel
senso opposte, data l’indipendenza in media di Y da x, ciò non comporta o implica il caso contrario,
cioè la variabile x è indipendente in media dalla variabile y. Va però detto che se fra due variabili vi
è indipendenza assoluta, questo comporta anche l’indipendenza in media. (12).
2
Appunti del 07/11/2012
Unità di misura della forza con la quale la variabile Y, supposta come quella quantitativa dipenda in
media dall’altra variabile, per individuare questo indice si parte dalla varianza della variabile
quantitativa, y, calcolata seconda la distribuzione marginale altri non è che (1). Considerando che
la marginale di colonna può essere scritta come (2). Il totale della j esima colonna è data come il
totale della sommatoria della frequenza delle colonne considerate (3). Aggiungendo e sottraendo
le medie condizionate all’interno della parentesi tonda avremo (4). Considerando unicamente il
doppio prodotto avremo (5), avremo la verifica che esso corrisponde a zero.
Nel caso 5.4 si ha che la variabile resta costante se varia solamente l’indice j, tale quantiità può
essere quindi porta avanti al primo indice di sommatoria (5.5) Si può dimostrare quindi che
entrambe le singole sommatorie ottenute sono pari a zero, per verificare tale processo basta che
uno delle due è nulla, come da cosa (6). Di cui al caso (6.1) avremo due somme, la prima è la media
condizionata della variabile y, nella seconda è possibile far uscire la media condizionata, che non
dipende dall’indice j, (6.2) la parte restante all’interno della sommatoria altri non è che (6.3).
determineremo quindi il caso (6.4) quanto detto annulla il doppio prodotto del caso (4.3), che può
essere riscritto come (7).
Moltiplicando il caso sette per la generica marginale di riga avremo (7.1), dato quindi il caso (7.3),
che altrii non è che una varianza, cioè variabile meno scarti al quadrati per il rapporto tra una
variabile congiunta e una frequenza relativa di riga, tale valore non è altro che la varianza di y
condizionata alla i esima modalità dell’altra variabile. Avremo al caso complessivo (8). Il valore
quindi ottenuto nella prima sommatoria è la media aritmetica delle varianze condizionate. (8.1).
Dato (9), seconda parte dell’operazione iniziale, avvremo che la prma parte è costante rispetto alla
prima sommatoria (9.1), la stessa cosa può essere fatta per la costante “1/n”, (9.2). La seconda
sommatori al caso (9.2) diventerebbe come (9.3). Arriveremo quindi al caso (9.4).
Il caso (10) rielaborazione della funzione generale di varianza è quindi data dalla media aritmetica
delle varianze condizionate, la seconda quantità è a sua volta una varianza, somma di scarti, o
differenze, tra due quantità, elevate al quadrato e moltiplicate per frequenze relative, i valori degli
scarti comprendono le medie condizionate meno la media marginale della variabile y, come già
dimostrato la media delle medie condizionate non è altro che la media marginale della variabile,
avremo da una parte la modalità dall’altra la media, è essenzialmente una varianza, tale varianza
non è la varianza della variabile quantitativa y, data l’assenza di yj, la varianza è relativa alle medie
condizionate. Tale valore può essere riscritto come (10.1).
L’indice che permette di misurare il grado di dipendenza media è dato dal rapporto tra la seconda
varianza, cioè delle medie condizionate sulla varianza delle variabili marginali. Si indica come (eta) 2
ed è (10.2). tale indice vale zero se c’è indipendenza uno se c’è dipendenza media.
Supponendo la presenza di due variabili quantitative, come nell’esempio da scarica, (pagina web
professor La Monica), data l’obbiettivo dell’analisi congiunta è possibile analizzare la variabilità di
entrambe le variabili accertata la presenza di dipendenza si può individuare, anche se non sempre,
il legame tra le due variabili. Per far ciò è necessario stabilire qual è la variabile che influenza e
quella che viene influenzata, bisogna individuare la variabile dipendente e la variabile esplicativa.
Nel nostro esempio la y sarà la variabile dipendente e la variabile x sia quella indipendente o
esplicativa, cioè chiamata a spiegare i livelli osservati nell’altra variabile. Data la variabile x come i
redditi delle famiglie e i consumi la variabile y, i primi sono chiamati ad esplicare i secondi.
Supponendo quindi che la y dipenda dalla x. L’obbiettivo è determinare il grado di influenza
3
Per determinare il legame delle due variabili vi sono due strategie, una prima che si presenta come
più semplice e prende il nome di metodo della spezzata di regressione.
Il secondo metodo o strategia è quello dei minimi quadrati.
Spezzata di regressione si considerano per questo metodo le medie condizionate della variabile y al
variare dei valori della variabile x, dato un grafico avremo sulle ascisse i valori di xi e sulle ordinate
il valore delle medie condizionate, rappresentati i punti si determinati e congiunti i punti ci
determina un andamento grafico che fornisce informazione su come si muove in media la variabile
y quando ci si sposta tra le varie modalità dell’altra variabile, abbiamo quindi l’andamento medio
della variabile dipendente al variare delle modalità dell’altra variabile, questo metodo è
un’approssimazione dell’andamento della variabile. L’insieme dei punti si chiama spezzata di
regressione. La capacità della spezzata di regressione di quantificare la relazione tra le due variabile
è dato dall’indice (eta)2, che esprime la capacità percentuale di della spezzata di regressione di
esplicitare il legame esistente tra le due variabili.
4
Appunti del 08/11/2012
La spezzata di regressione si presenta come una curva, spigolosa e non chiaramente definita, la
capacità di adattarsi e esplicitare l’andamento delle due variabili dipende dall’indice (eta)2, ciò fa si
che al suo posto si utilizzi un altro metodo noto come metodo dei minimi quadrati, tale metodo si
sviluppa su diverse fasi, nella prima (1), dobbiamo stabilire a priori una particolare relazione
esistente tra le due variabile, tale valore è stabilito in maniera soggettiva, nella fase successiva, (2),
si determinano i parametri che caratterizzano la relazione, si stimano i parametri, tale
procedimento si chiama procedimento dei minimi quadrati; fatto ciò si va a valutare di quanto la
relazione stimata, (3), sia adatta alla realtà, ciò avverrà tramite un indice indicato come R2, indice di
approssimazione che va da zero a uno, qualora sia ottimo, zero se è totalmente errato.
L’operazione si può poi ripetere diverse volte sino ad un grado di adattamento al sistema reale
maggiore.
Considerando quindi gli elementi fondamentale di questo processo abbiamo:
(4) Funzione di variabili doppie, data quindi una distribuzione congiunta si indica con Z una
nuova variabile, data da una certa combinazione delle variabili x e y. Una volta
esplicitata tale funzione si dovrà calcolare la media di Z e la varianza di Z. la frequenza
con cui sarà osservato il valore Zi,j sarà la modalità con cui avrò il valore x i e zj, cioè il
valore ni,j, il valore Zi,j avrà quindi una frequenza pari a ni,j. Data la funzione di Fi come
(4.1). Sviluppando quindi la funzione di media di Zi,j avremo (4.2). prima di considerare
la varianza di Zi,j, è necessario introdurre (4.3).
5
Appunti statistica
Ottava settimana
1
Appunti del 13/11/2012
Covarianza indice che misura il grado di dipendenza lineare di due variabili, ha valori positivi in
caso di dipendenza lineare diretta, negativi per dipendenza lineare inversa, zero qualora non vi sia
interrelazione.
(1) Si suppone la perfetta dipendenza lineare diretta tra le due variabili, considerando quindi l’i
esimo valore di x data una dipendenza perfetta ottengo un particolare valore
osservabile di y. In caso di perfetta dipendenza lineare diretta avremo che la covarianza
è uguale a b(varianza)2X. Svolgendo lo stesso processo sotto la stessa ipotesi per la
variabile y avremo la varianza di a e sommata alla varianza di bx in questo caso avremo
che la varianza dii una costante è zero e la varianza idi una costante che moltiplica una
variabile è dato dalla costante al quadrato per la varianza della costante. Avremo quindi
l’uguaglianza tra la covarianza di y e bx, sostituendo alla funzione già determinata
avremo che la covarianza in caso di perfetta dipendenza lineare diretta la covarianza
sarà il prodotto tra le due deviazioni standard, al contrario in caso dii massma
dipendenza lineare inversa la covaranzia coincide con lo stesso numero negativo.
(2) Data la covarianza come indice che misura il grado di dipendenze lineari di due variabili essa
assume valori compresi tra le due quantità sopralineate, meno il prodotto della
deviazione standard di x per quello di y e più il prodotto delle deviazione standard di x
per quella di y. Dividendo quindi la disuguaglianza considerata per l’estremo superiore,
valore massimo assunto dall’indice, avremo un valore compreso tra -1 e 1, avremo
quindi l’indice R2, pari a uno in caso di dipendenza lineare diretta, meno uno per
dipendenza lineare inversa e zero nel caso di incorrelazione. Tale indice prende anche il
nome di covarianza standardizzata.
(3) Se tra due variabili vii è indipendenza lineare assoluta, sia di x verso y che al contrario, ciò
comporta che le due variabili siano incorrelate, la covarianza è quindi pari a zero. Come
dimostrato difatti in caso di incorrelazione assoluta pij, è uguale al prodotto delle
frequenze congiunge relative, possiamo quindi definire. Tale operazione è valida in caso
di indipendenza lineare in media. (4).
Data z variabile derivante dalla combinazione lineare delle variabili x e y, si ha come obbiettivo
quello di calcolare la media di questa nuova variabile, e quindi la varianza della variabile stessa,
introdotto il concetto di covarianza è possibile calcolare la varianza di z.
Individuazione della relazione, legame funzionale, esistente tra due variabile x e y, data una
distribuzione congiunta, supponendo che la variabile x sia la variabile indipendente o esplicativa,
che la y sia la variabile dipendente, data la presenza di un legame funzionale lo si vuole
determinare, si hanno quindi due metodologie , la prima è la spezzata di regressione, il secondo
metodo o de minimi quadrati, necessità della conoscenza di media varianza, covarianza e altre
variabili statistiche.
Il secondo metodo si sviluppa su tre fasi, nella prima si stabilisce a priori un particolare legame
funzionale, poiché tale relazione dipende da alcuni parametri si ha una fase successiva in cui si
stimano i parametri della relazione, e un’ultima fase in cui si verifica se la relazione stimata si
adatta o meno alla realtà, se ciò è vero ci si ferma, altrimenti si ritenta alterando la prima funzione
e ottenendo la funzione che meglio si adatta alla realtà.
2
Appunti del 14/11/2012
(1) Data una distribuzione congiunta di due variabili, e ipotizzando una relazione è necessario,
come da secondo passaggio dei minimi quadrati stimare i valori delle variabili della relazione. Data
la relazione stabilita a priori confrontata con la realtà osservata qualora avessimo discordanza dei
valori da modello con quelli della realtà osservata la funzione stabilità a priori non si adatta alla
realtà, nel caso contrario quanto previsto nel modello coincide con quanto osservato con la realtà.
Fissando difatti una relazione a priori, salvo il caso di adattamento totale, quanto previsto dalla
relazione generalmente non coincide con quanto osservato. (2) Si indica quindi come, vedi caso i
valori da funzione da modello, si indica con eij la differenza tra questi valori.
(3) Un metodo per stimare a e b che caratterizzano la nostra relazione, e permettono di calcolare
yi, è quello di far si che la media delle differenze o errori, e ij, sia minimo, ciò comporta la necessità
di scegliere tra le molteplici rette considerabili, data quindi la rappresentazione grafica dovremo
quindi scegliere una retta, che passa tra i punti del grafico, in maniera da rispettare quanto detto in
relazione alla media delle differenze, distanza tra la retta e i punti del grafico sia minimo. In
maniera di non ottenere stime banali d a e b, che può corrispondere a zero, o a valori sia positivi
che negativi, onde evitare la compensazione degli scarti, si considerano gli scarti al quadrato.
(4) I valori appena trovati sono da considerarsi come costanti qualora si consideri una qualsiasi
equazione lineare come quella di partenza, o una situazione linearizzabile come il caso basilare. In
assenza di linearizzabilità è necessario svolgere il sistema da capo.
Nella terza fase del processo dei minimi quadrati si deve stabilire quanto la relazione stimata si
adatta alla realtà. Tale indice è del tutto analogo ad (eta) 2 per misurare la dipendenza in media e la
capacità della spezzata di regressione si adatti alla realtà, i passaggi sono analoghi a quelli della
scomposizione della varianza.
(4) Partendo dalla varianza di y avremo che (5), considerando la funzione di Yi*=a*+b*xi (6),
aggiungendo e sottraendo il valore di questa variabile al sistema avremo che (7).
3
Appunti del 15/11/2012
Calcolo delle probabilità necessarie per lo svolgimento dell’inferenza statistica. Tale disciplina si
occupa di valutare il grado con il quale gli eventi si possono verificare, con il termine evento,
definizione poco formale e che richiederebbe approfondimenti, con evento si intende
un’affermazione, questa affermazione può essere vera oppure falsa, il calcolo delle probabilità si
occupa di quantificare il grado con il quale una generica osservazione può essere vera o falsa. Il
modo più semplice per valutare la probabilità di un evento, probabilità del verificarsi di
un’affermazione vera o falsa, è il metodo noto come classico, tale metodo o approccio consiste,
indicando con E l’evento, proposizione, la probabilità di E P(E) è data da un rapporto dove al
numeratore si mettono i “casi favorevoli all’evento” indicabili con h, noti anche come numero di
casi favorevoli all’evento e al numeratore n, ove n indica il numero dei casi possibili sotto l’ipotesi
che questi casi possibili, questi n casi possibili, siano a due a due incompatibili, cioè dati due
qualsiasi casi possibili non vi può essere il caso in cui si verifichino entrambi, il verificarsi dell’uno
escludono la possibilità che si verifichi l’altro, va poi considerato che gli n casi possibili si possano
verificare tutti allo stesso modo. Date queste condizioni si può valutare la probabilità di tale
evento.
Data h=0 avremo una probabilità dell’evento pari a zero, eventi con probabilità nulla si definiscono
eventi impossibili, eventi che non si possano verificare, se al contrario il numero dei casi favorevoli
all’evento coincide con il numero dei casi possibili numerato re e denominatore sono
corrispondenti e si definiscono come eventi certi, cioè eventi che sicuramente si realizzeranno. Va
considerato che poi che vi sono moltissime situazione in cui l’attribuzione di probabilità agli eventi
non funziona, si considerino gli eventi che sono a due a due compatibili, qualora vi sia un numero
dei casi infinito, o che non sia determinabile
È necessario dato un evento in cui non si può ricorrere all’approccio classico è necessario ripetere
l’esperimento, un determinato numero di volte, sufficientemente grande, indicando con k il
numero di volte in cui si verifica un evento E, in cui n indica il numero di prove effettuate, allora
possiamo valutare la probabilità di questo evento secondo il rapporto P(E)=k/n, tale metodo di
calcolo presuppone che le n prove siano espletate nello stesso modo, tale metodo è noto come
modo frequentista o approccio frequentista, in quanto la probabilità di un evento non è altro che il
ripetersi di una frequenza. Tale approccio di calcolo, collegato al concetto di frequenza, è stato
dato come valido poiché ripetendo uno stesso esperimento un numero di volte estremamente
amplio questo esperimento si è osservato che P(E)=k/n, per un limite che tende all’infinito, si ha la
tendenza ad oscillare di tale valore intorno ad una costante, nota come P(E) e che esprime la
possibilità di un esperimento. La dimensione del numero di prove da effettuare, per ottenere un
rapporto dato da una stima verosimile dell’evento non è definita, principale limite di tale metodo,
anche se non unico poiché vi sono molte situazioni in cui l’approccio non può essere utilizzato, ad
esempio qualora non sia definibile n o k.
Per tentare di eliminare gli inconvenienti sino ad ora osservate è nato un ultimo approccio
considerato più valido che consiste nel misurare la probabilità di un evento mediante il grado di
fiducia che un individuo ha nel verificarsi di quell’evento. Operativamente il grado di fiducia di un
dato evento, necessario alla quantificazione, si ricorre all’escamotage della scommessa, il grado di
fiducia equivale al prezzo che ritengo equo pagare per ricevere uno se l’evento si verifica.
Considerando ad esempio l’ipotesi di un guadagno, dato da un evento E, è necessario determinare
il guadagno se l’evento si verifica e qual è il guadagno se l’evento non si verifica. Evento verificato
G(E)=-p+1, evento non è verificato G(Ec)=-p. Una scommessa si dice coerente se non da vita ad
4
guadagni certi o a perdite certe. Formalmente una scommessa si dice equo se non è possibile che
entrambi i guadagni siano dello stesso segno, in caso di verificarsi o no dello stesso evento, il
prodotto quindi dei due guadagni deve essere negativo o al limite pari a zero, G(E)*G(E c)=<0, nel
nostro caso: (-p+1)(p)<=0, la soluzione impone che quindi 0<=p<=1, valutazione della probabilità
dell’evento. Tale impostazione, o metodo di calcolo prende il nome di scuola o modo o approccio
soggettivo, ed è quello tuttora vigente.
5
Appunti statistica
Nona settimana
1
Appunti del 20/11/2012
Prime considerazioni sul calcolo delle probabilità, secondo tre metodi alternativi:
• Classico, la probabilità +è data dal rapporto del numero dei casi favorevoli all’evento fratto il
numero dei casi possibili, i casi possibili devo essere finiti, escludibili a due a due e
equamente definiti.
• Metodo frequentista, determina la probabilità tramite il rapporto tra i risultati dell’evento e
le prove ripetute.
• Metodo soggettivo, identifica la probabilità come il grado fiducia che un soggetto ha nel
verificarsi dell’evento, quantificabile tramite la condizione della scommessa, prezzo che si
ritiene equo pagare qualora si riceva uno se l’evento si verifichi in una situazione di
coerenza, ove la coerenza indica una scommessa che non da vita a guadagni o perdite
certe.
Si è infine considerato che poiché la probabilità è un grado di fiducia, a prescindere dalla
metodologia di quantificazione, possiamo definire la probabilità di un evento come il grado di
fiducia riposto nel verificarsi dell’evento stesso, prezzo equo per partecipare alla scommessa,
numero compreso tra zero ed uno.
Considerando l’approccio soggettivo, qualora si scommetta sui due eventi definiti come, eventi
estremi ed duali tra di loro, noti come (1). Il prezzo che siamo disposti a pagare per questi due
eventi è, logicamente una scommessa fitta o fittizia, poiché in un caso la scommessa è sicuramente
vinta, nel secondo caso, evento impossibile, la scommessa è sicuramente persa, va quindi definito
il guadagno, che si ha nello scommettere sull’uno o sull’altro è nullo. Date le relative equazioni
avremo (2).
Generalmente avremo quindi che p deve essere compreso tra zero e uno, data la condizione di
coerenza, e deve essere pari ad uno per un evento che si realizzerà certamente e pari a zero
qualora si consideri un evento che non si possa verificare. Si può quindi osservare che p, vincolato
tra i suoi estremi, che gli estremi superiori di p derivino solamente dalla regola della scommessa,
convenzione che sia vantaggioso pagare p e ricevere uno qualora l’evento si verifichi, frutto di una
convenzione tra chi scommette e chi riceve la scommessa. Tale valore noto come quota=p, è
sempre compreso tra zero e uno a prescindere dalla somma pagata e da quella ricevuta in caso di
vincita (4). P generalmente non dipende dalla ricchezza del soggetto, ed è sempre compreso tra
zero ed uno, e che può essere identificato come una “propensione” alla scommessa.
Si può quindi definire la probabilità di une vento qualsiasi, inteso come evento comune, certo o
impossibile, come una misura del grado di fiducia nel verificarsi dell’evento stesso, questa misura è
espresso da un numero reale, p, che assume valori compresi tra zero ed uno, ed inoltre vale uno
qualora si scommetta su un evento certo e vale zero se si sta scommettendo su un evento
impossibile.
Va distinto il significato della probabilità di un evento con il relativo metodo di calcolo, il significato
è sempre e comunque un grado di fiducia riposto nel verificarsi dell’evento. Tale valore può essere
calcolato in varie maniere differenti, rapporto tra gradi favorevoli e possibili quando ciò non è
possibile, mediante l’osservazione di un evento reale favorevole, sulle osservazioni osservate,
come la quota p che siamo disposti a pagare per una scommessa sul fatto che l’evento si realizzi.
Impostazione assiomatica del calcolo delle probabilità, ignora il metodo di calcolo delle probabilità
ma permette di determinare il valore delle probabilità reali partendo dai relativi valori.
Si è sino ad ora considerato di un evento, qualsiasi, prescindente la sua stessa natura, e si è visto
come si determina la probabilità dell’evento, preso singolarmente, la realtà generalmente non
2
considera un evento ma una famiglia o gruppi dello stesso, si considerano contemporaneamente
più eventi, è necessario assegnare le probabilità a tutti gli elementi della famiglia cercando di
rimanere coerente. Non si può procedere considerando un evento alla volta a cui si assegna un
valore, la situazione quindi si complica. Per affrontare questa problematica, ma anche qualora si
considerino situazioni derivanti da combinazioni di eventi.
Data questa impostazione, generalizzabili, ad una qualsiasi altra situazione avremo che: (5). Dati
tre eventi, e volendoli rappresentare si può fare ricorso al diagramma di Venn. Avremo quindi su un
piano una circostanza data dall’area all’interno del cerchio, qualora E1 sia vero e tutta l’area
esterna qualora si a falso, dato un cerchio interno al piano. Supponendo quindi tre eventi o
famiglia, composta da tre eventi. Dati tre eventi compatibili, cioè si possono verificare
congiuntamente, tale situazione viene generalmente rappresentate tramite due cerchi sovrapposti
tra di loro. Lo stesso processo può essere svolto per il terzo evento.
Se invece di considerare un evento alla volta ma più di un elemento o faglia di eventi si possono
assegnare le probabili ai singoli eventi, dovendo invece assegnare una probabilità ad una singola
modalità di un evento, dovremo disegnare tutti i cerchi sullo stesso piano intersecandoli tra loro in
più punti ove si stanziano le condizioni di equilibrio, è possibile quindi una combinazione lineare
varia e veritiera tra questi eventi, elemento peculiare di ogni sistema che considera più variabili, si
complica il modello considerando la possibilità di assegnare valore ad un dato evento. Dati i tre
venti come incompatibili, non possono cioè essere considerati a coppie, ed è tale per cui questa
famiglia dei eventi costituisce una partizione di omega. Considerando due eventi incompatibili la
loro intersezione da come risultato l’insieme vuoto. Scommettendo contemporaneamente su tutte
le scommesse indichiamo come (6) il prezzo che consideriamo valido pagare per partecipare a
tutte le scommesse considerate.
I casi sino ad ora considerati prevedono che solo uno degli eventi considerati si realizzi, si sta nella
sostanza scommettendo un evento certo nella sua realizzazione, una delle sei facce si realizzerà
sicuramente, per scommettere sull’evento certo è necessario pagare la quota totale, scommessa
effettuata su tutte e sei le facce, si ha che la sommatoria di tutti i prezzi che si è disposti a pagare
per gli eventi considerati, si ha come risultato uno. (7) avrò quindi che (8).
Metodologia di calcolo della probabilità assiomatica, si disinteressa del significato della probabilità
stessa, da semplicemente le regole a cui deve sotto stare la probabilità, espresse nel caso (8), che a
prescindere dal modo con cui si identifica la funzione stessa deve sottostare a delle regole, la
famiglia considerata deve essere chiusa in senso loto e chiusa per quanto riguarda le operazione di
unione e intersezione dei vari casi interni alla famiglia di eventi.
Date le tre regole generali è possibile calcolare le probabilità di eventi combinazioni di eventi
appartenenti alla famiglia:
1. Una prima modalità di calcolo, formalizzazione di quanto già visto, dato un evento E come
impossibile con probabilità pari a zero, considerando quindi anche l’evento certo con
probabilità pari ad uno, osservando le due condizioni, opposte, esse sono tra di loro
incompatibili, data l’intersezione delle due condizioni avremo l’insieme vuoto. Va poi
osservato che essi compongono un possibile partizione dell’insieme totale stesso, difatti
l’unione dei due insieme considerati da come risultato l’insieme. Siamo quindi in
condizione di applicare la terza delle regole considerate, data la probabilità dell’unione tra
omega e l’insieme vuoto, date le condizione prima espresse avremo che tale condizione è
esprimibile come la probabilità di omega unita alla probabilità dell’insieme vuto, tale
somma dovrà dare come risultato la probabilità di omega, data la probabilità dell’insieme
3
vuoto nulla, e annullando le due omega avremo l’uguaglianza tra zero e l’insieme vuoto che
verifica quanto detto.
2. Dato un evento noto come A l’evento contrario, A*, è dato da 1-A*, quanto detto ci porta a
determinare che si tratta di eventi tra di loro compatibili, la cui intersezione determina
l’insieme vuoto, la cui unione corrisponde con l’insieme omega, A e A* sono una partizione
di Omega, considerando quindi l’unione delle probabilità dei due eventi deve essere uguale
alla probabilità di omega, data la condizione di incompatibilità l’unione è data dalla
probabilità dell’evento contrario più la probabilità di A uguagliata ad Omega, dato però un
evento certo si ha che la sua probabilità deve essere pari ad uno, avremo quindi che la
probabilità dell’evento contrario di A è dato da A*=1-A.
3. Dati invece due eventi A e B tali per cui l’evento A è contenuto o coincidente con l’evento B,
cioè A implica l’evento B, se uno è vero è vero anche l’altro, graficamente avremo, dato il
piano di omega un evento B, insieme maggiore che contiene l’insieme dell’evento A che al
massimo è pari a B; risulta quindi che la probabilità dell’evento A è minore o al limite
coincidente con l’evento B. Indicando difatti con B 1 gli eventi di B non inclusi in A, si ha che
questo nuovo evento può essere scritto come l’intersezione tra l’evento contrario ad A, A*,
con B. Dato quindi B1 risulta che data l’unione tra B1 e A tale condizione coincide con B,
l’intersezione tra B1 e A si determina l’insieme vuoto, nella sostanza si hanno eventi tra di
loro incompatibili, avremo infine una probabilità di B data dalla probabilità di B 1 unito con
A, tale probabilità, data la condizione di incompatibilità è data dalla somma delle
probabilità di B1 con la probabilità di A. Si ha quindi che B ha una probabilità maggiore a
quella di A, salvo il caso che B1 sia un insieme vuoto, cioè qualora A e B coincidano.
Data una famiglia di eventi, e di essa si considerino due eventi compatibili, si viola la terza ipotesi
considerata, come da esempio 3. A e B possono quindi verificarsi contemporaneamente, in tal caso
la probabilità di A unità con la probabilità di B sarà data, in caso di eventi incompatibili sarebbe la
probabilità di A unita alla probabilità di B, la probabilità quindi in questo caso va modificata,
considerando graficamente il piano di omega, con disegnati i piani di A e B, insiemi sovrapposti,
avremo una probabilità di unione che misura tutta l’area dei due insiemi, considerando una sola
volta l’area intersecata. Considerando come B1 gli eventi di B non inclusi in A, avremo che
1. L’evento B può essere definito come al caso 3, cioè B1 unito con l’intersezione di A e B,
2. Avremo poi che l’unione di A e B può essere scritto come l’unione tra A e B1,
3. Abbiamo quindi determinato due eventi tra di loro incompatibili, A e B1, difatti la loro
intersezione è un insieme vuoto, allo stesso modo sono incompatibili B1.
4. Avremo quindi anche che B1 intersecato con l’intersezione di A e B anch’essi sono
incompatibili.
La probabilità quindi di A unito con B e A unito con B 1 sono la stessa cosa, avremo però, data
l’incompatibilità tra A e B1 che la loro unione è uguale alla somma della probabilità di ogni singolo
evento. B è anche definibile come la probabilità di B 1 unito con la probabilità di A intersecato B,
sostituendo a quanto detto prima avremo che la probabilità dell’unione tra A e B è data dalla
probabilità di A più la probabilità di B meno l’intersezione della probabilità di A intersecato a B.
Quanto detto valido per la probabilità di due singoli eventi può essere ripetuto per un insieme
suddiviso in n insiemi.
4
Appunti del 21/11/2012
Dato il teorema delle probabilità totali, che indebolisce il terzo assioma del calcolo delle
probabilità, rimane aperta una questione relativa alla probabilità condizionata. Indicando con A e B
due eventi di un ipotetico fenomeno, tali per cui la probabilità dell’evento B è diversa da zero, (1), B
non è quindi impossibile, dato quindi il verificarsi dell’evento B quale è la probabilità dell’evento A.
tralasciando la dimostrazione è possibile definire tale probabilità come calcolabile con il seguente
modo (2) si ha in questo modo la verifica dei tre assiomi precedentemente considerati:
1. Dato un evento qualsiasi la sua probabilità è un numero compreso tra zero e uno. Verificato
data la natura di probabilità del valore determinato.
2. Il secondo assioma vuole che scommettendo sull’evento certo la probabilità è uno, data a
certezza che si verifiche A tale probabilità coincide con omega, e quindi avremo il rapporto
tra l’unione di omega e B su B. allo stesso modo avremo la verifica di un evento impossibile,
che determina una probabilità di zero.
3. Data la successione di eventi tra di loro incompatibili e che costituiscono una partizione di
omega, allora la probabilità che si verifichi uno qualsiasi di questi eventi è uguale alla
somma per i che va da uno a n della probabilità dei singoli eventi, si può quindi verificare
che la definizione data di probabilità condizionata verifica la terza proprietà.
Dato il caso del lancio di un dato considerando i casi elementali abbiamo se possibili risultati
indicabili come (3). Indicando con A e B rispettivamente (3.1) volendo calcolare la probabilità
dell’evento A dato che si è verificato B, data la probabilità di B come nota, è necessario calcolare la
probabilità congiunta di A e B, data dal rapporto tra il tra i casi totali e quelli favorevoli, A e B hanno
quindi un unico evento possibile comune il caso (3.2). determineremo quindi la probabilità cercata
come (3.2).
Ciò che va quindi evidenziato è che la probabilità di A dato B coincide con un valore, 1/3, data però
la probabilità di A, che dato il metodo classico è 1/6, vi è una differenza tra queste due probabilità,
in particolare la probabilità di A dato B, 1/3, nell’esempio considerato, è più grande delle
probabilità di a, 1/6<1/3, le probabilità di A sono minori di quelle di A dato B, quando si osserva
una situazione di questo tipo si dice che gli eventi A e B si attraggono tra di loro. (4) Si ha che
l’evento A è attratto dall’evento B. può accadere anche il caso contrario cioè che la probabilità di A
dato B è minore della probabilità di A, si parla in questo caso di evento A respinto dall’evento B.
Può accadere infine che le due probabilità coincidono, si ha che il verificarsi dell’evento B non
modifica la possibilità del verificarsi di A, si parla in questo caso di indipendenza tra gli eventi A e B.
Data quindi la condizione di indipendenza, terzo caso, la probabilità che si verifichi A e B
congiuntamente è determinabile come la probabilità di A per la probabilità di B, nel caso contrario
avremo che la probabilità del verificarsi di A è dato dal prodotto della probabilità di B per la
probabilità di verificarsi di A dato B.
Dato l’esempio del lancio di due monete regolari, indicando A e B al seguente modo (5), B è testa al
lancio della prima moneta, A è determinato come testa al lancio della seconda moneta, dato
l’obbiettivo di determinare l’influenza di A e B avremo che: si deve determinare omega, insieme
complessivo degli eventi che si possono verificare lanciando le due monete avremo (5.1).
confrontando la probabilità ottenuta con quella dell’evento A dato il fatto che coincidono avremo
una condizione di indipendenza tra i due eventi.
Data una qualsiasi famiglia di eventi E1,E2,…,En dati: (6)
1. Due qualsiasi eventi incompatibili a coppie.
2. Dati la condizione che tali eventi costituiscono una partizione di omega.
5
Dato quanto detto determiniamo i già detti tre assiomi.
È quindi possibile, concretamente, dover considerare una quantità infinita di eventi, famiglia di
eventi infinita ma numerabile, o anche una famiglia di eventi infinita e non numerabile, valgono
quindi ancora i tre assiomi sino ad ora considerati o vanno ampliati?
Cos’è quindi un insieme numerabile? In maniera informale si parla di insieme numerabile qualora si
consideri un insieme che ha la stessa cardinalità dell’insieme dei numeri naturali, che se definito
come A avremo che la CardA=CardN, può essere supposto quindi una corrispondenza biunivoca tra
uno qualsiasi degli elementi di A e uno qualsiasi degli elementi di N. Qualora invece la cardinalità di
A, CardA, coincida con quella dei numeri reali, CardA=CardR, allora diremo che questo insieme non
è numerabile, o ha una cardinalità nel continuo. Va anche considerato poi che la cardinalità dei
naturali e inferiore alla cardinalità dei reali, CardN<CardR, considerando quindi un qualsiasi
sottoinsieme dei reali, intervallo della retta dei reali, allora la cardinalità di questo insieme coincide
con la cardinalità di R, CardB=CardR, qualora BcR.
Vi sono eventi non impossibili, che possono quindi verificarsi, ma hanno probabilità nulla, un
evento impossibile ha probabilità nulla, un evento con probabilità nulla non è necessariamente
impossibile. Va anche considerato che se si considerano tanti insiemi numerabili, A1, A2, A3,…,An,
ove n può essere anche infinito, la loro unione è ancora un insieme numerabile, la cardinalità
dell’unione di infiniti insieme coincide ancora con l’insieme dei naturali. (9). Data quindi la
cardinalità di un insieme non vi si può muovere tra la cardinalità degli stessi.
Quanto detto nella condizioni 10 comporta che considerando famiglie di eventi con cardinalità nei
naturali o nei reali non è possibile dare ad ognuno di questi eventi probabilità positiva compresa
tra zero e uno, volendo quindi rispettare le tre regole della probabilità è necessario dare
probabilità zero a qualche evento. Non si riesce quindi indicando con omega la famiglia che
raccoglie tutti gli eventi, data la cardinalità nei naturali o nei reali, infinito numerabile o infinito non
numerabile, non vi è necessariamente una corrispondenza biunivoca tra gli elementi di questo
insieme e l’intervallo zero uno, nonostante lo stesso abbia una cardinalità appartenente ad R
l’intervallo non è sufficiente per la corrispondenza.
Considerando quindi la seguente situazione: dato omega e considerando fra tutti gli eventi inclusi
nella famiglia, a quanti di questi eventi si può assegnare una probabilità superiore di un x valore,
nell’esempio di un mezzo. All’interno dell’insieme avremo quindi un solo evento cui potremo dare
una probabilità maggiore di un mezzo e minore di uno, massimo del grado di fiducia. Volendo
ripetere la considerazione avremo, a quanti eventi potremo attribuire una probabilità che è più
grande di un terzo ma più piccola o coincidente ad un mezzo, in tal caso gli eventi che possano
avere tale probabilità è pari ad 2.(11)
Si ha una generalizzazione del caso che comporta la definizione di un numero massimo di n eventi,
appartenenti alla famiglia omega ai quali possiamo dare probabilità compresa tra uno fratto ad n+1
e al massimo pari ad uno su n, senza violare i tre assiomi del calcolo delle probabilità.
Considerando quindi l’insieme An data come l’insieme che contiene tutti gli eventi di Omega tali
per cui la probabilità di questi eventi è compresa tra i vincoli prima definiti. Data quindi la
cardinalità di An che corrisponde ai naturali, dato quindi l’insieme B che indica l’evento unione per
n che va da 1 all’infinito tale insieme avrà una cardinalità nei naturali (B). La possibilità di dare una
probabilità positiva a dei numeri interni a questo insieme è data da un numero infinito ma
numerabile di elementi, alcuni eventi potrebbero essere esclusi e avere probabilità nulla, tali
eventi nella realtà generalmente sono più della maggioranza degli eventi considerati.
6
Appunti del 22/11/2012
Data una famiglia di eventi, indicabile con omega, è quindi possibile definire famiglie di tre tipi:
finiti, omega corrisponde ad un numero finito di eventi, numerabili, o infinitamente numerabili, nel
secondo caso la cardinalità di omega corrisponde con N, nel secondo caso la cardinalità di omega
corrisponde con R. Si è sino ad ora detto che se omega è composto da N eventi sappiamo definire
una legge di probabilità, si è poi considerato l’opzione di omega numerabile o infinitamente
numerabile, si ha quindi che in questi casi non si riesce a dare probabilità positive ad ognuno degli
eventi contenuti in omega, in particolare nella terza situazione, questo poiché il segmento che
esprime la probabilità non è sufficiente a contenere tutti i numeri rilevabili dai vari eventi
contenuti in omega, alcuni eventi restano esclusi, senza probabilità positiva e con uan probabilità
pari a zero, si ha quindi che se un evento impossibile ha probabilità zero tale proprietà non si
presenta come biunivoca i Particolare nel caso in cui omega abbia una cardinalità pari ad R.
In questo caso si parte dal caso in cui si attribuisce ad ogni evento contenuto in omega,
infinitamente numerabile, ha cardinalità che corrisponde ad R, si attribuisce ad ogni elemento di
Omega probabilità zero, cercando di far coincidere omega con l’insieme dei reali abbiamo che ogni
evento di omega è dato da un numero di x, tale che il totale dei numeri di omega corrisponde a
quello dei reale. Ritornando al grado di probabilità pari a zero avremo che esiste una funzione nota
come F tale per cui se considero un sottoinsieme di R, segmento di estremi A e B ove ab sono più o
infinito volendo, esiste un funzione reale definiti a su omega tale per cui considerando un
segmento la probabilità del segmento è data come integrale per x che va da a a b di fx in dxc, nota
anche come probabilità dell’evento E.
Analisi delle variabili casuali.
Considerando quindi un insieme omega che contiene tutti gli eventi di un certo evento, tale
insieme è finito e composto da eventi elementari, o infinitamente numerabile o infinitamente non
numerabile, omega prende anche il nome di spaso degli elementi elementare. Definiamo poi una
variabile casuale una funzione che associa ad ogni elemento di Omega un numero reale, tale
funzione è indicabile con Y e vi associa un numero reale. Nota la funzione il passaggio da omega a
R, insieme dei valori traslati di omega è semplice.
Supponendo la seguente condizione: (1) vengono quindi estratti dall’urna tre fogli senza
remissione, il primo foglio estrazione si rimette nell’urna dopo l’estrazione, dato invece il
reinserimento dell’urna in maniera da non modificare l’urna con l’estrazione successiva, si ha che
esse vengano con re immissione. Estraendo, in un periodo successivo, anche tra i fogli. Volendo
calcolare la variabile casuale somma degli foglietti estratti, dato il calcolo delle probabilità con le
quali avvengono queste trasformazioni è necessario sin da subito la probabilità che si verifichi uno
qualsiasi degli elementi considerate.
Supponendo la presenza di fogliette numerati in differenti proporzioni (2) date due estrazioni
consecutive rimettendo nell’urna il primo foglietto estratto, effettuando un’estrazione in un’urna
inalterata tra prima e seconda estrazione, si parla si estrazioni con reimissione, si considera sempre
la stessa variabile da costruire avremo quindi.
Lancio di due monete si vincono tre centesimi ogni testa che esce se ne perdono otto se non esce
neanche una testa, si costruisca la variabile casuale, X, tale che esprima il guadagno. (3) si tratta di
eventi incompatibili e indipendenti.
7
Appunti Statistica
Decima settimana
1
Appunti del 27/11/2012
Variabili casuali teoriche, va sottolineato che una variabile casuale può essere discreta o continua a
seconda se la famiglia degli eventi dalla quale deriva, noto come spezio degli eventi, se è finito o
infinito ma numerabile, cioè se omega è finito, ha un numero finito di eventi, oppure infinito ma
numerabile allora la variabile casuale che ne deriva, anche in funzione della trasformazione in
numeri, essa sarà una variabile casuale discrete, finita o infinita numerabile; dato invece omega
infinito e non numerabile, cardinalità coincide con R, allora la variabile casuale che ne deriva sarà
una variabile casuale continua.
Variabile casuale di Bernoulli, o Bernoulliana, variabile casuale più semplice, dato Omega, a
prescindere dalla sua natura, si suddivide lo spazio degli eventi in due sottoinsiemi S e S*, evento
complementare di S. Dato questo i due eventi delineati costituiscono una partizione di Omega, la
loro intersezione coincide con l’insieme vuoto, i due eventi non si sovrappongono, una volta uniti
ridanno quindi Omega, tali eventi sono associati al successo e all’insuccesso di un dato elemento.
Dato quindi 0<|P<1, detto come grado di fiducia attribuito all’evento successo, e con 1-|P si ha il
grado di fiducia per l’evento contrario a S, S*. E’ possibile definire poi una funzione tale che f(S)=1
e f(S*)=0. La variabile casuale quindi, nota come x, assumerà due valori, valore uno o zero, la
probabilità di ottenere un valore uno è la stessa dell’evento S, cioè |P, la probabilità di ottenere un
valore pari a zero nel caso di veridicità di S*, caso contrario di S, dato da 1-|P. Tale modello teorico
è noto come variabile Bernoulliana. Dato quindi il valore che va assegno a |P, compreso tra zero e
uno, di questa variabile si conoscono tutti gli elementi.
Variabile uniforme discreta, definizione necessaria per distinguerla dalla variabile uniforme
continua, data una famiglia di eventi, insieme omega, si considerano fenomeni costituiti da un
numero finito di eventi, prima non erano fatte specificazioni su omega, ora ciò è importante e si
deve essere nella condizione in cui omega ha un numero finito di eventi, si parte dalla
presupposizione che ogni evento di omega ha la stessa probabilità di verificarsi degli altri, tale
probabilità è data da 1/n. indicando come E(x) il generico evento contenuto in omega la relativa
probabilità è 1/n; considerando la funzione che trasforma il generico evento, E(x), pari ad x, per x
che assume valori da 1 a n; tale trasformazione prende ogni evento di E(x) e vi associa un numero
naturale. Tale funzione prende il nome di variabile casuale uniforme discreta. Il valore che
caratterizza tale variabile è N e permette di determinare tutti i valori significativi di tale variabile
uniforme discreta. Che può essere sinteticamente anche indicata, come per la variabile di Bernaulli
come p(x)=1/n x=1;…;n.
Variabile casuale geometrica, variabile casuale, che a differenza delle precedenti, assume una
quantità infinita numerabile di valori, la cardinalità della variabile casuale coincide con quella dei
naturali, CardVg=CardN, si ha quindi uno spazio di eventi elementari, Omega, suddiviso in due
eventi, S e S*, eventi complementari, che esprimono successo e insuccesso, la probabilità del due
eventi è P(S)=|P, P(S*)=-|P, tali eventi sono una partizione di Omega, e sono eventi incompatibili. Si
indica con X il numero di volte che devo effettuare, numero di prove, l’esperimento per ottenere
l’evento successo per la prima volta, definibile come il numero di prove per osservare l’evento
successo per la prima volta, quantità tendenzialmente infinita ma numerabile di eventi osservati.
Analizzando il terzo assioma è possibile considerare che dati due valori il loro rapporto è costante,
siamo di fronte ad una progressione geometrica, è possibile quindi calcolare la somma dei primi n
definiti valori di una progressione geometrica, la somma all’infinito viene data dalla somma dei
primi n elementi proiettati all’infinito.
2
Appunti del 28/11/2012
Introduzione matematica: Disposizione di una serie, omega, di oggetti, tale per cui le differenze tra
le disposizioni degli oggetti differiscono luna dall’altra solamente per l’ordine degli oggetti, tale
quantità è nota come N!, n fattoriale, dato da n*(n-1)*(n-2)*…*1, supponendo quindi che alcuni
degli oggetti considerati siano uguali tra di loro ci ritroveremo nella condizione in cui il numero
totale delle disposizioni possibili non saranno dati da N!, poiché alcune combinazioni
risulterebbero uguali tra di loro avremo un numero complessivo di combinazioni dato da: (1).
Variabile Casuale Binomiale: data una famiglia di eventi, racchiusi in omega, tale omega è diviso in
due sottoinsiemi, S e S*, avremo poi che P(S)=|P, P(S*)=1-|P, 0<|P<1. Dato un numero di n prove, e
un valore x la cui probabilità indica il numero dei successi ottenuti in funzione delle prove3
effettuate avremo che la probabilità di x, P(x), indica i successi ottenuti.
Dato l’esempio di un’estrazione, abbiamo una probabilità che esca B pari a |P%, e una probabilità
di N dato da (1-|P)%, dato S come le evento B e S* come evento N, avremo una probabilità di S
pari a |P e una probabilità di S* pari ad 1-|P, data una estrazione continua per N volte, in cui N=4, e
dato il fatto che un’estrazione non influenza le successive, estrazioni indipendenti una dall’altra,
caso di estrazioni con reimmissione, avremo una x che corrisponde al caso delle B determinate su 4
estrazioni.
Variabile Casuale di Poisson, variabile casuale discreta con cardinalità che corrisponde alla
cardinalità di N, date le stesse condizioni di partenza della binomiale, considerando un numero di
prove che cresca, anche sino all’infinito, n che tende all’infinito, data la probabilità del successo
che tende a zero, probabilità d successo infinitalmente piccolo, posta una costante uguale a TY=n*|
P, tale valore TY è costtante, si ha quindi in tale condizione il modello binomiale tende alla variabile
di Poisson, P(x)=(TYx/x!)*eTY, il numero d successi in questi casi può tendere all’infinito, per x=1,2,3,
…. E(TY)=V(TY)=TY (riscrivere quanto osservato sul quaderno).
3
Appunti del 29/11/2012
Modelli continui, variabili casuali continue, considerando il concetto di funzione, dato omega,
datota di cardinalità nei reali, infinito e non numerabile, vi era il problema che non si potesse
assegnare ad ogni evento, ei, contenuto in omega, una probabilità positiva, poiché l’asse dei reali
non riusciva a sopperire a tale compito, per risolvere il problema si assegna ad ei un valore nullo,
salvo poi definire una funzione f(x) positiva e con un integrale pari ad uno, volendo poi
determinare la possibilità di osservare un certo evento di omega, generalmente si considerano
intervalli di valori, allora la probabilità dell’intervallo era l’integrale di f(x) in dx compreso tra gli
estremi dell’intervallo.
(1) Analizzando tale funzione, con lo scopo di legarla al concetto di probabilità è necessario,
considerando una situazione data da un’infinità non numerabile di eventi, omega, che tramite una
trasformazione diventano numeri reali, nella più generale delle ipotesi, si considera l’intera reta dei
reali, vi sono situazioni ove si considera un sotto intervallo, condizione non considerata, dato un
punto a si ha che la probabilità che la variabile casuale sia uguale ad a è pari a zero, P(x=a)=0, è
necessario poi determinare la probabilità in cui la variabili casuale dia valori compresi tra a+d/2 e
a-d/2,
P(a-d/2<x<a+d/2)=I(f(x)), data la condizione di uguaglianza tra la classe e d, avremo
che la primitiva dell’intervallo meno la primitiva della funzione nell’estremo inferiore
dell’intervallo. Dato il limite di tale funzione che tende a zero avremo (2). Nota come de3nsità di
probabilità, abbiamo una relazione biunivoca tra la densità di un intervallo piccolissimo a piacere le
la f(x) generica, che tende a zero, a parità quindi di ampiezza tanto più amplia è la probabilità
dell’intervallo tanto più alta è la probabilità calcolata nel punto stesso.
Variabili teoriche casuali di tipo continuo, infinitamente non numerabili, le prime variabili
considerate saranno le stesse del modello discreto.
Variabile uniforme continua. (3) tutti i valori hanno lo stesso grado di fiducia, caso continuo della
variabile uniforme discreta.
Variabile casuale esponenziale negativa, analoga continua della variabile causale geometrica, curva
teorica di tipo continuo, (4) famiglie di curve che modellano generalmente fenomeni osservati nel
tempo, ove il tempo è dato dalla x, generalmente indica il tempo di attesa necessario prima del
fallimento del fenomeno stesso. Per la normalizzazione si calcola il valore sino ad un parametro
qualsiasi, salvo poi far tendere la funzione si definita all’infinito.
Variabile casuale normale, variabile casuale a cui si farà costantemente riferimento, (5), si
considererà un fenomeno, distribuito secondo un variabile normale qualora. Tale curva ha un
andamento a campana, gaussiana, ed è caratterizzata da due caratteri la media e la varianza della
curva, dati questi si conosce tutto della curva, poiché le parti restanti sono delle costanti, |P, in
questo caso è quanto noto per le formule del cerchio, |P=3,14 ; e=2,718. Tale curva ha nel valore
centrale della densità la media, tale curva è simmetrica rispetto al valore centrale, la media
coincide con la moda e coincide anche con la mediana. La simmetria rispetto al valore centrale è di
immediata verifica, dato un incremento a sinistra e destra, la curva assume lo stesso valore, dato lo
stesso incremento. (6). L’andamento a campana, prima crescente da meno infinito sino alla media
e poi decrescente, dalla media sino alla moda, si determinerà poi la spiegazione del perché E(x) è il
punto di massimo. La derivata risulta quindi facilmente calcolabile, e escludendo situazioni banali,
tale funzione di densità è positiva, e il segno della derivata prima dipende dal resto, la frazione, e
data la varianza al denominatore, sempre positiva, salvo variabile degenere con varianza pari a
zero, caso escluso, dalla x che si estende su tutto l’asse dei reali, il segno della deriva dipende
quindi dalla differenza tra x e la sua media, data la condizione di estensione di x tra più e meno
4
infinito avremo che, data una x inferiore alla media, tale numero sarà negativo, differenza negativa,
avremo una derivata prima negativa, qualora la differenza sia uguale a zero avremo la derivata
prima pari a zero, qualora la differenza sia positiva avremo una derivata prima positiva.
Considerando una variabile X, tale che ha una media E(X) e una varianza V(X), proponiamoci di
calcolare la media e la varianza di questa nuova variabile z legata alla precedente dalla seguente
relazione Z=(X-E(X))/V(X), E(Z)=?, V(Z)=?, E(Z)=0, V(Z)=1. Z è una variabile standardizzata,
adimensionale, priva di media e variabilità.
5
Appunti statistica
Undicesima settimana
1
Appunti del 04/12/2012
Dato il caso (1) è possibile dimostrare come, prescindendo da z si può dimostrare che qualora la
trasformazione sia di tipo lineare z manterrà la stessa distribuzione di x. Osservando il caso della
traslazione di una funzione normale la zeta resterà una gaussiana centrata nel punto zero, media
zero e varianza uno.
Dato il caso pratico (2), è necessario osservare come tale funzione può essere risolta trasformando
la variabile x in variabile zeta come al caso (1), calcolando quindi il relativo integrale secondo z.
L’integrale definito in z è già calcolato e riscontrabile in una particolare tavola delle normali
standardizzate, dati gli appositi estremi (3).
La tavole delle normali standardizzate riporta la funzione di ripartizione della variabile z, normale
standardizzata, e calcola la probabilità di osservare valori che vanno da meno infinito sino ad un
valore considerato, tali valori sono crescenti partendo da zero, questo poiché la funzione
standardizzata si ha simmetria rispetto al valore centrale, dato tale valore come z, la tavola inizia il
processo di calcolo per valori più grandi e al massimo pari a zero, la prima metà, data curva
simmetrica, avrà valore pari alla metà, valore di zero, avremo poi valori successivamente crescenti;
la simmetria rispetto al valore centrale permette di assumere che, data la tabella è possibile
definire l’area minore di un numero negativo, coincide con la stessa probabilità osservata per z più
grande o pari al corrispettivo positivo, tale valore è dato da uno meno il valore letto nelle tavole.
[email protected] [email protected]
Inferenza statistica data la necessità di studiare le caratteristiche di un x fenomeno, con il
presupposto che non si può procedere, come sinora fatto, nell’ambito descrittivo, con popolazione
di riferimento e relative misure, raccolta di dati, riorganizzazione ecc., ciò può accadere per vari
motivi, costo del processo, presenza di situazioni in cui le unità sfuggono alla rilevazione, variabile
di interesse data da soggetti interessati ad evitare la misurazione, situazione in cui la rilevazione
totale è impossibile, situazione ove la rilevazione totale può essere distruttiva. Data una rilevazione
totale impossibile quindi si cerca di tentar di risalire alle caratteristica fondamentali del fenomeno,
non potendolo misurare, cercando di rilevare la variabile su un sottoinsieme della popolazione, e
dalle caratteristiche del sottoinsieme a quelle della popolazione, data una particolare selezione
tale sottoinsieme prende il nome di campione casuale, è possibile difatti dimostrare come se il
campione viene scelto sotto certe condizioni risulta come rappresentativo della popolazione,
possiede quindi caratteristiche molto vicine e quelle della popolazione stessa, analizzandolo
possiamo risalire, in maniera probabilistica a quelle della popolazione.
Il campione casuale deve: possedere unità, partecipanti al campione, scelte, selezionate, in modo
casuale, a caso, dando ad ogni unità della popolazione la stessa probabilità di far parte del
campione, aumentando la numerosità del campione si aumenta la rappresentatività della
popolazione, è possibile dimostrare come tale campione risulti rappresentativo, con caratteri simili
a quelli della popolazione di riferimento, si può quindi analizzare un campione per carpire i
caratteri della popolazione.
Dato un fenomeno (4), estraendo un campione casuale, con riferimento fatto alla media della
distribuzione, indice più indicativo, un’estrazione casuale di un campione della popolazione i
caratteri dello stesso si avvicinano a quelli della popolazione. dato un campione di ampiezza pari a
2, indicando con x1 gli esiti del primo campionamento e con x2 gli esiti del secondo
campionamento, avremo quindi un x1i (5); data la stessa popolazione avremo gli stessi risultati se
considerassimo la seconda estrazione. Gli esiti si ottenuti sono variabili casuali indipendenti, il
primo non influenza il secondo, tale le estrazioni con ripetizione, si può poi notare come la
2
distribuzione di probabilità degli esiti sono equivalenti e coincidono con quella della variabile della
popolazione di riferimento. Gli esiti campionari sono indipendenti e identicamente distribuiti, con
la stessa distribuzione della variabile nella popolazione di riferimento, la stessa cosa accadrebbe
aumentando il numero delle estrazioni.
Iniziando l’analisi del campione si inizia dalla media campionaria, principio di analogia, necessario
per risalire alla media originaria della popolazione, tramite quindi la media campionaria, simulata
quindi una qualsiasi estrazione avremo una serie di valori si definibili: X*, media campionaria, a
differenza della media normale, presenta valori differenti e non definibili poiché dipendenti dai
valori ottenuti dall’estrazione, tale valore varia e dipende dal variare del campione, estrazioni
effettivamente effettuate.
A priori, fase di simulazione, la media campionaria è una variabile casuale, tra i valori che può
assumere la media campionaria vi è quello coincidente con la media della popolazione, la
probabilità associata a questo valore è generalmente più alto degli altri, la probabilità quindi che la
media campionaria assuma un valore maggiore rispetto alla probabilità che assuma un valore
diverso dalla media reale. Se quindi si allarga il campo di analisi si ha che i valori che dal valore
stesso si discostano di poche unità, sommando tali probabilità la somma si avvicina molto all’unità,
la probabilità di osservare una media campionaria coincidente con il parametro incognito o con
valori prossima allo stesso parametro ha una probabilità elevatissima.
3
Appunti del 05/12/2012
(1) Di cui due rappresenta il numero delle estrazioni effettuate all’interno della popolazione stessa.
Considerando quindi un aumento della dimensione del campione avremo dei possibili valori
definibili come (2), i valori più alti sono quelli prossimi al parametro con probabilità maggiore, e
alla media che rimane costante e centrata sul parametro oggetto di osservazione. Procedendo in
questo modo è possibile generalizzare il discorso effettuato dicendo che data una popolazione di
riferimento e l’estrazione casuale di un campione di ampiezza pari ad n i caratteri della media
campionaria saranno: una media corrispondente alla media degli esiti ottenuti diviso n, dato il
denominatore come costante avremo uno su n che moltiplica la media di tutti gli esiti. (3)
(4) la media dell’i esimo esito campionario tale valore assumerà un valore pari alla probabilità di
variabilità indipendenti e con la stessa distribuzione della variabile nella popolazione di
riferimento. Quanto detto fa si che la media dell’i esimo esito campionario altri non è che la media
della variabile osservata nella popolazione di rifermento.
(5) svolgendo lo stesso procedimento con la varianza del campione pari ad n, sarà la varianza della
sommatoria degli esiti campionari fratto n. Va quindi considerato che qualora si consideri la
variabile di una sommatoria per una costante si che il valore di n va elevato al quadrato prima di
essere portato danti l’indice di varianza. Quanto ottenuto dallo sviluppo è simile a quanto
osservato per la media, analizzando quindi la varianza dell’i esimo esito campionario, data una
distribuzione del campionamento uguale alla distribuzione delle variabile originale avremo che la
varianza del dato campionario è uguale alla varianza del normale insieme di riferimento.
Si ha quindi che generalmente all’aumentare del campione la dispersione della media campionaria
diminuisce, al limite tale valore tende a concentrarsi su un unico valore, che altri non è che la
media della popolazione, parametro oggetto di stima.
Volendo quindi analizzare al distribuzioni di probabilità di un campione pari ad n avremo che data
una variabile di partenza, X, distribuita in modo normale, si ha una media campionaria distribuita
in maniera normale con la media che corrisponde a quella di x e una varianza pari alla varianza di X
fratto n.
Considerando invece un campione estratto da una popolazione non distribuita in modo normale,
avremo una media campionaria, che varrà, secondo il teorema del valore centrale, dato un
campione estremamente grande avremo una media campionaria divisa in modo normale, tale
risultato è vero solamente con un campione sufficientemente numeroso, teorema del limite
centrale, definibile come:
Teorema del limite centrale
“Supponendo un numero n di variabili casuali, indipendenti tra di loro e che hanno tutte la stessa
distribuzione, si indichi poi con y1 la prima va, y2 la seconda,…, yn la ennesima variabile casuale,
solamente dato variabili dello stesso tipo, stessa media e stessa varianza, indipendenti e
identicamente distribuite, data Sn come la somma delle variabili casuali, avremo una media pari ad
n volte la media della i esima variabile, analizzando la varianza di tale somma avremo che essa altri
non è che n volte la varianza della i esima variabile casuale. Il teorema del limite centrale dimostra
come al cresce delle variabili casuali, limite per n che tende all’infinito di Sn, si dimostra che il limite
di questa somma è distribuito in modo normale con una media pari a n volte la media di x e una
varianza pari a n volte la varianza di x.”
Tra le possibili dimostrazioni abbiamo che se la media campionaria è estratta da una popolazione
non distribuita in modo normale ha una distribuzione normale.
4
Data una Yi=Xi/N, avremo allora una somma della variabili casuali che altri non è che la somma per
i che va da uno a enne di xi/N, che altresì non è che la media campionaria, data la media della
media campionaria pari alla media di x e una varianza pari alla varianza di x fratto N. avremo quindi
che al crescere della dimensione del campione il limite per N che tende all’infinito di S n, tenderà ad
una normale con parametri di media e varianza tipica della normalizzata.
Dato quindi un campione sufficientemente grande di una variabile distribuita in maniera non
normale, abbiamo comunque una variabile distribuita in maniera normale, i valori che
determinano ciò sono, secondo la letteratura 30, in generale un’estrazione di 100 assicura la
veridicità dell’affermazione effettuata.
La media si considerata ha un particolare densità di probabilità stabilità distribuita in maniera
normale e centrata sulla media, con una varianza pari alla varianza del campione sul numero del
campionamento. Quanto detto ci porta a definire che(7), supponendo quindi una variabile
distribuita in maniera normale, ipotese più semplice, dotata di una media sconosciuta, ma di una
varianza pari ad 400, estraendo da questo fenomeno, popolazione, un campione di 100 unità,
estrazione casuale, volendo definire la probabilità che la media campionaria di questo campione
sia diverso dalla media della popolazione al massimo di quattro unità, tale valore si calcola tramite
la corrispondenza biunivoca tra una variabile normale, distribuita normalmente ed una sua
standardizzata, distribuita anch’essa normalmente si ha il caso come da esempio, (vedi appunti).
Nella realtà invece di accontentarsi di un unico valore, si può tentare di determinare un intervallo
di valori che contiene la media della popolazione con un certo intervallo di probabilità, condizione
contraria quanto appena visto. Si può quindi individuare un intervallo, che dipende dalla media
campionaria, tale per cui la probabilità che la media della popolazione sia contenuta in questo
intervallo e corrisponda ad un valore a priori di probabilità.
Per fare quanto detto è necessario, partendo dalla normale standardizzata, f(z), fissato il livello di
probabilità a priori, dato questo livello è possibile trovare due valori tali per cui z assuma uno di
questi due valori, dato il valore positivo, è sufficiente un processo di inversione per trovare quello
positivo, per fare ciò si legge la tavola al contrario. Avremo quindi un’area necessaria ad arrivare ad
uno corrispondente a quella delle code, praticamente la metà dell’area necessaria ad arrivare da
alfa a uno.
5
Appunti del 06/12/2012
Vi èp poi il caso in cui si individui un intervallo di valori che individui il parametro che contenga il
parametro di riferimento pari ad uno meno alfa.
generalizzando il discorso fatto su questo particolare paragrafo avremo che considerando un
particolare fenomeno governato da una curva teorica, qualsiasi, Bernoulliana, ecc. ecc., dato un
campione estratto casualmente del gruppo si vuole determinar e il parametro che caratterizza la
curva stessa, dato il fatto che non si conosce il valore di riferimento per il parametro fondamentale
della funzione. Per far ciò si indichi con Tn, una combinazione qualsiasi degli esiti campionari, tale
combinazione, che dipende dalla funzione che legata tra di loro gli esiti, prende il nome di
stimatore del parametro, dato il fatto che i valori in Tn sono valori casuali, combinazione di esiti
casuali, a sua volta lo stimatore sarà una variabile casuale che dipende essenzialmente dal numero
degli esiti campionari, variabile casuale ad n dimensioni. Considerando un esempio dato da:
Tn=X*=y(x1,…,x2)=(1/n)S1-nxi. Dato il primo numero estratta come xx1 come esito della prima
estrazione e xxn esito della n esima estrazione è possibile determinare un particolare valore dello
stimatore indicabile come tn=y(xx1,xx2,…,xxn)
Quali caratteristiche devono quindi possedere gli stimatori?
La prima caratteristica da considerare è quella della correttezza, nota come prima caratteristica o
prima proprietà, uno stimatore si dice quindi corretto se in media coincide con il parametro da
stimare, dato quindi il parametro come (teta), variabile dipendente dalla variabile casuale da
tenere in considerazione, E(In)=(teta).
L’uso di stimatori corretti generalmente permette, dato B=E(Tn)-(teta), B prende il nome di
distorsione, Bias, valore atteso dello stimatore meno parametro da stimare, indicando ES=I n-(teta),
differenza tra stimatore del parametro e dal valore di stima, partendo dalla distorsione di può
determinare il parametro (teta) come differenza tra il valore atteso dello stimatore e la sua
distorsione (teta)=E(Tn)-B sostituendo nella seconda equazione determinata avremo che ES=In-E(In)
+B. quando quindi l’errore di stima è nullo? Stimatore uguale al parametro da stimare? Si può
dimostrare immediatamente che si ha uno stimatore nullo con distorsione zero e quando valore
atteso meno valore reale sono pari a zero.
Dato un campione di ampiezza pari a due e i relativi valori di media campionaria avremo (1).
Dato uno stimatore distorto è possibile applicarvi delle modifiche in maniera da renderlo corretto,
una seconda possibilità prevede l’analisi del comportamento asintotico, comportamento della
distorsione al crescere della dimensione del campione.
Valutazione del comportamento della distorsione all’aumentare della base campionaria
determinando quindi un errore di stima insignificante o al massimo nullo, dato il limite che tende a
zero dello stimatore si può dire di avere uno stimatore asintoticamente corretto per stimare
campioni di grandi dimensioni, determiniamo quindi un errore di stima minimo.
Un'altra proprietà che può essere richiesta agli stimatori è quella della consistenza o convergenza
in probabilità si vuole quindi che l’errore di stima dello stimatore tenda a zero al crescere di n,
ES=In-(eta) deve tendere a 0 qualora n, numero delle estrazioni, tenda ad infinito. Formalmente la
consistenza o convergenza della probabilità si esplica come: uno stimatore si dice consistente o
convergente in probabilità se fissata una costante (alfa), piccolissima in maniera indeterminata e a
piacere, al crescere della dimensione campionaria è pari a uno, la probabilità che l’errore di stima
sia più piccolo di (alfa). L’errore di stima si annulla quindi al crescere delle dimensioni del
campione, sino ad un massimo dato dall’annullamento.
6
Data una variabile x la probabilità che lo scarto assoluto dalla media sia maggiore di (alfa), tale
proprietà non supera la varianza fratto (alfa)2, vale anche la condizione opposta.
Quanto detto permette, qualora generalizzato di dimostrare se uno stimatore converge in
probabilità, tale valore è valido se si considera oltre la media un’altra costante. Quanto detto resta
valido qualora al posto della media si consideri una qualsiasi altra costante, sia come riferimento
degli scarti che degli scarti quadrati, varianza. Sostituendo ad x il valore teorico e a b il valore da
stimare, e verificare per n che tende all’infinito, se tale probabilità tenda ad uno, per far ciò
dovremo avere una varianza che tenda a zero.
7
Appunti Statistica
Dodicesima settimana
1
Appunti del 11/12/2012
Per dimostrare quindi che la condizione di consistenza si verifichi è sufficiente dimostrare che lo
stimatore noto come errore quadratico medio tendi a zero qualora n tendi all’infinito. È quindi
possibile dimostrare come l’errore quadratico medio sia dato dalla somma di due quantità, cioè la
varianza dello stimatore più l’indice di distorsione al quadrato. È sufficiente quindi dimostrare che i
due limiti considerati, la varianza e la distorsione siano pari a zero, dato il limite per n che tende
all’infinito. Avremo quindi la seguente dimostrazione (1). Considerando quindi solamente il doppio
prodotto delle due variabili rielaborate avremo difatti un valore nullo come da dimostrazione (2).
Ulteriore proprietà degli stimatori cioè quella della efficienza, terza proprietà, si tratta di efficienza
relativa, poiché va distinta da quella assoluta, argomento non affrontato. Dato quindi il parametro
oggetto di stima (O\), dati quindi due stimatori del parametro Tn1 e Tn2, a parità di altri condizioni
utilizzeremo come stimatore di O\ quello che ha un errore quadratico medio più piccolo. (3)
Esempio pratico (4), dato un campione estratti di ampiezza pari ad n.
Quali sono quindi i metodi di stima, tecniche che consentono di determinare o dedurre gli
stimatori dei parametri.
Primo stimatori dei parametri o metodo dei momenti metodo più semplice ed immediato, noto
anche come metodo di stima per analogia, o anche metodo di stima per corrispondenza, data la
proprietà degli stimatori che verifica come i momenti campionari siano stimatori corretti dei
corrispettivi momenti della popolazione, l’errore di stima è minimo rispetto a quello degli altri
stimatori, tra gli altri esempi si è dimostrato come i momenti campionari siano stimatori corretti
dei corrispondenti momenti della popolazione, partendo da questo principio, è possibile ricavare il
metodo de momenti, volendo stimare il momento r esimo della popolazione si può per analogia o
corrispondenza considerare il corrispondente momento campionario. (5) L’unico problema di
questo metodo di stima è che stimando un momento centrato non sempre il metodo dei momenti
fornisce stimatori corretti. (6) Come si è già visto però la varianza campionaria è uno stimatore
distorto della varianza reale.
Volendo però stimare il parametro che caratterizza un modello teorico, considerando i modelli
teorici si era difatti detto che gli stessi sono caratterizzati da alcuni parametri, noti i quali si conosce
praticamente ogni elemento del sistema. (7) Variabile uniforme continua. Si ha che per le curve
teoriche i parametri caratterizzati sono legati ai momenti della curva stessa.
Primo stimatore dei parametri o metodo di massima verosimiglianza iniziando con un esempio
avremo, date due urne composte relativamente da Rosso o Nero, ipotesi semplificativa, nella
prima vi sono novanta palline rosse e dieci palline nere, nella seconda urna vi sono cinquanta
palline rosse e altrettante nere. Estraendo una pallina a caso questa è risultata Rossa, tale pallina
da quale delle due urne è stata estratta? Considerando tutti gli strumenti sino ad ora visti si può
procedere per tale attribuzione tramite il calcolo delle probabilità, si verifica se è più probabile che
tale risultato provenga dall’urna uno o due, confrontando quindi le probabilità si può determinare
da quale valore proviene l’estrazione effettuata. Così procedendo è possibile effettuare una stima
di massima verosimiglianza della provenienza dell’elemento Rosso; poiché è più verosimile che tale
estrazione provenga dalla prima urna tale estrazione si considera come proveniente da tale urna.
Tale processo può poi essere applicato anche ad una serie infinita di alternative: dato il modello
teorico (8) caratterizzato dal parametro O\. data l’analisi di un modello discreto e la semplificazione
che O\ possa assumere due valori noti: O\1 e O\2, dato un campione si vuole stabilire se il
parametro che caratterizza la curva stessa è il primo o il secondo.
2
Appunti del 12/12/2012
Elemento non affrontato a lezione ma considerato a esercitazione, t di Student, intervallo di
confidenza ove invece di utilizzare la normale standardizzata si utilizza la T di Student, variabile
casuale non considerata, non è argomento di esame. Tale variabile, supponendo che x sia
distribuita in maniera normale con una media ignota ma con varianza nota, è possibile,
considerando il teorema del limite centrale, data variabile campionaria con campione amplio, la
media campionaria è distribuita in modo normale con media normale e varianza data dalla
varianza fratto n. nel caso reale potrebbe accadere che media e varianza siano incognite,
estraendo un campione casuale da questa variabile è necessario conoscere come è distribuita tale
variabile che è nota come t di studente, tale variabile è distribuita in maniera simile ad una
normale, curva a campana, differisce rispetto alla normale per il fatto che l’andamento a forma di
campana dipende dalla numerosità del campione considerato, che in tale contesto prende anche il
nome di grado o gradi di libertà, ciò fa si che all’aumentare di n aumenta la similitudine con una
normale; la differenza essenziale con la normale è che la t di Student presente una distribuzione
più marcata al lati, tale differenza scompare al crescere della dimensione del campione, gradi di
libertà.
Come già visto per la normale per la t di Studente esistono delle tavole che calcolano i livelli di
libertà data la dimensione del campione, tale è il valore indicato nelle tavole della t di Student (2).
Il calcolo dell’intervallo di confidenza quindi per la media di una popolazione distribuita in maniera
normale, data la varianza, tale intervallo è pari a (3), data la varianza non conosciuta è possibile
sostituirla con la varianza campionaria, corretta o no, il valore za/2 andrà cercato sulle tavole della t
di Student.
Metodo di stima della massima verosimiglianza, dato il campione o evidenza si deve dimostrarne la
provenienza, tramite la probabilità. La funzione congiunta che ne deriva si chiama funzione di
verosimiglianza, va notato come tale funzione dipende dal parametro oggetto di stima, probabilità
che dipende dal parametro oggetto di stima, data la possibilità di ottenere due valori non si una
funzione continua, anche se ciò è probabile qualora si considerino tutti i casi della funzione stessa.
Tralasciando l’ipotesi di un parametro che possa assumere solamente due o più valori definiti,
poiché il parametro realmente può prendere qualsiasi valore compreso tra zero e uno, si deve
quindi scegliere il valore che tra zero e uno da un valore che massimizza la funzione L, tale funzione
è continua in |P. Per fare ciò è necessario (4). L’operazione può complicarsi per far ciò si lavora sul
logaritmo, trasformata monotona della funzione di verosimiglianza ciò fa si che il punto di massima
dell’una coincida con il punto di massima dell’altra. Data la stima del parametro ottenuta, poiché il
campione estratto era fissato a priori, si può quindi generalizzare qualora il campione non sia
fissato a priori, data una qualsiasi curva, o modello teorico, nello specifico Bernulliana, estraendo
quindi casualmente un campione indicabile come (x1; x2;…; xn). data la generica funzione di
verosimiglianza è possibile determinare il valore di !P tale per cui la funzione di verosimiglianza è
massima.
Passando da una curva teorica discreta a una continua, caso di esponenziale negativa, da cui
avremo che (5), estratto il campione si deve costruire la funzione di verosimiglianza, espressa
sempre in funzione del parametro oggetto di stima. Per risolvere il problema che si determina
probabilità del valore pari a zero si considera la densità di probabilità calcolata in quel valore,
altrimenti la singola probabilità del valore sarebbe zero. (6). Per determinare la stima si esprimono
in forma trattabile, algebricamente parlando la densità di probabilità congiunta, data la
rielaborazione, per rendere agevole la derivata posso calcolare la trasformazione logaritmica.
3
Appunti del 13/12/2012
Avviso: fine del corso martedì 18 Giovedì 20 vi sarà un’esercitazione in orario di lezione sull’ultimo
argomento svolto, Mercoledì 19 10.00-12.00 vi sarà un ricevimento straordinario.
Per stimare due parametri dato una variabile casuale si stima un parametro dato l’altro come
costante, e dato il risultato determineremo l’altro parametro, l’analisi può anche essere svolta in
maniera congiunta anche se con complicazioni dovute alla presenza di un sistema di due derivate
prime date dalla presenza di due parametri da stimare e quindi due variabili secondo cui derivare
la funzione e che vanno poi massimizzate.
Vi sono quindi tutta una serie di proprietà di cui godono gli stimatori di massima verosimiglianza,
gli stimatori ottenuti con questo metodo sono stimatori noti come consistenti, o quantomeno
convergenti in probabilità, dati errori grandi l’errore di stima è piccolo, le stime si avvicinano ai
valori veri dei parametri.
Tali stimatori sono poi asintoticamente distribuiti in maniera normale, dati campioni di grandi
dimensioni, la distribuzione ne dello stimatore, variabile casuale, data però la natura di massima
verosimiglianza per campioni di amplia dimensione risultano distribuiti in maniera normale.
Gli stimatori si ottenuti sono poi efficienti l’errore quadratico medio è minimo.
Gli stimatori si ottenuti godono poi della proprietà nota come invarianza, ciò implica che (2) quindi
data una funzione che lega due parametri casuali espressa secondo il primo parametro e data la
stima del primo parametro la stima del secondo non sarà altro che l’inverso della funzione secondo
la stima del primo.
(Ultimo argomento) Prova di Ipotesi argomento prettamente pratico, si tralasceranno questioni
teoriche e conseguenti teoremi, si intende per prova delle ipotesi una procedura statistica che
consente, o quantomeno ha l’obbiettivo, di verificare con quali livelli di probabilità sono vere le
ipotesi fatte su un parametro di una popolazione. Dato il caso pratico avremo (3). Una ditta
sostiene che un nuovo tipo di fertilizzante, incrementa la produzione per ettaro del 10%,
supponendo quindi di sapere che la produzione per ettaro di tale prodotto ha una distribuzione di
tipo normale, con una media di 50 quintali per ettaro e con una deviazione standard, o
scostamento quadratico medio di 7 quintali, dato l’aumento di un dieci per cento i tale produzione
si vuole verificare se effettivamente tale è l’incremento della produzione. Per fare ciò si fanno due
ipotesi la prima, nota come H0, prende il nome di ipotesi nulla, e specifica quanto è già noto,
avremo poi un’ipotesi H1, nota come ipotesi alternativa, tale ipotesi contraddice quella nulla.
Volendo quindi verificare quale delle due ipotesi è quella giusta, ciò permette di stabilire la
veridicità dell’affermazione della ditta. Per far ciò, probabilisticamente parlando, è necessario
considerare un campione di appezzamenti, ed in ognuno di questi appezzamento effettuare il
trattamento concentrando l’attenzione sulla media campionaria, produzione media del campione,
data per vere le due ipotesi avremo (4). Si può quindi procedere per ottenere il nostro obbiettivo
con il metodo della massima verosimiglianza, verificando la probabilità dell’estrazione tra le varie
alternative, determinando poi la massima. Accetteremo una delle due probabilità ogni qual volta
una delle due medie saranno superiore al valore sotto l’ipotesi alternativa.
Dato quanto detto è possibile stabilire quale delle due ipotesi è accettabile procedendo nel
seguente modo: suddividere l’insieme dei valori della media campionaria in due sottoinsiemi, il
primo noto come A e il secondo R, nel primo registreremo tutti i valori della media campionaria tali
per cui la densità della stessa sotto l’ipotesi nulla sia maggiore o pari alla stessa sotto l’ipotesi
alternativa, tale insieme è la regione dell’accettazione dell’ipotesi nulla, nel secondo troveremo
tutti i valori rimanenti. Sorge spontanea la domanda su come vada effettuata la suddivisione
4
dell’insieme totale nelle due regione, è sufficiente determinare il punto critico, punto ove le due
curve si incrociano, a sinistra dello stesso troviamo valori di accettazione di H0 e a sinistra i valori di
accettazione di H1. Tale punto si individua uguagliando tra di loro le due densità. (5).
5
Appunti statistica
Lezione di recupero
1
Appunti del 18/12/2012
Data quindi un’ipotesi di partenza e una ipotesi alternativa e quindi centrata su un differente
valore si ha che sino a che l’intensità vale sino ad un determinato valore si hanno due ragioni una
di accettazione e uno di rifiuto di entrambe le ipotesi.
È possibile osservare come procedendo nel modo appena svolto, suddivisione in due sottoinsiemi,
il primo che verifica l’ipotesi nulla, e il secondo che determina il rifiuto dell’ipotesi nulla, vi possono
essere degli errori: un primo potrebbe essere il rifiuto dell’ipotesi nulla qualora questa nella realtà
è vero, ciò indica che si osserva una media campionaria più grande del valore che fa da
spartiacque, dato questo errore si ha una media maggiore dello spartiacque, o punto critico ma si
rimane nell’ipotesi nulla, questo errore prende il nome di errore di prima specie è necessario
quindi definire con che probabilità si commette un errore di prima specie? Si tale probabilità può
essere calcolata ed è uguale alla probabilità che la media campionaria sia maggiore del punto
critico supponendo che H0 sia l’ipotesi vera (1) tale probabilità prende anche il nome di
significatività del test statistico condotto, il complemento a uno di a è la probabilità di accettare
correttamente l’ipotesi nulla quando la stessa è vera, noto come complemento o complementare.
Vi è poi l’opzione di errore di rifiuto dell’ipotesi alternativa quando la stessa è vera, in questa
seconda situazione si ha una media campionaria minore del punto critico però rimane vera
l’ipotesi alternativa, la probabilità di tale errore si determina come (2). Tale errore prende il nome
di errore di seconda specie, il relativo complemento rappresenta invece la probabilità corretta di
accettare l’ipotesi alternativa quando la stessa è vera, e prende il nome di 1-B ed è anche nota
come potenza del test, contro il valore di B che rappresenta la probabilità di rifiutare l’ipotesi
alternativa quando essa è vera.
Quando detto è riassumibile come in tabella (3), dato da un lato l’evento che si verifica, media
campionaria appartenente al rifiuto di ipotesi nulla o media campionaria che appartiene
all’accettazione dell’ipotesi nulla, le decisioni che si possono prendere fanno si che se la media
campionaria appartiene ad A si accetta l’ipotesi nulla, H0, se invece la media campionaria
appartiene all’area di rifiuto si rifiuta l’ipotesi H0.
Dato quindi un errore di prima specie che sembra essere troppo alto è possibile abbassarlo
traslando ad esempio il punto critico, si fissa quindi a priori l’errore di prima specie, cercando il
minor grado di errore, determinando quindi il relativo punto critico conseguente. (4). Il nuovo
valore di va necessariamente calcolata come (4.1) e così il relativo punto B, la relazione esistente
tra il punto B ed A sono inversamente proporzionali.
Esiste un metodo in grado di diminuire contemporaneamente A e B cioè aumentare la dimensione
del campione.
Sorge un primo problema relativo al fatto che fissato un valore dell’errore di prima specie non è
possibile determinare un livello di B che sorge come spontaneo dalla nostra ipotesi. Sorge infine un
altro problema, fissando difatti a priori la probabilità di commettere un errore di prima specie la
regione di rifiuto dell’ipotesi nulla non è univocamente determinata, (5).
Dovendo quindi stabilire quale ipotesi accettare è necessario, considerando la precedente
indeterminatezza, si arriva a fissare a priori l’errore di prima specie e si sceglie come regione di
rifiuto dell’ipotesi nulla quella tale per cui la potenza del test risulta massima, il problema risulta
quindi sull’esistenza della regione di rifiuto in queste condizioni? Si esiste, ed è noto come teorema
di Neyman-Pearson. Una volta fissato a a priori è possibile determinare una regione di rifiuto
dell’ipotesi nulla facendo si che la potenza del test sia massima.
2
Un primo sistema di ipotesi è quello già visto ove, note come ipotesi semplici: (6) vanno distinte le
ipotesi semplici, già considerate, da quelle composte ove l’ipotesi alternativa invece di specificare
una sola ipotesi ne specificano più di una ipotesi, (7).
Vi è poi una ultima situazione che fa riferimento al caso pratico esprimibile come (8) tale verifica di
ipotesi si conduce come la si condurrebbe con ipotesi semplici.
Data la condizione di partenza relativa all’analisi di una funzione reale con media incognita e
varianza nota, data la verifica di ipotesi per la varianza utilizzeremo uno stimatore corretto noto
come la varianza campionaria corretta. (9) esempio uno. (10) esempio due. (11) esempio tre.
3