STATISTICA Appunti prima settimana 1 Appunti 26/09/2012 Dispense: 1° dispensa Calcolo delle probabilità, metodo di stima della massima statistica (disponibile alla clua interna all’università). 2° dispensa di esercizi svolti (disponibile sul sito e-learning, www.econ.univpm.it in altro a destra, statistica primo corso, dispensa di esercizi svolti, relativi alla prima parte del corso, statistica descrittiva). Definizione di statistica, elementi fondamentali: 1. Fenomeno oggetto dell’analisi, o che deve essere studiato, può essere di qualsiasi natura, fisico, economico e sociale, indicato con la lettera x. 2. Insieme di individui o unità, indicato come U, e u1 il primo elemento, u2 il secondo ecc. ecc., noti come unità statistiche, possono sia essere persone che unità astratte. La statistica è un insieme di metodi che hanno come obbiettivo quello di analizzare ed interpretare il fenomeno x nell’insieme U oggetto di un’indagine. Il fenomeno x prende anche il nome di variabile o carattere, l’insieme U viene anche chiamato come popolazione statistica. Noto quanto dato la statistica è un insieme di metodo che analizza il fenomeno x nella popolazione U. Il passo successivo dell’analisi è quello di rilevare la variabile nella popolazione di riferimento, supponendo una variabile x data come il reddito mensile e che la popolazione di riferimento sia costituita dall’insieme delle famiglie residenti in Italia. Si vuole studiare il reddito mensile nelle famiglie residenti in Italia. Detto questo è necessario rilevare la variabile nella popolazione di riferimento, intervistando tutte le famiglie italiane, chiedendo il reddito mensile, questa fase è nota come fase di rilevazione o misurazione della variabile, è nota come X, l’insieme delle misurazioni della variabile nella popolazione, in questo caso l’insieme dei redditi delle famiglie italiane, in generale gli elementi di X si indicano come x+1 n(valore della variabile), x+2n(valore della variabile)… i vari elementi che compongono l’insieme X. X prende anche il nome di insieme dei dati elementari o insieme dei dati in forma grezza, questo insieme è il punto di partenza dell’indagine statistica, noto il fenomeno e i valore nella popolazione presente, è necessario inserire una serie di strumenti che permettano l’analisi dei dati grezzi, quanto detto è valido per ogni indagine statistica. Prima di introdurre la strumentazione considerata per analizzare il fenomeno va aperta una perentesi su quelle che sono le scale di misura che utilizziamo in statistica per rilevare o misurare il fenomeno o la variabile nella popolazione di riferimento, queste scale possono essere di quattro tipi: 1. Scala di misura nominale, è la più semplice, ha come caratteristica fondamentale quelle di far si che prendendo due generiche osservazioni, o due generici elementi dell’insieme X, allora se la variabile è stato misurato con una scala nominale da esse sono in grado di dire se esse sono uguali tra di loro oppure se sono tra di loro diverse. 2. Un’altra scala di misura è quella di tipo ordinale, questa permette, se presi sempre due generiche osservazioni, possiamo affermare se esse sono uguali tra di loro, oppure se sono diverse tra di loro ed infine possiamo dire quelle delle due è più grande o più piccola dell’altra. 2 3. Scala intervallare, in questo caso date due generiche osservazioni, è possibile dire se esse sono uguali o diverse tra di loro, possiamo stabilire quelle delle due è più grande e viceversa quale è più piccola e possiamo infine stabilire anche il grado della diversità tra le due osservazioni, cioè quanto diverse sono le due osservazioni, tramite una serie di gradi di differenza tra le due osservazioni, si può quantificare quanto esse siano differenti. Questa scala è poi caratterizzata da un’origine fissata in maniera arbitraria, ciò fa si che non si possa effettuare rapporti tra due generiche osservazioni. 4. Scala di rapporto, quando invece l’origine della scala è fissata in maniera naturale è allora possibile effettuare giudizi di questo tipo, si usa una nuova scala di misura, nota come scala di rapporto, in questo caso si possono effettuare anche giudizi relativi sulle dimensioni e sui loro rapporti. Se una variabile di un fenomeno è stato misurato con una scala nominale o ordinale, quel fenomeno, quella variabile, quel carattere, in statistica prende il nome di variabile qualitativo o fenomeno qualitativo o carattere qualitativo, al contrario se quella variabile è stata misurata con una scala intervallare o con una scala di rapporto allora quella variabile prende il nome di variabile quantitativa o fenomeno quantitativo o carattere quantitativo. Le variabili quantitative si manifestano tramite numeri, le variabili qualitative si manifestano mediante i cosiddetti “attributi”, cioè manifestazioni non numeriche. Nell’ambito delle variabili quantitative si possono distinguere quelle discrete da quelle continue, la principale differenza tra queste due categorie è che le discrete comprendono variabili le cui manifestazioni appartengono all’insieme dei numeri naturali, quando invece le manifestazioni di queste variabili possono essere numeri reali allora significa che la variabile è di tipo continuo. (scaricare la fotocopia) 3 Appunti del 27/09/2012 Il carattere quantitativo o qualitativo di una variabile deriva da un processo di conteggio, in quanto è un processo fondamentale per valutare una variabile di tipo discreto, ciò dipende anche dal fatto che il numero di intervistati e il reddito presentano valori di una variabile naturali, una variabile quantitativa è un fenomeno che si muove nel continuo senza interruzione, questi fenomeni si riconoscono dal fatto che i valori che assume la variabile deriva da un processo di misurazione, ciò contraddistingue le variabili continue. La differenza tra queste due variabili non dipende tanto dal valore della variabile stessa, difatti entrambe possono essere espresse con valori discreti, ma dipende tutto dal modo di rilevazione. Prima delle fasi del metodo di analisi di dati statistici, dato carattere X che vogliamo analizzare su una certa popolazione, una volta rilevata la variabile è possibile definire un insieme di dati, noto come insieme di dati grezzi o in forma elementare, è quindi possibile sistemare , riorganizzare l’insieme dei dati in forma elementare, questa fase è nota come ordinazione o riorganizzazione dei dati in forma grezza, tutto ciò mediate quelle che sono definite come distribuzioni di frequenza, con distribuzione di frequenza si indicano delle tabelle che hanno l’obbiettivo di riordinare i dati per avere una visione più chiara del fenomeno considerato, queste tabelle sono costituite da due colonne, nella prima vengono posizionati i distinti valori che assume la variabile nella popolazione di riferimento, l’insieme dei distinti valori assunti da questa variabile prende il nome di supporto della variabile, e i distinti valori o attributi prendono il nome di modalità della variabile, modalità del carattere o modalità del fenomeno, nella seconda colonna va poi posizionata la frequenza assoluta, cioè il numero di volte che si osserva una data modalità nella popolazione di riferimento, la somma delle frequenze deve coincidere con il numero totale delle osservazioni. Questa è la modalità più grezza per riorganizzare i dati statistici. Questa modalità di organizzazione si costituiscono le distribuzioni di frequenza relative alla variabili qualitative e quantitative discrete. In modo analogo si costituisce la variabile di frequenza di una variabile continua, questa variabile presenta molti valori tra loro differenti, la distribuzione di frequenta diventerebbe una tabella estremamente lunga con frequenze molto piccole, per le variabili continue non si può quindi procedere come per le variabili discrete, si perde la chiarezza necessaria alla rielaborazione, per risolvere tale problema è necessario prendere il supporto della variabile che viene suddiviso in classi contigue senza sovrapposizione salvo poi procedere come per la variabile discreta. Si prendono quindi i distinti valori della variabile considerata, definendone gli estremi, si parte poi alla suddivisione in classi, necessariamente contigue e senza sovrapposizione, in maniera che ogni sovrapposizione corrisponda ad una sola classe, generalmente non esiste un modo oggettivo per definire le categorie e le classi, anche considerando specificamente una data variabile. Frequenza relativa, è il rapporto tra la frequenza assoluta e il numero totale di osservazioni svolte, o somma di tutti i casi analizzati. La frequenza relativa permette di confrontare, data una variabile, le differenze che vi sono tra i valori in due diversi periodi di tempo. 4 Appunti statistica Seconda settimana 1 Appunti del 02/10/2012 Concetto di frequenza relativa, Pi: rapporto tra una frequenza assoluta, Ni, e il numero totale del livello de casi, Pi=Ni/n. l’importanza di questo concetto è strettamente legato con il calcolo delle probabilità, e per motivi di confronto, di fenomeno tra popolazioni diverse o fra tempi diversi della stessa popolazione. Le frequenze relative hanno le stesse proprietà delle frequenze assolute, cioè sono dei numeri positivi maggiori o uguali a zero, la somma delle frequenze assolute corrisponde al numero delle osservazioni, stessa cosa vale per il numero delle frequenze relative, che però danno come somma 1. Costruzione della distribuzione di frequenza necessarie a comprendere il fenomeno nella popolazione di riferimento. Affianco a questo strumento, è necessario rappresentare graficamente i dati. Rappresentazioni grafiche di variabili qualitative, i grafici più semplici sono di due tipi il diagramma a torta e il diagramma a rettangoli distanziati. Si considera nel primo caso una circonferenza divisa in tante fette quante le modalità assunte dalla variabile, la cui grandezza deve essere proporzionale alla frequenza con la quale la probabilità è osservata. Sviluppare grafico a torta dall’esempio, considera stato lavorativo. Nel secondo caso invece si considera un riferimento cartesiano, sull’asse delle ordinate si posizionano i tre supporti della variabile, in corrispondenza di ogni modalità si disegnerà un rettangolo di altezza proporzionale alla frequenza della modalità, sulle ordinate saranno quindi presenti le altezze relative. Rappresentazioni grafiche variabili quantitative, distinguendo tra variabili tipo discreto e variabili di tipo continuo. Nel primo caso ci troviamo di fronti a molti diagrammi il più semplice si rivela essere il diagramma per ordinate, si procede in maniera analoga al diagramma per rettangoli differenziati, si considera un riferimento cartesiano, nell’asse delle ascisse si inseriscono le modalità osservate, sulle ordinate si inseriranno le frequenze relative e a seconda delle frequenze relative raggiunte si regola la proporzionalità della lunghezza del valore considerato. Nel secondo caso, variabili quantitative continue, la rappresentazione grafica più utilizzata è l’istogramma di frequenza o diagramma di frequenza. Simile alla variabile discreta, diagramma per ordinate, ivi invece di considerare le singole modalità osservate, si rappresentano delle classi di ampiezza. Data difatti una generica distribuzione di frequenza una variabile continua, una volta definite le classi di appartenenza, e le frequenze relative. L’istogramma di frequenza sarà dato quindi da un riferimento cartesiano, indicheremo sull’asse delle ascisse il supporto della variabile suddiviso in classi si ha quindi in corrispondenza di ogni classe un segmento la cui grandezza è proporzionale con la frequenza di quella modalità. Conviene affiancare alla distribuzione di frequenza un’altra colonna, Ai, che indica l’ampiezza delle varie classi. Un problema si pome qualora tutte le classi abbiano la stessa ampiezza, allora la densità della generica classe dipende dal rapporto di Pi e A (valore generico), a parità di ampiezza aumentando la frequenza diminuisce la densità di frequenta. Vi sono alcuni casi in cui l’andamento delle densità è particolare e si può sostituire l’istogramma con una curva teorica, come accade ad esempio con un sistema di densità decrescenti, l’andamento è quindi regolare, si decresce aumentando la classe, si può sostituire, all’evidenza, o curva empirica, una curva completamente teorica, questa particolarità non è sempre possibile, non sempre si può passare dagli istogrammi osservati alle curve teoriche. 2 Oltre agli strumenti già citati, distribuzioni di frequenza e strumentazioni grafiche, un altro strumento usato per passare dai dati grezzi a quelli rielaborati è la funzione di ripartizione, questo strumento può essere usato solo in presenza di variabili quantitative, si escludono le variabili qualitative, a prescindere dal fatto che sia discreta o continua. Il supporto della variabile si suppone quindi ordinato in maniera crescente, si ha una funzione di ripartizione, definita nell’insieme dei numeri reali e che associa ad ogni elemento di questo insieme, un numero compreso nell’intervallo 0-1, estremi inclusi, la funzione è indicata come F (X), per x che appartiene all’insieme R. L’associazione tra gli elementi degli assi dei reali e l’intervallo 0-1 avviene associando ad ogni x appartenente ai reali la frequenza dei casi più piccoli a pari ad x. Costruzione della funzione di ripartizione, di una funzione quantitativa discreta, dati quindi i valori di una variabile e le rispettive frequenze relative considerando quindi le varie modalità osservate la funzione di ripartizione varia a seconda dei numeri considerati ed è comunque pari alla somma di tutte le frequenze relative delle modalità, relative ad un valore minore di quello osservato. Qualora il numero si più piccolo della modalità osservata la funzione di ripartizione da come risultato zero. 3 Appunti del 03/10/2012 Funzione di ripartizione, definibile come (vedi quaderno), dati quindi dei valori di supporto per una variabile e le rispettive frequenze relative, la funzione di ripartizione considera la somma delle frequenze relative, date da supporti inferiori o uguali a quelli considerati, qualora però il supporto preso in considerazione sia un supporto “intero”, cioè uno di quelli considerati esplicitamente, e quindi con una propria frequenza relativa, se il caso considerato è inferiore a uno la funzione di ripartizione da come risultato 0, per x pari ad 1 la frequenza dei casi più piccoli o al massimo pari a uno da come risultato la somma dei casi inferiori a uno più la somma dei casi uguale a uno, consideriamo ora la somma dei casi compresa tra tre e uno, esso sarà uguale al valore assunto per una frequenza pari o inferiore a uno poiché nell’intervallo considerato la variabile non acquista nessun valore, nella seconda modalità considerata la funzione di ripartizione sarà la proporzione dei casi per x al massimo pari a tre, data quindi dalla somma della proporzione dei casi per x inferiore di tre sommata alla proporzione dei casi per x uguale a tre, quanto detto si ripeterà per tutti i valori interi e per tutti i valori intermedi che ci troveremo ad affrontare. La funzione di ripartizione, andando da meno a più infinito tende a non muoversi, assume cioè sempre lo stesso valore, ciò è valido quando la x raggiunge un valore che appartiene al supporto o quando è compresa tra due supporti estremi esclusi. Superato il valore dell’ultimo dei numeri incluso nel sistema di supporto prende il valore di uno. Li situazione con una condizione similare, stesso valore, si possono associale permettendo di riscrivere la funzione di ripartizione. Per ottenere la funzione di ripartizione si considerano tutti i valori reali prima del supporto considerato, nel primo caso e compresa tra i due supporti più vicini consecutivi, nei casi successivi sino alla coppia compresa tra l’ultimo e il penultimo, includendo l’estremo inferiore e escludendo quello superiore, nell’ultima modalità si considerano i valori della modalità stessa e tutti i valori appartenenti a modalità superiori. Funzione di ripartizione, di una variabile discreta, con un supporto ordinato in maniera crescente, x1<x2<x3<…<xn, allora la funzione di ripartizione di questa variabile sarà data, x<x 1 F(x)=0, xi<x<x1 (vedi quaderno). Graficamente la funzione si presenta come una funzione a gradi, con dei salti in corrispondenza delle modalità osservate, che ne rappresentano anche i punti di discontinuità, la funzione non è continua, se non a destra della modalità osservata. La funzione di ripartizione è quindi una funzione non decrescente poiché essa si mantiene costante o crescente. 1. Il limite per x che tende a meno infinito della funzione di ripartizione è uguale a zero. 2. Il limite per x che tende a più infinito la funzione di ripartizione è uguale a uno. 4 Appunti del 04/10/2012 Funzione di ripartizione per variabili discrete abbiamo due possibili condizioni una: • Non conosco i dati in forma elementare la funzione di ripartizione per una variabile continua si determina come per le variabili discrete. • Conoscendo meno i dati in forma elementare, conosco solamente la distribuzione di frequenza, vi è una suddivisione in classi e per ogni classe si conosce la frequenza. Parto quindi dalla schema con le distribuzioni di frequenza, si procede definendo la funzione di ripartizione come determinata in maniera approssimata, si procede con un’ipotesi di equi distribuzione delle unità all’interno delle classi, ciò implica che le osservazioni all’interno di ogni classe si distribuiscono in modo equo, cioè equidistanti le une dalle altre, considerando quindi i dati reali e le relative classi determinate partendo dalla prima della classi sarà possibile suddivide la prima in due sotto classi con la stessa ampiezza che avranno quindi una frequenza pari alla metà della frequenza della classe originaria, lo stesso ragionamento può svolgersi per spezzare una qualsiasi generica classe in due o più sotto classi, la frequenza data alla sottoclasse dipende dalla frequenza delle stesse. Dato il caso di x=0 la funzione di ripartizione F(x)=0. Dato il caso di una x=2 F(x)= P(x<0)+P(0<=x<=2)* *I(0-2)0,012dx Caso generico 1° classe: 0<=y<=10 F(x)=P(x<0)+P(0<=x<=y) Caso generico 2° classe: 10<=y<=20 F(x)= P(x<10)+P(10<=x<=y) Caso generico 3° classe: 20<=y<=40 F(x)=P(x<20)+P(10<=x<=y) Le funzioni di caso generico 2° e 3° possono essere generalizzate per tutti possibili intervalli successivi. La generalizzazione può svolgersi secondo il seguente processo, escludendo l’intervallo tra zero e meno infinito e l’ultimo numero e infinito, la funzione si comporta in maniera da determinare delle equazioni, in questo caso di rette, equazioni di primo grado, le rette sono sempre e comunque crescenti, o costanti, i cui elementi principali sono una costante che coincide con il valore che la funzione di ripartizione assume nell’estremo inferiore della classe, vi è poi una parte specifica della relativa classe che considera l’area del rettangolo dell’istogramma, e il valore assunto nei vari intervalli meno l’estremo inferiore della classe considerata. Generalizzando avremo che: x1-xk+1 come estremi della condizione osservata se3 x<x1 F(x)=0, x1<=x<xk+1 F(x)=F(xi)+Fi*(x-xi); x>=xk+1 F(x)=1 La derivata della funzione di ripartizione dF(x)/dn=d(F(xi)+Fi*(x-xi)=d(F(xi))+d(Fi*x)-d(Fi*xi), la prima parte corrisponde a zero, la seconda derivata corrisponde a Fi, e la terza parte corrisponde a zero, avremo quindi che la derivata della funzione in un punto altri non è che l’area della funzione stessa. La funzione di ripartizione è assolutamente continua con dei punti angolosi. 5 Appunti Statistica Terza settimana 1 Appunti del 09/10/2012 Funzione di ripartizione, relativa ad una variabile continua e divisa in classi, in ogni intervallo la funzione di ripartizione è una funzione continua la cui derivata coincide con la densità delle varie classi. La funzione di ripartizione, considerando una variabile numerica continua divisa in classe è continua. La derivata di una funzione di ripartizione corrisponde al valore della variabile nell’intervallo, è interessante poi osservare come si comporta la funzione di ripartizione nei punti di incontro ove cambia l’inclinazione di una variabili, tutto ciò permette di dimostrare la continuità della funzione, che però presenta dei punti angolosi, punti ove cambia l’inclinazione della funzione; come per le variabili discrete, visibile dall’analisi grafica, si tratta di una funzione non decrescente, o cresce o rimane costante, se presenta diversa la dimostrazione rispetto a quella per la funzione di ripartizione di una variabile numerica discreta. Funzione di ripartizione di una variabile teorica Il fenomeno considerato può essere per approssimato, rappresentato dalla seguente curva teoria: (vedi appunti foglio). La funzione teorica è una generalizzazione della variabile continua divisa in classi, si può definire il contenuto della funzione come una variabile continua osservata in un unico intervallo, anziché più intervalli come già fatto. Dato il fatto che in qualsiasi intervallo la funzione di ripartizione è la primitiva della funzione, così facendo determiniamo la funzione di ripartizione. Fase di sinesi: Dopo la fase di sistemazione dei dati inizia una fase di sintesi con l’obbiettivo di individuare una costante, C, che prende anche il nome di media, che riassuma il fenomeno osservato, cioè sintetizzare l’insieme dei dati in forma elementare. Come determinare al costante in grado di riassumere il fenomeno? (insieme dei dati osservati). Abbiamo quindi diversi metodi per riassumere i dati: • Metodo del minimo danno, anche detto criterio del minimo danno. • Metodo derivante dalla natura del problema, criterio derivante dalla natura del problema. Metodo o criteri del minimo danno: Considerando i dati in forma elementare, manifestazione del fenomeno sulle singole unità del collettivo, X=(x1I; x2I;…;xNI), la costante riassume quindi tette le osservazioni che appartengono a X. Come scegliere quindi C? La media va scelta in maniera che l’errore commesso, sostituendo C ad ogni osservazione, sia il più piccolo possibile. Dato l’esempio uno ove tute le condizioni sono coincidenti, di scarso interesse statistico, è facile individuare la costante, media, che riassume tutte le osservazioni, che risulta essere occupati, poiché sostituendo la costante a tutte le osservazioni ciò avviene senza commettere errori, la costante sintetizza in maniera perfetta la situazione osservata. Dato il primo esempio e ponendo come condizione di sintesi lo stato di disoccupato ciò non determina errori per le prime due osservazioni, e nella terza, quarta e quinta osservazione commetto un errore data la mancata coincidenza tra costante e osservazione. Secondo il metodo del danno minimo dovremmo scegliere la costante in modo tale che l’errore globale commesso in ogni osservazione sia il più piccolo possibile. Per rendere operativa questa procedura si considera gli errori, e quindi determinare C con il grado minimo di errore, si deve esplicitare l’errore in campo più dettagliato, in generale l’errore è indicabile con un G e è in funzione del valore assunto dalla costante, se la costante coincide come visto con disoccupato si hanno due errori, il numero di errori poi aumenta considerando come C la condizione di non occupato avremo quattro errori, g(xiI;C), errore commesso dalla sostituzione della C all’i esimo dato considerato, dato quindi l’esempio due l’errore è nullo, pari a zero, se XiI 2 coincide con C, vi è un errore se XiI non coincide con C, l’errore è definibile anche come danno. Avremo quindi un danno o errore globale, determinato da una sostituzuione di C, come la somma di tutti i danni determinati dalla sostituzione della costante C. (vedi esempio 3). Così si determina la media che meglio approssima l’insieme dei dati in forma elementare. Commento esempio 4 gli errori coincidenti possono poi essere sommati, primo, secondo e terzo errore, poi sommo, quarto e quinto e infine sommo gli errori, sesto, settimo e ottavo. Avremo un errore globale dato dalla sostituzione ad un modalità di una costante moltiplicato per la frequenza della costante considerata, tutto ciò ripetuto per tutte le modalità considerate. Ci si torva a dover minimizzare la funzione rispetto ad C moltiplicando l’errore la frequenza assoluta della variabile considerata. Nella pratica si preferisce minimizzare la funzione considerando le frequenze relative delle variabili considerate. Data l’unica differenza come la costante moltiplicativa il valore di C che minimizza una funzione minimizzerà anche l’altra. 3 Appunti del 10/10/2012 Medie, costante che ha l’obbiettivo di sintetizzare, riassumere, il fenomeno osservato, una volta determinata la funzione obbiettivo, (1), che va minimizzata in funzione della variabile C, tale funzione, detta funzione di errore globale, è pari a zero qual ora la sostituzione avvenga senza errori, positiva se la situazione determina errori. Come esplicitare però l’errore globale? Vi sono tre modi diversi per esplicitare in concreto l’errore, essi danno vita alle più famose e comuni medie statistiche per la sintesi di fenomeni, va però considerato che l’errore può essere esplicitato anche in altri modi diversi. 1. Il modo più semplici di esplicitazione dell’errore è dato da determinazione dell’errore pari a zero ogni qual volta vi è coincidenza tra modalità e costante di sintesi, e si pone pari a uno l’errore ugni qual volta che tra queste due quantità non vi è più uguaglianza, sostituzione con errore. (2) Si devo trovare il valore della costante tale che il danno globale determinato è minimo. Per fare ciò si analizza il comportamento della funzione sostituendo alla costante le già osservate modalità di una variabile. Il caso più semplice si presenta con l’analisi della distribuzione di frequenza di una variabile discreta. L’errore globale si determina come la somma delle frequenze relative esclusa quella relativa alla frequenza considerata. Si ha quindi che la funzione di C per cui si ha il danno globale minore è quella in cui: la frequenza relativa, esclusa dal calcolo di errore globale, è massima, poiché ciò minimizza il danno globale. Tale valore è noto come moda. La moda è l’unico indice di sintesi, media, determinabile per le variabili, qualitative, non numeriche, tale metodo di calcolo è poi il più semplice e rapido. Presenta poi dei difetti legati al fatto che data una distribuzione questa può avere più di una moda o può non esistere o coincidere con il supporto della variabile. a) Data una variabile numerica discreta la moda va calcolata come nel caso dei valori non numerici. (3) b) Qualora vi sia una variabile numerica continua di cui non si conosce la distribuzione per classi il calcolo della moda avviene secondo il seguente metodo, la classe determinata è la classe modale: date classi che hanno tutte la stessa ampiezza si sceglierà la classe osservata come la più alta frequenza relativa, il comportamento è lo stesso valido per le variabili discrete, solo che al posto del valore della variabile discreta si sostituisce la classe dotata di frequenza relativa maggiore, della classe è poi possibile scegliere un numero rappresentativo della classe modale, generalmente si sceglie il valore centrale della classe come rappresentativo della classe stessa ((x1-x2)/2); c) Date ampiezze della classi differenti tra di loro è necessario riprendere la distribuzione suddividendole in classi della stessa ampiezza, rielaborando il supporto originario, si può optare per la rielaborazione della funzione di danno globale considerando al posto della frequenza relativa la densità di frequenza relativa. d) Moda determinata per una variabile teorica, per calcolare la moda di una variabile teorica si può generalizzare quanto detto per una variabile continua divisa in classi quando le classi non son tutte della stessa ampiezza, in quel caso si sceglieva al classe osservata con la densità di frequenza relativa più alta, in questo caso per determinare la doma di una curva teorica determineremo il punto in cui la curva raggiunge il valore massimo, massimizzo la funzione considerata. (5) e) Può accadere che la funzione derivata non porti ad alcun risultato (6), si osserva quindi il segno della derivata, che avendo segno positivo indica che la funzione è stessa è una funzione crescente, il che indica che si ha un punto di massimo nell’estremo superiore della 4 funzione. Nel caso di una derivata prima non annullata con segno negativo la funzione è decrescente e si ha quindi un massimo nell’estremo inferiore del supporto. 2. Concentrando l’attenzione sulle variabili numeriche è possibile definire l’errore, in senso generico in molti altri modi, (7) determinando un errore pari a zero qualora il valore sia uguale alla costante e pari alla differenza in valore assoluto tra il valore della variabile e la C considerata e alla densità di frequenza dell’errore considerato. Si deve determinare quindi la costante C in maniera da minimizzare l’errore totale, in questo caso si considerano solo variabili numeriche. Si deve derivare la funzione di danno globale e poi porla uguale a zero, l’unica complicazione presente è quella del valore assoluto, situazione che può essere risolta eliminando il valore assoluto stesso, in maniera da avere una situazione più trattabile per poi minimizzare al funzione di errore. (8) Dato detto è possibile sottrarre e aggiungere la stessa quantità (9). 5 Appunti del 11/10/2012 Esiste quind8 un punto c in cui F(c) vale 0,5, ciò è sempre vero per le variabili continue (1), se la variabile è discreta tale valore o non esiste (2).1 oppure non è unico (2).2, e quindi in questo secondo caso si deve effettuare una scelta. La costante C prende il nome di mediana, ed è quel valore in corrispondenza del quale la funzione di distribuzione vale 0,5, al di sotto o al disopra la proporzione dei casi vale 0,5. Dato quindi un supporto ordinato in maniera crescente la mediana è il più piccolo valore del supporto tale per cui la funzione di ripartizione vale 0,5 oppure supera 0,5 per la prima volta. (3) Media aritmetica è la più importante delle medie statistiche poiché gode di molte proprietà soprattutto dal punto di vista inferenziale. Non è possibile trattare in maniera completa la media aritmetica, poiché interessa la convergenza di variabili casuali e l’integrazione secondo Ledesche. Il calcolo più facile della media riguarda le variabili continue in classi (4). Le variabili discrete prevedono un differente calcolo (5). Per le variabili teoriche la media aritmetica si calcola generalizzando il caso (5) con una unica classe, data dall’asse dei reali. Quantili di una distribuzione un quantile è data una distribuzione di frequenza di voler determinare un numero al di sotto del quale abbiamo una frequenza dei casi pari a p e al di sopra cade una frequenza dei casi pari a 1-p, il numero si chiama x p, questo numero si chiama quantile di ordine p e divide la distribuzione in due sottoinsieme nel primo dei quali abbimo una frequenza dei casi pari a p e nell’altro pari a 1-p. La mediana non è altro che un caso particolare d quantile cioè quando p è uguale a 0,5, e si sviluppa allo stesso modo della mediana. 6 Appunti statistica Quarta settimana 1 Appunti del 16/10/2012 Principali caratteristiche di cui godono gli indici di sintesi considerati, moda, media e media aritmetica, senza considerare la moda va detto che le caratteristiche della mediana e della media aritmetica sono: • Mediana: è un indice che, a prescindere dalla variabile considerata, continua o discreta, non risente della presenza di eventuali valori anomali estremi (1), nota anche come media robusta. • Media aritmetica: è il più importante dei valori di sintesi o medie sinora considerate, gode di molte proprietà: la prima è quella del baricentro (2), ciò implica che data la sommatoria degli scarti tra le modalità, rispetto alla media aritmetica, la somma degli scarti moltiplicata per le rispettive frequenze relative avremo come risultante zero; un'altra proprietà della media aritmetica è nota come internalità (3) la media aritmetica è un valore compreso tra la più piccola modalità osservata, noti anche come estremi del supporto della variabile; la terza proprietà prevede che vi sia una relazione nella trasformazione lineare di una variabile, cioè data una variabile e trasformandola linearmente anche la media della variabile subisce la tessa trasformazione (4), tale proprietà permette di cambiare l’unità di misura o di traslare avanti e indietro l’origine della variabile x, in generale la trasformazione lineare permetti di determinare che la media di una variabile trasformata corrispondi alla trasformazione della media della variabile; cosa accade quando non trattiamo una trasformazione lineare (5 da completare), risulta quindi che le due opzioni considerate non coincidono; proprietà associativa (6), data un collettivo e volendo suddividere in due gruppi avremo una situazione come da schema (6.1), date quindi la media all’interno del collettivo avremo (6.2), e poi all’interno di entrambi i due sottogruppi, (6.3) la proprietà associativa impone che data la media aritmetica delle medie dei gruppi essa coincide con la media generale. Dato quindi un collettivo suddiviso in k gruppi per k>1 allora la media aritmetica del collettivo equivale alla media aritmetica delle medie dei singoli gruppi, generalizzazione (7). 2 Appunti del 17/10/2012 (1) Media potenziata di ordine s poiché il suo valore dipende dal valore di s, da questa formula derivano tutte le medie numeriche calcolabili di una distribuzione, il limite imposto di s diverso da zero la formula è priva di significato, analizzando però il limite per s che tende a zero della media potenziata esso esiste ed è uguale alla seguente espressione, (sempre in esempio uno, il limite è però valido solamente considerando valori positivi di valori di xi, che perde di significato per altre modalità uguali a zero e non esiste per i valori negativi. Quanto definito prende il nome di media geometrica. Valida non nel valore zero ma per il limite del valore stesso. (2) Se poi alla s si sostituisce il valore uno la media potenziata di primo ordine corrisponde alla media aritmetica, nel caso di s=2 si chiama media quadratica, nel caso di s=3 si parla di media cubica, in s=0 si parla di media geometrica, per s=-1 si parla di media armonica. (3) La media potenziale è poi dotata della proprietà della infernalità, cioè se x min e xmax, indicano gli estremi della variabile risulta che la media potenziata di ordine s è compresa tra i due valori, xmin<(media)<xmax, vedi operazione di verifica. (4) La seconda e ultima proprietà è quella della monotonicità, tale proprietà vuole che la media potenziata assuma valori che sono dipendenti da s, se s aumenta anche la media potenziata si muove nella stessa direzione, se s si muove in modo decrescente anche la media potenziata si muoverà nella stessa direzione. Altro metodo di calcolo per le costanti di sintesi, derivanti dai diversi approcci storicamente determinati per creare le costanti di sintesi, in particolare in questo caso ci occuperemo del metodo derivante dalla natura del problema, o noto anche come media di Chisini, questo metodo prevede come esempio una situazione in cui la costante di sintesi oltre all’obbiettivo di riassumere una distribuzione o un insieme di numeri deve svolgere anche un altro compito, cioè quello di soddisfare un vincolo imposto sui numeri, come definito in maniera poco formale può essere definito come (5), la media quindi che sintetizza il gruppo principali è quella costante c che sostituita ad ogni elemento della successione realizza un’uguaglianza, cioè il valore assunto nella successione deve essere uguale al valore assunto ad ogni numero della stesso sostituendo la costante c. (6) Considerando un rettangolo con lati 10 e 5 qual è la media di due lati, considerando la definizione data sino ad ora potrà coincidere a uno dei valori di sintesi, volendo però calcolare la lunghezza media che lascia inalterato il perimetro del rettangolo allora non è possibile definire una qualsiasi media, ma una in particolare, cioè quella che realizza una certa condizione, oltre a sintetizzare i due numeri, il perimetro si presenta come il doppio delle due variabili sommate, e dipende quindi dai valori di cui sto cercando la media, si può quindi considerare che questa particolare combinazione di numeri, il calcolo del perimetro sia raffrontabile al raggruppamento del gruppo principale, per trovare il lato medio devo sostituire alla funzione il valore c, con relativo confronto alla relativa formula del perimetro sostituendo a entrambi i valori c, trovando quindi il lato medio. (7) Esempio della sintesi Chisiana, dato un insieme di reddito e una funzione di spesa, si vuole calcolare il reddito medio che lascia inalterata la spesa totale per l’acquisto di un dato prodotto. (8) Secondo esempio della sintesi Chisiana, dato il costo di produzione di un bene, il costo di produzione è poi legato al contenuto di materia prima del bene secondo una relazione, 3 date n scatole di prodotto da realizzare si vuole calcolare il contenuto medio che lascia invariato il costo totale di produzione. Formalizzando in maniera precisa la media secondo Chisini può essere definita come: data una successione di n numeri ed una loro funzione, la costane c è la media della successione rispetto alla funzione, quando sostituendo c ad ogni elemento della successione si verifica la condizione invariante. Finisce la parte della statistica relativa alla sintesi dei dati. Variabilità. (9) Data una distribuzione di dati e una media, costante c, quanto una media rappresenta la funzione è una buona o una cattiva sintesi della realtà? Data una media esse è o perlomeno non rappresenta, nonostante l’utilizzo di particolari criteri, in alcun modo la reale situazione. È quindi lecita la domanda che trova risposta tramite una serie di indici che permettono di stabilire se una costante sintetizza o meno la funzione. (10) Dato l’esempio abbiamo una situazione come la seconda dove la situazione riassunta è rappresentata dalla sintesi, e altre situazioni, completamente opposte, dove la media assume lo stesso valore. Per individuare gli indici al punto (9), prevede l’utilizzo: 1) di un metodo detto come variabilità da un centro, misura la distanza che intercorre tra la distribuzione di frequenza e la costante c. tanto più piccola è la distanza tanto più la media sintetizza la distribuzione. 2) Il secondo approccio prende il nome di mutua variabilità, prevede la quantificazione di quanto le variabili osservate tra di loro sono diverse, tanto più esse sono diverse tanto più la costante c rappresenta la funzione, tanto più esse si avvicinano tanto aumenta la capacità di sintesi di c. Variabilità da un centro da questo primo approccio derivano degli indici che misurano la distanza della costante c dalla realtà, gli indici, che misurano la distanza tra la situazione effettivamente osservata e quella fittizia, devono essere uguali a zero in assenza di variabilità, quando la costante c riassume la realtà senza commettere errore, e di assumere valore positivi crescenti allontanandosi da questa situazione. (11) Indici di variabilità secondo l’approccio della variabilità da un centro, essi devono essere uguali a zero se la sintesi avviene senza commettere alcun errore e essere positivi con valori crescenti in presenza e al crescere della variabilità. Questi indici sono molti e dipendono da c, se la costante c è la mediana, l’indice di variabilità è il seguente (vedi foglio), considerando la media aritmetica avremo (12) 4 Appunti del 18/10/2012 Proprietà della varianza, che per definizione è data dalla formula (2) manipolando la funzione di varianza la si può definire, invece di media di scarti quadrati può essere definita come media d valori già conosciuti (3). Dimostrazione di linearità del fattore varianza (4.1), dimostrazione per la traslazione, (4.2) dimostrazione per la moltiplicazione per una costante, le due proprietà possono poi essere considerate congiuntamente (4.3), proprietà già riconosciuta per la media. Bienaymé-Chebichev (5), autori di un teorema che parte da una variabile di cui non è nota la distribuzione, di cui sono però note la media aritmetica che la varianza, data quindi una costante positiva a sostiene che considerando la frequenza dei casi più piccoli o pari di Y-a, e si aggiunge la frequenza dei casi di x maggiore o uguale a Y+a, tale valore sarà più piccola del rapporto tra la varianza e la costante a2. Dato il supporto della variabile diviso in due gruppi abbiamo nel primo tutte le modalità in cui gli scarti dalla media superano o sono uguali ad a, nella secondo gruppo le restanti modalità, scriveremo poi la funzione di varianza come la sommatoria riferita alle modalità di uno dei due insiemi. Data questa operazione è possibile sottolineare che la prima è una somma di scarti al quadrato, quindi positivo o al limite pari a zero, anche considerando la definizione di varianza, la stessa cosa accade con la seconda sommatoria, si mantiene poi l’uguaglianza cancellando la seconda sommatoria considerata, la varianza è quindi uguale o meno alla somma degli scarti riferiti alle modalità solamente contenuta in A, no poiché sono entrambi superiori o uguali a zero, si può constatare però che cancellando la seconda sommatoria abbiamo che la varianza della variabili sarà più grande o coincidente alla variabile considerata. Dato quindi il valore (6) elevando al quadrato entrambi i membri si mantiene il segno dell’uguaglianza, stessa cosa avviene moltiplicando a destra e sinistra per la generica P i stessa cosa succede sommando una stessa variabile relativa alle modalità di A in entrambi i valori dell’uguaglianza. La varianza è la media di una particolare variabile, data dalla media di una variabile meno la relativa media elevata al quadrato. 5 Appunti statistica Quinta settimana 1 Appunti del 23/10/2012 Analisi della variabilità di un fenomeno considerando la variabilità dal centro, data una media che sintetizza la distribuzione è necessario definire il grado di sintesi insito nella media, si è poi detto che la variabilità può essere misurata tramite un secondo approccio cioè la mutua variabilità (1), nella variabilità da un centro si considerava la distanza tra c e il centro, con la mutua variabilità si misurerà la differenza tra le modalità osservate, i due metodi possono essere ricondotti, difatti allontanando c dalla distribuzione cresce la disuguaglianza tra le modalità, insieme di valori, e le differenze che vi intercorrono. Gli indici derivanti da questo approccio devono avere determinate caratteristiche (2), è necessario quindi stabilire una misura del grado con il quale, considerando due generiche modalità, esse sono tra di loro diverse, (3) il modo più semplice per individuare quindi questi indici è quello di considerare tutte le possibili diversità, tra le modalità di una distribuzione e dopo farne una media aritmetica, il risultato di questa operazione sarà un valore che soddisfa le condizioni di cui al punto (2), sarà difatti uguale a zero in presenza di differenze pari a zero, e con valori positivi e crescenti man mano che le diversità diventano positive e crescono. È necessario quindi formalizzare il calcolo della diversità tra due generiche modalità, il modo più semplice è effettuare le differenze tra le due modalità, per ogni valore possibile, fratto il numero totale di differenze effettuate. (4) Data quindi una tabella a doppia entrata, con tutte le possibili differenze, (5) supponendo di partire anziché da una distribuzione di frequenza dall’insieme dei dati in forma elementare, distribuite poi sulle righe e sulle colonne di una tabella a doppia entrata. Dopo di che la tabella va sviluppata considerando le diversità, tra due generiche osservazioni, supponendo di misurare la diversità tra le due generiche osservazioni tramite una differenza. Nel caso pratico avremo (5.1), nella diagonale principale, come da esempio, nel caso particolare un’osservazione meno se stessa, danno come risultato un’osservazione nulla, a prescindere dal modo di esplicitazione della diversità. Il primo indice di variabilità si calcola quindi tramite la media aritmetica di tutte le diversità osservate nella tabella pratica, le differenze vanno prima sommate e poi divise per il numero totale di differenze considerate, quadrato del numero delle osservazioni. L’indice si definito soddisfa le caratteristiche di cui al punto (2), poiché ha valore zero in assenza di variabilità tra i valori, assumerà quindi un valore sempre e comunque pari a zero, malgrado quindi il grado di variabilità del fenomeno, che è nullo solamente in presenza di variabili banali con osservazioni che quindi coincidono, anche in presenza di variabilità. Per eliminare questo inconveniente è necessario considerare le differenze in valore assoluto, cioè a prescindere dal segno osservato (5.2). Da ciò deriva quindi la seguente formula (5.3). Questo indice prende il nome di indice di differenza media assoluta con ripetizione, con ripetizione per distinguerlo da un altro indice, che prende il nome di indice di differenza media assoluta senza ripetizione, il termine ripetizione deriva dal fatto che sulla diagonale principale di questa tabella, sii trova sempre lo stesso valore, che sarà sempre pari a zero o nullo, poiché dato dalla differenza tra un’osservazione e se stessa. Si può quindi evitare di considerare le differenze che si trovano sulla diagonale principale, e indicabili come (5.4). Da ciò avremo che le osservazioni che danno risultato zero possono essere escluse dal conteggio della base della media determinando la funzione, l’indice si detto e determinato si indica con un (delta) (5.5). determinando quindi l’indice di differenza media assoluta senza ripetizione, l’unica differenza è che il numero di differenze da considerare senza ripetizione, prevede una sottrazione di n da n2. Entrambi gli indici danno risultato quindi zero qualora non vi sia variabilità e valori positivi e crescenza e al crescere della variabilità. dato l’indice 2 di differenza media assoluta con ripetizione e moltiplicato per n/n-1, otteniamo l’indice dii differenza media assoluta senza riptezione. Gli indici sino ad ora considerati derivano da dati in forma elementare, data come situazione di partenza una distribuzione di frequenza, relativa a una variabile descritta, avremo quindi che (6). Osservando quindi la tabella avremo delle righe e delle colonne che si ripetono, prima seconda, terza quarta e quinta, con una sesta differente e indipendente le righe simili possono essere raggruppate passando da una tabella in forma estesa a una concentrata, sintesi di quella di partenza, si devono quindi aggregare le righe e le colonne ripetute, otterremo quindi (6.1), parziale raggruppando solamente le colonne, moltiplicando ogni elemento della colonna che si ripete per il numero di volte in cui osserviamo la colonna considerata. Fatto questo processo le osservazioni di considerare sono quelle totali ma il supporto della variabile considerata. A questo punto lo stessa operazione può essere svolta per le righe, (6.2). questa ultima tabella ha sia sulle righe che sulle colonne i valori del supporto della variabile, e all’interno si trovano tutti i valori ottenibili tramite la differenza tra due generiche modalità della variabile, non più considerando quindi le osservazioni, le differenze sono poi moltiplicate per due numeri, che coincidono con le frequenze assolute associate alle modalità di cui si considera la differenza. Calcolare quindi le differenze dei dati in forma elementare coincide con la differenze di tutte le modalità di una variabile per le volte in cui le due modalità sono osservate. Da cui deriva la seguente formula (6.3). considerando l’indice con ripetizione è possibile semplificare le frequenze al numeratore con il numero totale di osservazioni, scrivendo N2=N*N avremo che (6.4). Quanto detto è valido per una variabile discreta, data una variabile continua è necessario sostituire alle due generiche modalità i valori centrali delle classi. La notazione cambia poiché al posto di XI e XJ verranno inseriti: XI* e XJ*. Gli indici appena definiti sono solamente alcuni di quelli determinabili tramite il confronto delle osservazioni, o le modalità di una distribuzione, tutto ciò dipende da come viene esplicitata la differenza tra due generiche modalità. Sinora si è considerato solamente il caso particolare di esplicitazione come differenza semplice in valore assoluto, |XI-XJ|, a questo valore si può sostituire il quadrato delle differenze, |XI-XJ|2 definendo quindi l’indice di differenza media assoluta quadratica. A prescindere dai casi particolari esplicitando la differenza come |XI-XJ|s troveremo l’indice di differenza media assoluta di ordine S, tutto ciò per S diverso da zero. • Considerando il caso S=1 abbiamo l’indice di partenza. • Considerando il caso S=2 abbiamo l’indice di differenza assoluta quadratica. Considerando il limite dell’indice di differenza media assoluta di ordine S esso esiste e corrisponde il valore di massima differenza riscontrabile tra le modalità della variabile, questa differenza prende il nome di range, ed è anche esso un indice di variabilità, e prende anche il nome di indice campo di esistenza o indice di definizione, essa corrisponde anche alla differenza tra la più grande e la più piccola delle modalità. 3 Appunti del 24/10/2012 Differenza interquantile, il concetto di quantile è relativo ad Xp 0<p<1, determinando quindi il quantile di ordine p numero che divide la distribuzione in due sottoinsieme nel primo con una frequenza dei casi pari a p, nel secondo con una frequenza dei casi pari a 1-p. Dato quindi il concetto di quantile avremo caso particolari riferendosi ai decili, tali valori dividono la sequenza in dieci gruppi con la stessa frequenza dei casi, avremo difatti X0,1, X0,2, …, X0,9. Un concetto simile si ha per i percentili che dividono la suddivisioni in certo parti equivalenti, X 0,01, X0,02, …, X0,99. Abbiamo poi i quartili, quantili di ordine 0,25, 0,5 e 0,75, nel primo caso avremo il primo quarto di distribuzione, nel secondo la mediana o metà della distribuzione del totale, il terzo non è altro che l’inversione del primo. Con la differenza interquantile determiniamo la differenza tra il terzo quartile di ordine 0,75 e il primo quantile cioè quello di ordine 0,25, tale indice, data la modalità di calcolo, esclude dal calcolo della variabilità del fenomeno il 25% dei casi inferiori e il 25% dei casi superiori, escludendo quindi le code della distribuzione. Concludendo il discorso sugli indici di mutua variabilità si deve considerare un indice, che a differenza degli altri espressi nello stesso valore della scala di misura, ciò fa si che volendo confrontare due fenomeni con scale di misura diverso ciò non è possibile. volendo confrontare due fenomeni con scale di misura diversi è necessario trovare un indice di variabilità non influenzato dalla scala di misura. Per fare ciò è necessario dividere un qualsiasi indice di variabilità per un altro indice espresso nella stessa scala di misura, determinando quindi un indice puro non influenzato dalla scala di misura, il più importante di questi indici è (1) ed è noto come coefficiente di variazione. Data il seguente caso pratico (2) si determinano quindi i quantili come nel caso della mediana salvo cambiare il secondo valore di riferimento, quanto detto è valido per una variabile continua ma si semplifica nel caso di una variabile discreta, (3).ù Variabilità da un centro, o da una media, in questo caso si stabilisce quanto la media era o meno distante dalla media di distribuzione. Mutua variabilità: si confrontano le modalità per comprendere quanto esse sono effettivamente diverse. I due modi sembrano diversi anche se si presentano come complementare l’uno all’altro, difatti considerando l’indice di differenza media quadratica con ripetizione, indice di mutua variabilità, si dimostra che vale la seguente relazione (4), eguagliando tale valore con la deviazione standard moltiplicata per la radice di due, ciò impone un’uguaglianza tra due indici dei due casi considerati, mutua variabilità contro variabilità da un centro. Va quindi definita la variabilità di un fenomeno come l’attitudine di un fenomeno stesso di manifestarsi come unità differenzi nelle diverse unità del collettivo. Esempio di coefficiente di variazione (5). Analisi della concentrazione, metodologia diverso rispetto a quelle considerate di valutare la variabilità di un fenomeno, approccio ulteriore, rientra nell’ambito della misura della variabilità di un fenomeno. Si parla di una variabile, presente solo per particolari tipi di variabili, cioè variabili trasferibili da un soggetto ad un altro, contrapposti a quelli che non possono essere traferiti tra individui. Sino ad ora la variabilità era calcolabile su ognuno dei caratteri prima indicati, adesso si sposta il centro dell’analisi sui caratteri trasferibili o cedibili. Tali caratteri si considerano equi distribuiti o non 4 concentrati se l’ammontare complessivo è suddiviso in parti uguali fra le N unità del collettivo. Se questa ipotesi non si verifica diremo che il carattere è concentrato, esiste cioè almeno un individuo all’interno della popolazione che ha un ammontare di carattere maggiore rispetto a quello posseduto dagli altri, in questa situazione può essere interessante valutare di quanto è concentrato questo carattere. Supponendo la presenza di dati in forma elementare avremo che (6), popolazione di cinque individui a cui è stato chiesto il reddito mensile. L’obbiettivo è quindi di quantificare la distribuzione del carattere considerato, nell’ipotesi più estrema, opposta all’equi distribuzione, nota come massima distribuzione e prevede il caso (6.1), cioè qualora un individuo abbia concentrato su di esso l’ammontare complessivo del carattere. Va quindi determinato un indice che esprima la concentrazione del carattere nella popolazione. Data quindi la condizione generale avremo che (7). Il valore QI indica la frazione di carattere posseduto dalle prime I unità, FI indica il rapporto tra le I unità considerate e il numero totale di unità tale valore è detto anche frequenza cumulata Tornando all’esempio pratico avremo che (8). Verranno interpretati come che il valore F I del collettivo possiede un ammontare complessivo del carattere pari al relativo Q I. l’introduzione di frequenze, FI e le frazioni cumulate sono l’elemento fondamentale per calcolare la concentrazione di un carattere in una popolazione. 5 Appunti del 25/10/2012 (1) Ogni valore corrisponde quindi al precedente più un valore minimo in rapporto del totale. (2) Dato quindi Fi può essere scritto come. Muovendosi la x da 1 a n sia Qi sia Fi assumono valori crescenti per un ordine già evidenziato. (3) La frequenza cumulata, Fi, assume poi un valore sempre maggiore o al limite uguale a Qi, il simbolo di uguaglianza si ha in due situazione particolari, in primis quando le due quantità sono calcolate per i pari a n, un altro caso di uguaglianza si ha in presenza di un carattere equi distribuito. Nel caso di Qi dopo le opportune sostituzioni avremo che (3.1), xi poi corrisponde alla media del carattere stesso, data quindi la sostituzione avremo al numeratore la somma di una costante, che in questo caso corrisponde a i*Y, al denominatore allo stesso modo avremo n*Y, date le opportune semplificazioni avremo come risultato i/N che corrisponde a Fi. (4) Data quindi la sequenza dei dati sistemati in maniera ordinata è possibile dividere la sequenza in due sottoinsieme, nel primo, A, avremo le prime i osservazioni, nell’altro insieme, B, le restanti osservazioni, nell’insieme A avremo quindi i elementi, nel secondo, B, avremo n-i osservazioni. Analizzando quindi la media aritmetica delle osservazioni nel primo insieme e la definiamo come Y(i) e indichiamo Y(n-i) la media del secondo sottoinsieme, indicando quindi Y come la media dell’insieme generale unito, facendo riferimento alla proprietà associativa della media e quella della internalità, risulta che la media Y(i)<=Y<=Y(n-1), il caso = non viene generalmente considerato poiché parte dell’analisi del caso di una variabile banale. Analizzando solamente la prima parte della disuguaglianza avremo che: (5) Y>Y(i), data la rielaborazione risulterà verificato che Fi assume un valore generalmente più grande di Qi. Data quindi una variabile concentrata al crescere la differenza tra Fi e Qi tanto più la variabile è concentrata all’interno della popolazione (6). Si rappresenta quindi la condizione di equi distribuzione, cioè quando Fi e Qi coincidono, situazione osservabile con un variabile equi distribuita o banale, in questo caso avremo la bisettrice del quadrante, rappresenteremo poi la situazione effettivamente osservata con Fi>Qi, determineremo quindi la retta di equi distribuzione. Osservando invece la rappresentazione della situazione effettivamente osservata avremo la spezzata di concentrazione; tutto il sistema effettivamente osservato nel grafico va sotto il nome di curva di Lorenz. All’aumentare della concertazione cresce il divario tra la retta di equi distribuzione e la spezzata di concentrazione. (7) Tornando quindi al caso base e ipotizzando un sistema di equi distribuzione avremo la seguente dimostrazione. Ove spezzata e retta di equi distribuzione sono coincidente aumentando la concertazione avremo una suddivisione semplice del primo reddito tra le restanti unità. (8) aumentando ancora avremo che (9). Aumentando ancora la concentrazione avremo che (10). Aumentando la distribuzione ancora avremo l’ipotesi di massima distribuzione (11). L’andamento della differenza tra la retta di equi distribuzione e la spezzata di concentrazione diventa massima, abbassandosi e avvicinandosi sempre di più all’asse delle ascisse. (12) Il grado di concentrazione della variabile, dato l’esempio appena considerato, (8-11), e abbiamo che all’aumentare della concertazione la spezzata di distribuzione si avvicina all’asse delle x il modo più semplice quindi per calcolare la distribuzione di un dato avremo che il modo più semplice è determinare l’area compresa la spezzata di 6 (13) (15) contrazione e la retta di equi distribuzione, che cresce all’aumentare del grado di concentrazione. Calcoleremo in primis l’area sottostante la retta di equi distribuzione, a cui toglieremo l’area sottostante la spezzata di distribuzione. Determinando quindi l’area compresa tra la retta e la spezzata. Nel primo, area sottostante al retta di equi distribuzione. caso l’area corrisponderà all’area del triangolo con base pari a uno e altezza pari a uno, determinando un’area di ½. L’area sottostante la spezzata di concentrazione è più complesso, sii parte dai punti di coordinate (Fi;Qi) date tutte le combinazioni possibili (i;i), collegandoli con i rispettivi valori dati da (Fi;0), l’area sottostante la spezzata di distribuzione si può calcolare tramite la somma delle aree delle figure geometriche determinate dalla spezzata di distribuzione e la retta che la connette all’asse delle ascisse. Nel primo avremo, come per la prima area, che è triangolare, (F1*Q1)/2, nel secondo avremo, data la figura generata che è un trapezio avremo, ((Q1+Q2)(F2-F1))/2, la stessa cosa accade con le figure geometriche generatesi successivamente sommeremo le aree generate e le sottrarremo all’area prima determinate. L’area del generico i esimo trapezio avremo che: ((Qi+1+Qi)(Fi+1-Fi))/2. Avremo poi l’area al di sotto della spezzata di distribuzione, come sommatoria delle aree appena definite. Avremo in definitiva l’area sottostante la retta di equi distribuzione e la spezzata di concentrazione. Il valore è zero in caso di equidistribuzione e ha valori superiori all’aumentare della distribuzione. È quindi possibile, derivando la funzione, determinare un indice con valori compresi tra 0 e 1, 0 in assenza di concentrazione, equi distribuzione, e uno se la variabile è massimamente concentrata. Ciò si otterrà dividendo l’indice R, che vale 0 in assenza di concentrazione e un certo MaxR in caso di variabile massimamente concentrata. Dividendo il tutto per il valore di massima concentrazione avremo quindi un valore compreso tra zero e uno. Tale indice detto è detto normalizzato. Il valore di MaxR tornando all’esempio pratico, ove il reddito è raggruppato totalmente nelle mani di un individuo avremo che (14). La formula di R/MaxR può esse scritta considerando solo la parte superiore. Considerando invece il calcolo della concentrazione partendo da distribuzione di frequenza abbiamo gli stessi calcoli, poiché la concentrazione di frequenza è una derivata dei dati elementari, cambiano solamente le metodologia di calcolo di Fi e Qi che invece di essere calcolate in presenza di ogni osservazione vengono calcolate sul valore totale. 7 Appunti statistica Sesta settimana 1 Appunti del 30/10/2012 Inizio della seconda parte del corso si inizia l’analisi statistica bivariata, tale analisi considera due variabili, sino ad ora se ne è considerata sempre una, dicasi analisi univariata, l’analisi si complica considerando congiuntamente due variabili. Si parte dagli stessi dati iniziali, una popolazione di riferimento sulla quale si rilevano due variabili, determinando due insiemi di osservazioni, il primo insieme o x contiene le informazioni relative alla prima, abbiamo il secondo insieme y che contiene le informazioni di una seconda variabile. Il primo passo prevede il passaggio dai dati in forma grezza alla distribuzioni di frequenza delle due variabili, congiuntamente. Riprendendo i dati di inizio corso consideriamo un’analisi basata sul titolo di studio, inteso come x, e la condizione professionale, y, analizzate congiuntamente nel collettivo di cinquanta individui. 1. I dati vanno quindi organizzati, che data la presenza di due variabili avviene tramite l’elaborazione di una tabella a doppia entrata, simile a quella introdotta negli indici di differenza, sulle righe o sulle colonne vanno quindi sistemati i supporti delle due variabili. Si deve quindi compilare la tabella con quelle che si chiamano frequenze congiunte, tale frequenze indicano il numero delle volte che si osserva una modalità di una variabile e una modalità dell’altra variabile, ciò in combinazione lineare. Una volta completata la tabella a doppia entrata con il calcolo delle frequenze congiunte tale tabella viene completata con i totali di riga e di colonna. I valori della tabella sono definiti come frequenze incrociate. Le somme di riga e di colonna sono chiamate frequenze marginali di riga e frequenze marginali di colonna. Quanto detto può essere generalizzato come segue (2). Quanto detto è valido per le frequenze assolute, dividendo la generica frequenza congiunta per il numero totale di osservazioni, n determiniamo, dalla distribuzione di frequenza assoluta, la distribuzione di frequenza relativa, dicasi distribuzione doppia delle frequenze relative. 3. Oltre alla distribuzione congiunta, a prescindere, dalla natura, a frequenze assolute o relativa, partendo dallo stesso schema, si possono determinare le distribuzioni condizionate. Tali valori non sono altro che le distribuzioni di frequenza di una variabile qualora si consideri solamente una modalità dell’altra variabile. Determineremo la distribuzione di frequenza di una variabile della quale si consideri solamente il gruppo rappresentato da una modalità dell’altra variabile. Tale valore si chiama distribuzione condizionata, condizionata alla distribuzione di frequenza, come unica condizione di riferimento. Tale distribuzione considera quindi una qualsiasi riga o colonna a seconda del punto di riferimento. Determineremo una condizione come quella (4). L’analisi della distribuzione congiunta, anche detta bivariata, consiste nell’andare a verificare se le variabili si influenzano tra di loro, e successivamente, data la natura delel variabili, determinare il legame funzionale tra le due variabili, si hanno quindi due piani alternativi, il più semplice verifica, date due variabili, distribuzione congiunta se si influenzano tra di loro, le fasi successive, in funzione della natura delle due variabili, permettono di individuare il tipo di influenza esistente tra le due variabili. Data una distribuzione di frequenza congiunta, senza specificare la natura delle due variabili, dato generico senza specificazione, cioè data la distribuzione congiunta se le distribuzioni condizionali, sono tutte uguali tra di loro, e coincide la distribuzione condizionata con la distribuzione marginale della variabile, allora diremo che la variabile è indipendente dall’altra. Data l’assenza di questa condizione, per almeno una delle distribuzioni condizionate di X allora la variabile Y influenza la 2 prima, cioè la variabile X vi è cioè una certa dipendenza, quanto detto è valido anche per la variabile Y. (5). Dato quindi il caso pratico avremo (6). 3 Appunti del 21/10/2012 Ragionamento sulla dipendenza di due variabile dati difatti distribuzione condizionati uguali che coincidono con la distribuzione marginale si ha una condizione di indipendenza delle due variabili, per fini pratici esiste un metodo più semplice per la verifica dell’indipendenza, volendo specificare le tipologie di dipendenza e indipendenza si considererà per ora l’indipendenza assoluta, differente da quella in media. Il metodo di calcolo è il seguente (1) partendo difatti dalle distribuzioni condizionate, e volendo determinare l’indipendenza della variabile y secondo le modalità di x. Data difatti la tabella di distribuzione condizionata, esclusa quella marginale, che raccoglie tutte le frequenze condizionate, è possibile notare che nella prima distribuzione condizionata il primo indice di frequenza è costante, è uguale anche all’indice presente al numeratore, ciò è valido per ogni riga considerata, tale distribuzioni possono essere unite sostituendo all’indice di riga un valore i incluso tra uno e due, avremo quindi, si schiacciano nel senso delle righe le frequenze condizionate.(2). Data quindi la prima operazione di sintesi avremo che le frequenze condizionate, e quelle marginali possono a loro volta essere sommata sostituendo ai numeretti l’indice di colonna inteso come j e che comprende i valori delle tre colonne, si schiaccia nel senso delle le colonne le frequenze condizionate (3). Tutta l’operazione di confronto sarà quindi ridotta alla valutazione della generica frequenza condizionata che deve coincidere con la generica frequenza marginale, riordinando il sistema avremo che (4). Lo stesso processo si sviluppa identico per la x, basta considerare le distribuzioni condizionate della variabile x alle modalità dell’altra variabile ottenendo un risultato che è (5), condizione uguale al caso dell’indipendenza dell’altra variabile. L’assenza dell’uguaglianza determina la condizione di dipendenza che prevede come passo successivo la quantificazione del grado di dipendenza. La dipendenza come detto può avere vari gradi, il limite massimo indica come: variabili massimamente dipendenti. (6) quanto indicato è una situazione di massima dipendenza poiché data una modalità di una variabile ad essa ne corrisponde solamente una dell’altra variabile, in ogni possibile verso di osservazione. Dicasi massima dipendenza reciproca. La possibilità di una massima dipendente reciproca si ha solamente quando le variabili x e y hanno lo stesso numero di modalità, si parlerebbe di massima dipendenza unilaterale e non reciproca (7). Come si misura quindi la forza del legame esistente tra le due variabili avremo (7). È necessario quindi verificare la dipendenza o indipendenza, per poi quantificarne il grado. Costruiamo quindi, invece di determinare le frequenze condizionate, una seconda tabella congiunta, chiamata, tabella congiunta delle frequenze teoriche, sotto l’ipotesi di variabili tra di loro indipendenti, (8). Dato che almeno una delle frequenze teoriche e quelle osservate determiniamo dipendenza tra le due variabili. Volendo quantificare il grado di influenza delle due variabili che nel modo più semplice è sufficiente determinare un indice che sottolinei la distanza tra la tabella delle frequenze osservate rispetto alla tabella delle variabili teoriche. Data una distanza nulla l’indice di dipendenza, come da definizione teorica diventa zero sottolineando indipendenza allontanandosi l’indice di distanza assume valori crescenti che indicano la forza del legame esistente tra le due variabili. L’indice con più successo, poiché gode di molte proprietà è quella nota come (9), l’indice ha molti pregi dal punto di vista inferenziale salvo un fondamentale difetto come da esempio (10) tale indice ha il difetto però di risentire del numero e del valore delle osservazioni, la situazione ha le stesse frequenze relative e quindi la stessa dipendenza, determinando le frequenze teoriche avremo (12), dato il calcolo di chi-quadro avremo che (13), l’eliminazione di tale inconveniente si fa dividendo 4 l’indice Chi-quadrato per il numero totale delle osservazioni, tale indice prende il nome di Phiquadrato (14), difatti a parità di dipendenza l’indice cresce al crescere del numero di osservazioni, dato questo il grado di dipendenza delle situazioni reali considerate al punto (7) e (8) avremo che (11). Considerando gli indici chi-quadrato e phi-quadrato, e riprendendo la formula del chi-quadrato, svolgendo il quadrato al numeratore avremo che (15) il calcolo è più immediato perché per tale calcolo non si ricorre alle frequenze teoriche si può calcolare quindi la dipendenza utilizzando solo e direttamente le frequenze congiunte. 5 Appunti Statistica Settima settimana 1 Appunti del 06/11/2012 Dato l’indice Y2 è necessario calcolare i gradi di dipendenza unilaterali, cioè la forza con cui una variabile attrae o dipende dall’altra. Partendo quindi dall’indice Y2 si devi misurare la dipendenza unilatera, di una variabile rispetto all’altra, considerando quindi una situazione semplice, supponendo di considerare una condizione di massima dipendenza della variabile x dalla variabile y, la cui situazione più semplice è (1), la massima dipendenza è della variabile x dalla variabile y, difatti considerando una variabilità di x corrisponde solo una modalità di y, ma non si verifica il contrario. La marginale di riga coincide con l’unica frequenza di riga presente nel sistema, per misurare la dipendenza unilaterale quindi si considererà l’indice Y2, calcolato nella particolare situazione di massima dipendenza della x dalla y, dato quindi l’indice Y2 (2). Sommando quindi la generica frequenza congiunta secondo il generico indice di riga ci troveremo nella condizione in cui (3), l’indice quindi che si definisce in tale punto misura proprio la forza con la quale la variabile x attrae la variabile y e si indica come (3). Dipendenza della variabile y dalla variabile x, considerando sempre una condizione semplice e facilmente generalizzabile avremo (4), situazione inversa, righe e colonne rispetto alla precedente. Ad ogni y corrisponde una x ma non viceversa, per misurare la forza dell’attrazione si calcolerà l’indice Y2, considerando questa condizione particolare (5) ci ritroveremo quindi nella condizione in cui (6) La ruotazione della sommatoria secondo l’indice di rega nel primo caso, e di colonna nel secondo caso avremo che (7) In una condizione di massima dipendenza, a prescindere che sia della x o della y, il masso dei valori che potrà assumere Y2, coinciderà sarà minore o uguale a k-1 o m-1, dividendo quindi Y2 per il proprio massimo valore, il minore tra k-1 e m-1, si otterrà un indice di dipendenza reciproca che varrà zero in presenza di variabili indipendente ma avrà volere uno in caso di massima dipendenza, reciproca o unilaterale (8). Analisi più semplici di variabili congiunte, a prescindere dalla natura della stessa, analisi sempre possibile, prescinde la natura delle variabili, data però variabili numeriche allora l’analisi della dipendenza può essere approfondito, suppon3endo ad esempio che uno delle due variabili sia quantitativa, nel nostra esempio la y, (9). Della variabile numerica si possono calcolare molti indici, ad esempio la media della distribuzione marginale (10) calcolabile sia considerando la distribuzione marginale, sia condizionando il calcolo alle distribuzioni condizionate secondo il valore di x (11). Date medie condizionate della variabile y al variare delle modalità dell’altra variabile, sono tutte uguali tra di loro e coincidono con la media della distribuzione marginale della variabile si ha l’indipendenza in media dalla variabile x. Se uno dei valori è diversi la variabile y dipende in media dalla variabile x, l’obbiettivo, come già visto, sarà quantificare il grado con il quale la variabile y dipende in media dalla variabile x. Date due variabili quantitative l’analisi considerata sarebbe potuta essere sviluppata anche nel senso opposte, data l’indipendenza in media di Y da x, ciò non comporta o implica il caso contrario, cioè la variabile x è indipendente in media dalla variabile y. Va però detto che se fra due variabili vi è indipendenza assoluta, questo comporta anche l’indipendenza in media. (12). 2 Appunti del 07/11/2012 Unità di misura della forza con la quale la variabile Y, supposta come quella quantitativa dipenda in media dall’altra variabile, per individuare questo indice si parte dalla varianza della variabile quantitativa, y, calcolata seconda la distribuzione marginale altri non è che (1). Considerando che la marginale di colonna può essere scritta come (2). Il totale della j esima colonna è data come il totale della sommatoria della frequenza delle colonne considerate (3). Aggiungendo e sottraendo le medie condizionate all’interno della parentesi tonda avremo (4). Considerando unicamente il doppio prodotto avremo (5), avremo la verifica che esso corrisponde a zero. Nel caso 5.4 si ha che la variabile resta costante se varia solamente l’indice j, tale quantiità può essere quindi porta avanti al primo indice di sommatoria (5.5) Si può dimostrare quindi che entrambe le singole sommatorie ottenute sono pari a zero, per verificare tale processo basta che uno delle due è nulla, come da cosa (6). Di cui al caso (6.1) avremo due somme, la prima è la media condizionata della variabile y, nella seconda è possibile far uscire la media condizionata, che non dipende dall’indice j, (6.2) la parte restante all’interno della sommatoria altri non è che (6.3). determineremo quindi il caso (6.4) quanto detto annulla il doppio prodotto del caso (4.3), che può essere riscritto come (7). Moltiplicando il caso sette per la generica marginale di riga avremo (7.1), dato quindi il caso (7.3), che altrii non è che una varianza, cioè variabile meno scarti al quadrati per il rapporto tra una variabile congiunta e una frequenza relativa di riga, tale valore non è altro che la varianza di y condizionata alla i esima modalità dell’altra variabile. Avremo al caso complessivo (8). Il valore quindi ottenuto nella prima sommatoria è la media aritmetica delle varianze condizionate. (8.1). Dato (9), seconda parte dell’operazione iniziale, avvremo che la prma parte è costante rispetto alla prima sommatoria (9.1), la stessa cosa può essere fatta per la costante “1/n”, (9.2). La seconda sommatori al caso (9.2) diventerebbe come (9.3). Arriveremo quindi al caso (9.4). Il caso (10) rielaborazione della funzione generale di varianza è quindi data dalla media aritmetica delle varianze condizionate, la seconda quantità è a sua volta una varianza, somma di scarti, o differenze, tra due quantità, elevate al quadrato e moltiplicate per frequenze relative, i valori degli scarti comprendono le medie condizionate meno la media marginale della variabile y, come già dimostrato la media delle medie condizionate non è altro che la media marginale della variabile, avremo da una parte la modalità dall’altra la media, è essenzialmente una varianza, tale varianza non è la varianza della variabile quantitativa y, data l’assenza di yj, la varianza è relativa alle medie condizionate. Tale valore può essere riscritto come (10.1). L’indice che permette di misurare il grado di dipendenza media è dato dal rapporto tra la seconda varianza, cioè delle medie condizionate sulla varianza delle variabili marginali. Si indica come (eta) 2 ed è (10.2). tale indice vale zero se c’è indipendenza uno se c’è dipendenza media. Supponendo la presenza di due variabili quantitative, come nell’esempio da scarica, (pagina web professor La Monica), data l’obbiettivo dell’analisi congiunta è possibile analizzare la variabilità di entrambe le variabili accertata la presenza di dipendenza si può individuare, anche se non sempre, il legame tra le due variabili. Per far ciò è necessario stabilire qual è la variabile che influenza e quella che viene influenzata, bisogna individuare la variabile dipendente e la variabile esplicativa. Nel nostro esempio la y sarà la variabile dipendente e la variabile x sia quella indipendente o esplicativa, cioè chiamata a spiegare i livelli osservati nell’altra variabile. Data la variabile x come i redditi delle famiglie e i consumi la variabile y, i primi sono chiamati ad esplicare i secondi. Supponendo quindi che la y dipenda dalla x. L’obbiettivo è determinare il grado di influenza 3 Per determinare il legame delle due variabili vi sono due strategie, una prima che si presenta come più semplice e prende il nome di metodo della spezzata di regressione. Il secondo metodo o strategia è quello dei minimi quadrati. Spezzata di regressione si considerano per questo metodo le medie condizionate della variabile y al variare dei valori della variabile x, dato un grafico avremo sulle ascisse i valori di xi e sulle ordinate il valore delle medie condizionate, rappresentati i punti si determinati e congiunti i punti ci determina un andamento grafico che fornisce informazione su come si muove in media la variabile y quando ci si sposta tra le varie modalità dell’altra variabile, abbiamo quindi l’andamento medio della variabile dipendente al variare delle modalità dell’altra variabile, questo metodo è un’approssimazione dell’andamento della variabile. L’insieme dei punti si chiama spezzata di regressione. La capacità della spezzata di regressione di quantificare la relazione tra le due variabile è dato dall’indice (eta)2, che esprime la capacità percentuale di della spezzata di regressione di esplicitare il legame esistente tra le due variabili. 4 Appunti del 08/11/2012 La spezzata di regressione si presenta come una curva, spigolosa e non chiaramente definita, la capacità di adattarsi e esplicitare l’andamento delle due variabili dipende dall’indice (eta)2, ciò fa si che al suo posto si utilizzi un altro metodo noto come metodo dei minimi quadrati, tale metodo si sviluppa su diverse fasi, nella prima (1), dobbiamo stabilire a priori una particolare relazione esistente tra le due variabile, tale valore è stabilito in maniera soggettiva, nella fase successiva, (2), si determinano i parametri che caratterizzano la relazione, si stimano i parametri, tale procedimento si chiama procedimento dei minimi quadrati; fatto ciò si va a valutare di quanto la relazione stimata, (3), sia adatta alla realtà, ciò avverrà tramite un indice indicato come R2, indice di approssimazione che va da zero a uno, qualora sia ottimo, zero se è totalmente errato. L’operazione si può poi ripetere diverse volte sino ad un grado di adattamento al sistema reale maggiore. Considerando quindi gli elementi fondamentale di questo processo abbiamo: (4) Funzione di variabili doppie, data quindi una distribuzione congiunta si indica con Z una nuova variabile, data da una certa combinazione delle variabili x e y. Una volta esplicitata tale funzione si dovrà calcolare la media di Z e la varianza di Z. la frequenza con cui sarà osservato il valore Zi,j sarà la modalità con cui avrò il valore x i e zj, cioè il valore ni,j, il valore Zi,j avrà quindi una frequenza pari a ni,j. Data la funzione di Fi come (4.1). Sviluppando quindi la funzione di media di Zi,j avremo (4.2). prima di considerare la varianza di Zi,j, è necessario introdurre (4.3). 5 Appunti statistica Ottava settimana 1 Appunti del 13/11/2012 Covarianza indice che misura il grado di dipendenza lineare di due variabili, ha valori positivi in caso di dipendenza lineare diretta, negativi per dipendenza lineare inversa, zero qualora non vi sia interrelazione. (1) Si suppone la perfetta dipendenza lineare diretta tra le due variabili, considerando quindi l’i esimo valore di x data una dipendenza perfetta ottengo un particolare valore osservabile di y. In caso di perfetta dipendenza lineare diretta avremo che la covarianza è uguale a b(varianza)2X. Svolgendo lo stesso processo sotto la stessa ipotesi per la variabile y avremo la varianza di a e sommata alla varianza di bx in questo caso avremo che la varianza dii una costante è zero e la varianza idi una costante che moltiplica una variabile è dato dalla costante al quadrato per la varianza della costante. Avremo quindi l’uguaglianza tra la covarianza di y e bx, sostituendo alla funzione già determinata avremo che la covarianza in caso di perfetta dipendenza lineare diretta la covarianza sarà il prodotto tra le due deviazioni standard, al contrario in caso dii massma dipendenza lineare inversa la covaranzia coincide con lo stesso numero negativo. (2) Data la covarianza come indice che misura il grado di dipendenze lineari di due variabili essa assume valori compresi tra le due quantità sopralineate, meno il prodotto della deviazione standard di x per quello di y e più il prodotto delle deviazione standard di x per quella di y. Dividendo quindi la disuguaglianza considerata per l’estremo superiore, valore massimo assunto dall’indice, avremo un valore compreso tra -1 e 1, avremo quindi l’indice R2, pari a uno in caso di dipendenza lineare diretta, meno uno per dipendenza lineare inversa e zero nel caso di incorrelazione. Tale indice prende anche il nome di covarianza standardizzata. (3) Se tra due variabili vii è indipendenza lineare assoluta, sia di x verso y che al contrario, ciò comporta che le due variabili siano incorrelate, la covarianza è quindi pari a zero. Come dimostrato difatti in caso di incorrelazione assoluta pij, è uguale al prodotto delle frequenze congiunge relative, possiamo quindi definire. Tale operazione è valida in caso di indipendenza lineare in media. (4). Data z variabile derivante dalla combinazione lineare delle variabili x e y, si ha come obbiettivo quello di calcolare la media di questa nuova variabile, e quindi la varianza della variabile stessa, introdotto il concetto di covarianza è possibile calcolare la varianza di z. Individuazione della relazione, legame funzionale, esistente tra due variabile x e y, data una distribuzione congiunta, supponendo che la variabile x sia la variabile indipendente o esplicativa, che la y sia la variabile dipendente, data la presenza di un legame funzionale lo si vuole determinare, si hanno quindi due metodologie , la prima è la spezzata di regressione, il secondo metodo o de minimi quadrati, necessità della conoscenza di media varianza, covarianza e altre variabili statistiche. Il secondo metodo si sviluppa su tre fasi, nella prima si stabilisce a priori un particolare legame funzionale, poiché tale relazione dipende da alcuni parametri si ha una fase successiva in cui si stimano i parametri della relazione, e un’ultima fase in cui si verifica se la relazione stimata si adatta o meno alla realtà, se ciò è vero ci si ferma, altrimenti si ritenta alterando la prima funzione e ottenendo la funzione che meglio si adatta alla realtà. 2 Appunti del 14/11/2012 (1) Data una distribuzione congiunta di due variabili, e ipotizzando una relazione è necessario, come da secondo passaggio dei minimi quadrati stimare i valori delle variabili della relazione. Data la relazione stabilita a priori confrontata con la realtà osservata qualora avessimo discordanza dei valori da modello con quelli della realtà osservata la funzione stabilità a priori non si adatta alla realtà, nel caso contrario quanto previsto nel modello coincide con quanto osservato con la realtà. Fissando difatti una relazione a priori, salvo il caso di adattamento totale, quanto previsto dalla relazione generalmente non coincide con quanto osservato. (2) Si indica quindi come, vedi caso i valori da funzione da modello, si indica con eij la differenza tra questi valori. (3) Un metodo per stimare a e b che caratterizzano la nostra relazione, e permettono di calcolare yi, è quello di far si che la media delle differenze o errori, e ij, sia minimo, ciò comporta la necessità di scegliere tra le molteplici rette considerabili, data quindi la rappresentazione grafica dovremo quindi scegliere una retta, che passa tra i punti del grafico, in maniera da rispettare quanto detto in relazione alla media delle differenze, distanza tra la retta e i punti del grafico sia minimo. In maniera di non ottenere stime banali d a e b, che può corrispondere a zero, o a valori sia positivi che negativi, onde evitare la compensazione degli scarti, si considerano gli scarti al quadrato. (4) I valori appena trovati sono da considerarsi come costanti qualora si consideri una qualsiasi equazione lineare come quella di partenza, o una situazione linearizzabile come il caso basilare. In assenza di linearizzabilità è necessario svolgere il sistema da capo. Nella terza fase del processo dei minimi quadrati si deve stabilire quanto la relazione stimata si adatta alla realtà. Tale indice è del tutto analogo ad (eta) 2 per misurare la dipendenza in media e la capacità della spezzata di regressione si adatti alla realtà, i passaggi sono analoghi a quelli della scomposizione della varianza. (4) Partendo dalla varianza di y avremo che (5), considerando la funzione di Yi*=a*+b*xi (6), aggiungendo e sottraendo il valore di questa variabile al sistema avremo che (7). 3 Appunti del 15/11/2012 Calcolo delle probabilità necessarie per lo svolgimento dell’inferenza statistica. Tale disciplina si occupa di valutare il grado con il quale gli eventi si possono verificare, con il termine evento, definizione poco formale e che richiederebbe approfondimenti, con evento si intende un’affermazione, questa affermazione può essere vera oppure falsa, il calcolo delle probabilità si occupa di quantificare il grado con il quale una generica osservazione può essere vera o falsa. Il modo più semplice per valutare la probabilità di un evento, probabilità del verificarsi di un’affermazione vera o falsa, è il metodo noto come classico, tale metodo o approccio consiste, indicando con E l’evento, proposizione, la probabilità di E P(E) è data da un rapporto dove al numeratore si mettono i “casi favorevoli all’evento” indicabili con h, noti anche come numero di casi favorevoli all’evento e al numeratore n, ove n indica il numero dei casi possibili sotto l’ipotesi che questi casi possibili, questi n casi possibili, siano a due a due incompatibili, cioè dati due qualsiasi casi possibili non vi può essere il caso in cui si verifichino entrambi, il verificarsi dell’uno escludono la possibilità che si verifichi l’altro, va poi considerato che gli n casi possibili si possano verificare tutti allo stesso modo. Date queste condizioni si può valutare la probabilità di tale evento. Data h=0 avremo una probabilità dell’evento pari a zero, eventi con probabilità nulla si definiscono eventi impossibili, eventi che non si possano verificare, se al contrario il numero dei casi favorevoli all’evento coincide con il numero dei casi possibili numerato re e denominatore sono corrispondenti e si definiscono come eventi certi, cioè eventi che sicuramente si realizzeranno. Va considerato che poi che vi sono moltissime situazione in cui l’attribuzione di probabilità agli eventi non funziona, si considerino gli eventi che sono a due a due compatibili, qualora vi sia un numero dei casi infinito, o che non sia determinabile È necessario dato un evento in cui non si può ricorrere all’approccio classico è necessario ripetere l’esperimento, un determinato numero di volte, sufficientemente grande, indicando con k il numero di volte in cui si verifica un evento E, in cui n indica il numero di prove effettuate, allora possiamo valutare la probabilità di questo evento secondo il rapporto P(E)=k/n, tale metodo di calcolo presuppone che le n prove siano espletate nello stesso modo, tale metodo è noto come modo frequentista o approccio frequentista, in quanto la probabilità di un evento non è altro che il ripetersi di una frequenza. Tale approccio di calcolo, collegato al concetto di frequenza, è stato dato come valido poiché ripetendo uno stesso esperimento un numero di volte estremamente amplio questo esperimento si è osservato che P(E)=k/n, per un limite che tende all’infinito, si ha la tendenza ad oscillare di tale valore intorno ad una costante, nota come P(E) e che esprime la possibilità di un esperimento. La dimensione del numero di prove da effettuare, per ottenere un rapporto dato da una stima verosimile dell’evento non è definita, principale limite di tale metodo, anche se non unico poiché vi sono molte situazioni in cui l’approccio non può essere utilizzato, ad esempio qualora non sia definibile n o k. Per tentare di eliminare gli inconvenienti sino ad ora osservate è nato un ultimo approccio considerato più valido che consiste nel misurare la probabilità di un evento mediante il grado di fiducia che un individuo ha nel verificarsi di quell’evento. Operativamente il grado di fiducia di un dato evento, necessario alla quantificazione, si ricorre all’escamotage della scommessa, il grado di fiducia equivale al prezzo che ritengo equo pagare per ricevere uno se l’evento si verifica. Considerando ad esempio l’ipotesi di un guadagno, dato da un evento E, è necessario determinare il guadagno se l’evento si verifica e qual è il guadagno se l’evento non si verifica. Evento verificato G(E)=-p+1, evento non è verificato G(Ec)=-p. Una scommessa si dice coerente se non da vita ad 4 guadagni certi o a perdite certe. Formalmente una scommessa si dice equo se non è possibile che entrambi i guadagni siano dello stesso segno, in caso di verificarsi o no dello stesso evento, il prodotto quindi dei due guadagni deve essere negativo o al limite pari a zero, G(E)*G(E c)=<0, nel nostro caso: (-p+1)(p)<=0, la soluzione impone che quindi 0<=p<=1, valutazione della probabilità dell’evento. Tale impostazione, o metodo di calcolo prende il nome di scuola o modo o approccio soggettivo, ed è quello tuttora vigente. 5 Appunti statistica Nona settimana 1 Appunti del 20/11/2012 Prime considerazioni sul calcolo delle probabilità, secondo tre metodi alternativi: • Classico, la probabilità +è data dal rapporto del numero dei casi favorevoli all’evento fratto il numero dei casi possibili, i casi possibili devo essere finiti, escludibili a due a due e equamente definiti. • Metodo frequentista, determina la probabilità tramite il rapporto tra i risultati dell’evento e le prove ripetute. • Metodo soggettivo, identifica la probabilità come il grado fiducia che un soggetto ha nel verificarsi dell’evento, quantificabile tramite la condizione della scommessa, prezzo che si ritiene equo pagare qualora si riceva uno se l’evento si verifichi in una situazione di coerenza, ove la coerenza indica una scommessa che non da vita a guadagni o perdite certe. Si è infine considerato che poiché la probabilità è un grado di fiducia, a prescindere dalla metodologia di quantificazione, possiamo definire la probabilità di un evento come il grado di fiducia riposto nel verificarsi dell’evento stesso, prezzo equo per partecipare alla scommessa, numero compreso tra zero ed uno. Considerando l’approccio soggettivo, qualora si scommetta sui due eventi definiti come, eventi estremi ed duali tra di loro, noti come (1). Il prezzo che siamo disposti a pagare per questi due eventi è, logicamente una scommessa fitta o fittizia, poiché in un caso la scommessa è sicuramente vinta, nel secondo caso, evento impossibile, la scommessa è sicuramente persa, va quindi definito il guadagno, che si ha nello scommettere sull’uno o sull’altro è nullo. Date le relative equazioni avremo (2). Generalmente avremo quindi che p deve essere compreso tra zero e uno, data la condizione di coerenza, e deve essere pari ad uno per un evento che si realizzerà certamente e pari a zero qualora si consideri un evento che non si possa verificare. Si può quindi osservare che p, vincolato tra i suoi estremi, che gli estremi superiori di p derivino solamente dalla regola della scommessa, convenzione che sia vantaggioso pagare p e ricevere uno qualora l’evento si verifichi, frutto di una convenzione tra chi scommette e chi riceve la scommessa. Tale valore noto come quota=p, è sempre compreso tra zero e uno a prescindere dalla somma pagata e da quella ricevuta in caso di vincita (4). P generalmente non dipende dalla ricchezza del soggetto, ed è sempre compreso tra zero ed uno, e che può essere identificato come una “propensione” alla scommessa. Si può quindi definire la probabilità di une vento qualsiasi, inteso come evento comune, certo o impossibile, come una misura del grado di fiducia nel verificarsi dell’evento stesso, questa misura è espresso da un numero reale, p, che assume valori compresi tra zero ed uno, ed inoltre vale uno qualora si scommetta su un evento certo e vale zero se si sta scommettendo su un evento impossibile. Va distinto il significato della probabilità di un evento con il relativo metodo di calcolo, il significato è sempre e comunque un grado di fiducia riposto nel verificarsi dell’evento. Tale valore può essere calcolato in varie maniere differenti, rapporto tra gradi favorevoli e possibili quando ciò non è possibile, mediante l’osservazione di un evento reale favorevole, sulle osservazioni osservate, come la quota p che siamo disposti a pagare per una scommessa sul fatto che l’evento si realizzi. Impostazione assiomatica del calcolo delle probabilità, ignora il metodo di calcolo delle probabilità ma permette di determinare il valore delle probabilità reali partendo dai relativi valori. Si è sino ad ora considerato di un evento, qualsiasi, prescindente la sua stessa natura, e si è visto come si determina la probabilità dell’evento, preso singolarmente, la realtà generalmente non 2 considera un evento ma una famiglia o gruppi dello stesso, si considerano contemporaneamente più eventi, è necessario assegnare le probabilità a tutti gli elementi della famiglia cercando di rimanere coerente. Non si può procedere considerando un evento alla volta a cui si assegna un valore, la situazione quindi si complica. Per affrontare questa problematica, ma anche qualora si considerino situazioni derivanti da combinazioni di eventi. Data questa impostazione, generalizzabili, ad una qualsiasi altra situazione avremo che: (5). Dati tre eventi, e volendoli rappresentare si può fare ricorso al diagramma di Venn. Avremo quindi su un piano una circostanza data dall’area all’interno del cerchio, qualora E1 sia vero e tutta l’area esterna qualora si a falso, dato un cerchio interno al piano. Supponendo quindi tre eventi o famiglia, composta da tre eventi. Dati tre eventi compatibili, cioè si possono verificare congiuntamente, tale situazione viene generalmente rappresentate tramite due cerchi sovrapposti tra di loro. Lo stesso processo può essere svolto per il terzo evento. Se invece di considerare un evento alla volta ma più di un elemento o faglia di eventi si possono assegnare le probabili ai singoli eventi, dovendo invece assegnare una probabilità ad una singola modalità di un evento, dovremo disegnare tutti i cerchi sullo stesso piano intersecandoli tra loro in più punti ove si stanziano le condizioni di equilibrio, è possibile quindi una combinazione lineare varia e veritiera tra questi eventi, elemento peculiare di ogni sistema che considera più variabili, si complica il modello considerando la possibilità di assegnare valore ad un dato evento. Dati i tre venti come incompatibili, non possono cioè essere considerati a coppie, ed è tale per cui questa famiglia dei eventi costituisce una partizione di omega. Considerando due eventi incompatibili la loro intersezione da come risultato l’insieme vuoto. Scommettendo contemporaneamente su tutte le scommesse indichiamo come (6) il prezzo che consideriamo valido pagare per partecipare a tutte le scommesse considerate. I casi sino ad ora considerati prevedono che solo uno degli eventi considerati si realizzi, si sta nella sostanza scommettendo un evento certo nella sua realizzazione, una delle sei facce si realizzerà sicuramente, per scommettere sull’evento certo è necessario pagare la quota totale, scommessa effettuata su tutte e sei le facce, si ha che la sommatoria di tutti i prezzi che si è disposti a pagare per gli eventi considerati, si ha come risultato uno. (7) avrò quindi che (8). Metodologia di calcolo della probabilità assiomatica, si disinteressa del significato della probabilità stessa, da semplicemente le regole a cui deve sotto stare la probabilità, espresse nel caso (8), che a prescindere dal modo con cui si identifica la funzione stessa deve sottostare a delle regole, la famiglia considerata deve essere chiusa in senso loto e chiusa per quanto riguarda le operazione di unione e intersezione dei vari casi interni alla famiglia di eventi. Date le tre regole generali è possibile calcolare le probabilità di eventi combinazioni di eventi appartenenti alla famiglia: 1. Una prima modalità di calcolo, formalizzazione di quanto già visto, dato un evento E come impossibile con probabilità pari a zero, considerando quindi anche l’evento certo con probabilità pari ad uno, osservando le due condizioni, opposte, esse sono tra di loro incompatibili, data l’intersezione delle due condizioni avremo l’insieme vuoto. Va poi osservato che essi compongono un possibile partizione dell’insieme totale stesso, difatti l’unione dei due insieme considerati da come risultato l’insieme. Siamo quindi in condizione di applicare la terza delle regole considerate, data la probabilità dell’unione tra omega e l’insieme vuoto, date le condizione prima espresse avremo che tale condizione è esprimibile come la probabilità di omega unita alla probabilità dell’insieme vuto, tale somma dovrà dare come risultato la probabilità di omega, data la probabilità dell’insieme 3 vuoto nulla, e annullando le due omega avremo l’uguaglianza tra zero e l’insieme vuoto che verifica quanto detto. 2. Dato un evento noto come A l’evento contrario, A*, è dato da 1-A*, quanto detto ci porta a determinare che si tratta di eventi tra di loro compatibili, la cui intersezione determina l’insieme vuoto, la cui unione corrisponde con l’insieme omega, A e A* sono una partizione di Omega, considerando quindi l’unione delle probabilità dei due eventi deve essere uguale alla probabilità di omega, data la condizione di incompatibilità l’unione è data dalla probabilità dell’evento contrario più la probabilità di A uguagliata ad Omega, dato però un evento certo si ha che la sua probabilità deve essere pari ad uno, avremo quindi che la probabilità dell’evento contrario di A è dato da A*=1-A. 3. Dati invece due eventi A e B tali per cui l’evento A è contenuto o coincidente con l’evento B, cioè A implica l’evento B, se uno è vero è vero anche l’altro, graficamente avremo, dato il piano di omega un evento B, insieme maggiore che contiene l’insieme dell’evento A che al massimo è pari a B; risulta quindi che la probabilità dell’evento A è minore o al limite coincidente con l’evento B. Indicando difatti con B 1 gli eventi di B non inclusi in A, si ha che questo nuovo evento può essere scritto come l’intersezione tra l’evento contrario ad A, A*, con B. Dato quindi B1 risulta che data l’unione tra B1 e A tale condizione coincide con B, l’intersezione tra B1 e A si determina l’insieme vuoto, nella sostanza si hanno eventi tra di loro incompatibili, avremo infine una probabilità di B data dalla probabilità di B 1 unito con A, tale probabilità, data la condizione di incompatibilità è data dalla somma delle probabilità di B1 con la probabilità di A. Si ha quindi che B ha una probabilità maggiore a quella di A, salvo il caso che B1 sia un insieme vuoto, cioè qualora A e B coincidano. Data una famiglia di eventi, e di essa si considerino due eventi compatibili, si viola la terza ipotesi considerata, come da esempio 3. A e B possono quindi verificarsi contemporaneamente, in tal caso la probabilità di A unità con la probabilità di B sarà data, in caso di eventi incompatibili sarebbe la probabilità di A unita alla probabilità di B, la probabilità quindi in questo caso va modificata, considerando graficamente il piano di omega, con disegnati i piani di A e B, insiemi sovrapposti, avremo una probabilità di unione che misura tutta l’area dei due insiemi, considerando una sola volta l’area intersecata. Considerando come B1 gli eventi di B non inclusi in A, avremo che 1. L’evento B può essere definito come al caso 3, cioè B1 unito con l’intersezione di A e B, 2. Avremo poi che l’unione di A e B può essere scritto come l’unione tra A e B1, 3. Abbiamo quindi determinato due eventi tra di loro incompatibili, A e B1, difatti la loro intersezione è un insieme vuoto, allo stesso modo sono incompatibili B1. 4. Avremo quindi anche che B1 intersecato con l’intersezione di A e B anch’essi sono incompatibili. La probabilità quindi di A unito con B e A unito con B 1 sono la stessa cosa, avremo però, data l’incompatibilità tra A e B1 che la loro unione è uguale alla somma della probabilità di ogni singolo evento. B è anche definibile come la probabilità di B 1 unito con la probabilità di A intersecato B, sostituendo a quanto detto prima avremo che la probabilità dell’unione tra A e B è data dalla probabilità di A più la probabilità di B meno l’intersezione della probabilità di A intersecato a B. Quanto detto valido per la probabilità di due singoli eventi può essere ripetuto per un insieme suddiviso in n insiemi. 4 Appunti del 21/11/2012 Dato il teorema delle probabilità totali, che indebolisce il terzo assioma del calcolo delle probabilità, rimane aperta una questione relativa alla probabilità condizionata. Indicando con A e B due eventi di un ipotetico fenomeno, tali per cui la probabilità dell’evento B è diversa da zero, (1), B non è quindi impossibile, dato quindi il verificarsi dell’evento B quale è la probabilità dell’evento A. tralasciando la dimostrazione è possibile definire tale probabilità come calcolabile con il seguente modo (2) si ha in questo modo la verifica dei tre assiomi precedentemente considerati: 1. Dato un evento qualsiasi la sua probabilità è un numero compreso tra zero e uno. Verificato data la natura di probabilità del valore determinato. 2. Il secondo assioma vuole che scommettendo sull’evento certo la probabilità è uno, data a certezza che si verifiche A tale probabilità coincide con omega, e quindi avremo il rapporto tra l’unione di omega e B su B. allo stesso modo avremo la verifica di un evento impossibile, che determina una probabilità di zero. 3. Data la successione di eventi tra di loro incompatibili e che costituiscono una partizione di omega, allora la probabilità che si verifichi uno qualsiasi di questi eventi è uguale alla somma per i che va da uno a n della probabilità dei singoli eventi, si può quindi verificare che la definizione data di probabilità condizionata verifica la terza proprietà. Dato il caso del lancio di un dato considerando i casi elementali abbiamo se possibili risultati indicabili come (3). Indicando con A e B rispettivamente (3.1) volendo calcolare la probabilità dell’evento A dato che si è verificato B, data la probabilità di B come nota, è necessario calcolare la probabilità congiunta di A e B, data dal rapporto tra il tra i casi totali e quelli favorevoli, A e B hanno quindi un unico evento possibile comune il caso (3.2). determineremo quindi la probabilità cercata come (3.2). Ciò che va quindi evidenziato è che la probabilità di A dato B coincide con un valore, 1/3, data però la probabilità di A, che dato il metodo classico è 1/6, vi è una differenza tra queste due probabilità, in particolare la probabilità di A dato B, 1/3, nell’esempio considerato, è più grande delle probabilità di a, 1/6<1/3, le probabilità di A sono minori di quelle di A dato B, quando si osserva una situazione di questo tipo si dice che gli eventi A e B si attraggono tra di loro. (4) Si ha che l’evento A è attratto dall’evento B. può accadere anche il caso contrario cioè che la probabilità di A dato B è minore della probabilità di A, si parla in questo caso di evento A respinto dall’evento B. Può accadere infine che le due probabilità coincidono, si ha che il verificarsi dell’evento B non modifica la possibilità del verificarsi di A, si parla in questo caso di indipendenza tra gli eventi A e B. Data quindi la condizione di indipendenza, terzo caso, la probabilità che si verifichi A e B congiuntamente è determinabile come la probabilità di A per la probabilità di B, nel caso contrario avremo che la probabilità del verificarsi di A è dato dal prodotto della probabilità di B per la probabilità di verificarsi di A dato B. Dato l’esempio del lancio di due monete regolari, indicando A e B al seguente modo (5), B è testa al lancio della prima moneta, A è determinato come testa al lancio della seconda moneta, dato l’obbiettivo di determinare l’influenza di A e B avremo che: si deve determinare omega, insieme complessivo degli eventi che si possono verificare lanciando le due monete avremo (5.1). confrontando la probabilità ottenuta con quella dell’evento A dato il fatto che coincidono avremo una condizione di indipendenza tra i due eventi. Data una qualsiasi famiglia di eventi E1,E2,…,En dati: (6) 1. Due qualsiasi eventi incompatibili a coppie. 2. Dati la condizione che tali eventi costituiscono una partizione di omega. 5 Dato quanto detto determiniamo i già detti tre assiomi. È quindi possibile, concretamente, dover considerare una quantità infinita di eventi, famiglia di eventi infinita ma numerabile, o anche una famiglia di eventi infinita e non numerabile, valgono quindi ancora i tre assiomi sino ad ora considerati o vanno ampliati? Cos’è quindi un insieme numerabile? In maniera informale si parla di insieme numerabile qualora si consideri un insieme che ha la stessa cardinalità dell’insieme dei numeri naturali, che se definito come A avremo che la CardA=CardN, può essere supposto quindi una corrispondenza biunivoca tra uno qualsiasi degli elementi di A e uno qualsiasi degli elementi di N. Qualora invece la cardinalità di A, CardA, coincida con quella dei numeri reali, CardA=CardR, allora diremo che questo insieme non è numerabile, o ha una cardinalità nel continuo. Va anche considerato poi che la cardinalità dei naturali e inferiore alla cardinalità dei reali, CardN<CardR, considerando quindi un qualsiasi sottoinsieme dei reali, intervallo della retta dei reali, allora la cardinalità di questo insieme coincide con la cardinalità di R, CardB=CardR, qualora BcR. Vi sono eventi non impossibili, che possono quindi verificarsi, ma hanno probabilità nulla, un evento impossibile ha probabilità nulla, un evento con probabilità nulla non è necessariamente impossibile. Va anche considerato che se si considerano tanti insiemi numerabili, A1, A2, A3,…,An, ove n può essere anche infinito, la loro unione è ancora un insieme numerabile, la cardinalità dell’unione di infiniti insieme coincide ancora con l’insieme dei naturali. (9). Data quindi la cardinalità di un insieme non vi si può muovere tra la cardinalità degli stessi. Quanto detto nella condizioni 10 comporta che considerando famiglie di eventi con cardinalità nei naturali o nei reali non è possibile dare ad ognuno di questi eventi probabilità positiva compresa tra zero e uno, volendo quindi rispettare le tre regole della probabilità è necessario dare probabilità zero a qualche evento. Non si riesce quindi indicando con omega la famiglia che raccoglie tutti gli eventi, data la cardinalità nei naturali o nei reali, infinito numerabile o infinito non numerabile, non vi è necessariamente una corrispondenza biunivoca tra gli elementi di questo insieme e l’intervallo zero uno, nonostante lo stesso abbia una cardinalità appartenente ad R l’intervallo non è sufficiente per la corrispondenza. Considerando quindi la seguente situazione: dato omega e considerando fra tutti gli eventi inclusi nella famiglia, a quanti di questi eventi si può assegnare una probabilità superiore di un x valore, nell’esempio di un mezzo. All’interno dell’insieme avremo quindi un solo evento cui potremo dare una probabilità maggiore di un mezzo e minore di uno, massimo del grado di fiducia. Volendo ripetere la considerazione avremo, a quanti eventi potremo attribuire una probabilità che è più grande di un terzo ma più piccola o coincidente ad un mezzo, in tal caso gli eventi che possano avere tale probabilità è pari ad 2.(11) Si ha una generalizzazione del caso che comporta la definizione di un numero massimo di n eventi, appartenenti alla famiglia omega ai quali possiamo dare probabilità compresa tra uno fratto ad n+1 e al massimo pari ad uno su n, senza violare i tre assiomi del calcolo delle probabilità. Considerando quindi l’insieme An data come l’insieme che contiene tutti gli eventi di Omega tali per cui la probabilità di questi eventi è compresa tra i vincoli prima definiti. Data quindi la cardinalità di An che corrisponde ai naturali, dato quindi l’insieme B che indica l’evento unione per n che va da 1 all’infinito tale insieme avrà una cardinalità nei naturali (B). La possibilità di dare una probabilità positiva a dei numeri interni a questo insieme è data da un numero infinito ma numerabile di elementi, alcuni eventi potrebbero essere esclusi e avere probabilità nulla, tali eventi nella realtà generalmente sono più della maggioranza degli eventi considerati. 6 Appunti del 22/11/2012 Data una famiglia di eventi, indicabile con omega, è quindi possibile definire famiglie di tre tipi: finiti, omega corrisponde ad un numero finito di eventi, numerabili, o infinitamente numerabili, nel secondo caso la cardinalità di omega corrisponde con N, nel secondo caso la cardinalità di omega corrisponde con R. Si è sino ad ora detto che se omega è composto da N eventi sappiamo definire una legge di probabilità, si è poi considerato l’opzione di omega numerabile o infinitamente numerabile, si ha quindi che in questi casi non si riesce a dare probabilità positive ad ognuno degli eventi contenuti in omega, in particolare nella terza situazione, questo poiché il segmento che esprime la probabilità non è sufficiente a contenere tutti i numeri rilevabili dai vari eventi contenuti in omega, alcuni eventi restano esclusi, senza probabilità positiva e con uan probabilità pari a zero, si ha quindi che se un evento impossibile ha probabilità zero tale proprietà non si presenta come biunivoca i Particolare nel caso in cui omega abbia una cardinalità pari ad R. In questo caso si parte dal caso in cui si attribuisce ad ogni evento contenuto in omega, infinitamente numerabile, ha cardinalità che corrisponde ad R, si attribuisce ad ogni elemento di Omega probabilità zero, cercando di far coincidere omega con l’insieme dei reali abbiamo che ogni evento di omega è dato da un numero di x, tale che il totale dei numeri di omega corrisponde a quello dei reale. Ritornando al grado di probabilità pari a zero avremo che esiste una funzione nota come F tale per cui se considero un sottoinsieme di R, segmento di estremi A e B ove ab sono più o infinito volendo, esiste un funzione reale definiti a su omega tale per cui considerando un segmento la probabilità del segmento è data come integrale per x che va da a a b di fx in dxc, nota anche come probabilità dell’evento E. Analisi delle variabili casuali. Considerando quindi un insieme omega che contiene tutti gli eventi di un certo evento, tale insieme è finito e composto da eventi elementari, o infinitamente numerabile o infinitamente non numerabile, omega prende anche il nome di spaso degli elementi elementare. Definiamo poi una variabile casuale una funzione che associa ad ogni elemento di Omega un numero reale, tale funzione è indicabile con Y e vi associa un numero reale. Nota la funzione il passaggio da omega a R, insieme dei valori traslati di omega è semplice. Supponendo la seguente condizione: (1) vengono quindi estratti dall’urna tre fogli senza remissione, il primo foglio estrazione si rimette nell’urna dopo l’estrazione, dato invece il reinserimento dell’urna in maniera da non modificare l’urna con l’estrazione successiva, si ha che esse vengano con re immissione. Estraendo, in un periodo successivo, anche tra i fogli. Volendo calcolare la variabile casuale somma degli foglietti estratti, dato il calcolo delle probabilità con le quali avvengono queste trasformazioni è necessario sin da subito la probabilità che si verifichi uno qualsiasi degli elementi considerate. Supponendo la presenza di fogliette numerati in differenti proporzioni (2) date due estrazioni consecutive rimettendo nell’urna il primo foglietto estratto, effettuando un’estrazione in un’urna inalterata tra prima e seconda estrazione, si parla si estrazioni con reimissione, si considera sempre la stessa variabile da costruire avremo quindi. Lancio di due monete si vincono tre centesimi ogni testa che esce se ne perdono otto se non esce neanche una testa, si costruisca la variabile casuale, X, tale che esprima il guadagno. (3) si tratta di eventi incompatibili e indipendenti. 7 Appunti Statistica Decima settimana 1 Appunti del 27/11/2012 Variabili casuali teoriche, va sottolineato che una variabile casuale può essere discreta o continua a seconda se la famiglia degli eventi dalla quale deriva, noto come spezio degli eventi, se è finito o infinito ma numerabile, cioè se omega è finito, ha un numero finito di eventi, oppure infinito ma numerabile allora la variabile casuale che ne deriva, anche in funzione della trasformazione in numeri, essa sarà una variabile casuale discrete, finita o infinita numerabile; dato invece omega infinito e non numerabile, cardinalità coincide con R, allora la variabile casuale che ne deriva sarà una variabile casuale continua. Variabile casuale di Bernoulli, o Bernoulliana, variabile casuale più semplice, dato Omega, a prescindere dalla sua natura, si suddivide lo spazio degli eventi in due sottoinsiemi S e S*, evento complementare di S. Dato questo i due eventi delineati costituiscono una partizione di Omega, la loro intersezione coincide con l’insieme vuoto, i due eventi non si sovrappongono, una volta uniti ridanno quindi Omega, tali eventi sono associati al successo e all’insuccesso di un dato elemento. Dato quindi 0<|P<1, detto come grado di fiducia attribuito all’evento successo, e con 1-|P si ha il grado di fiducia per l’evento contrario a S, S*. E’ possibile definire poi una funzione tale che f(S)=1 e f(S*)=0. La variabile casuale quindi, nota come x, assumerà due valori, valore uno o zero, la probabilità di ottenere un valore uno è la stessa dell’evento S, cioè |P, la probabilità di ottenere un valore pari a zero nel caso di veridicità di S*, caso contrario di S, dato da 1-|P. Tale modello teorico è noto come variabile Bernoulliana. Dato quindi il valore che va assegno a |P, compreso tra zero e uno, di questa variabile si conoscono tutti gli elementi. Variabile uniforme discreta, definizione necessaria per distinguerla dalla variabile uniforme continua, data una famiglia di eventi, insieme omega, si considerano fenomeni costituiti da un numero finito di eventi, prima non erano fatte specificazioni su omega, ora ciò è importante e si deve essere nella condizione in cui omega ha un numero finito di eventi, si parte dalla presupposizione che ogni evento di omega ha la stessa probabilità di verificarsi degli altri, tale probabilità è data da 1/n. indicando come E(x) il generico evento contenuto in omega la relativa probabilità è 1/n; considerando la funzione che trasforma il generico evento, E(x), pari ad x, per x che assume valori da 1 a n; tale trasformazione prende ogni evento di E(x) e vi associa un numero naturale. Tale funzione prende il nome di variabile casuale uniforme discreta. Il valore che caratterizza tale variabile è N e permette di determinare tutti i valori significativi di tale variabile uniforme discreta. Che può essere sinteticamente anche indicata, come per la variabile di Bernaulli come p(x)=1/n x=1;…;n. Variabile casuale geometrica, variabile casuale, che a differenza delle precedenti, assume una quantità infinita numerabile di valori, la cardinalità della variabile casuale coincide con quella dei naturali, CardVg=CardN, si ha quindi uno spazio di eventi elementari, Omega, suddiviso in due eventi, S e S*, eventi complementari, che esprimono successo e insuccesso, la probabilità del due eventi è P(S)=|P, P(S*)=-|P, tali eventi sono una partizione di Omega, e sono eventi incompatibili. Si indica con X il numero di volte che devo effettuare, numero di prove, l’esperimento per ottenere l’evento successo per la prima volta, definibile come il numero di prove per osservare l’evento successo per la prima volta, quantità tendenzialmente infinita ma numerabile di eventi osservati. Analizzando il terzo assioma è possibile considerare che dati due valori il loro rapporto è costante, siamo di fronte ad una progressione geometrica, è possibile quindi calcolare la somma dei primi n definiti valori di una progressione geometrica, la somma all’infinito viene data dalla somma dei primi n elementi proiettati all’infinito. 2 Appunti del 28/11/2012 Introduzione matematica: Disposizione di una serie, omega, di oggetti, tale per cui le differenze tra le disposizioni degli oggetti differiscono luna dall’altra solamente per l’ordine degli oggetti, tale quantità è nota come N!, n fattoriale, dato da n*(n-1)*(n-2)*…*1, supponendo quindi che alcuni degli oggetti considerati siano uguali tra di loro ci ritroveremo nella condizione in cui il numero totale delle disposizioni possibili non saranno dati da N!, poiché alcune combinazioni risulterebbero uguali tra di loro avremo un numero complessivo di combinazioni dato da: (1). Variabile Casuale Binomiale: data una famiglia di eventi, racchiusi in omega, tale omega è diviso in due sottoinsiemi, S e S*, avremo poi che P(S)=|P, P(S*)=1-|P, 0<|P<1. Dato un numero di n prove, e un valore x la cui probabilità indica il numero dei successi ottenuti in funzione delle prove3 effettuate avremo che la probabilità di x, P(x), indica i successi ottenuti. Dato l’esempio di un’estrazione, abbiamo una probabilità che esca B pari a |P%, e una probabilità di N dato da (1-|P)%, dato S come le evento B e S* come evento N, avremo una probabilità di S pari a |P e una probabilità di S* pari ad 1-|P, data una estrazione continua per N volte, in cui N=4, e dato il fatto che un’estrazione non influenza le successive, estrazioni indipendenti una dall’altra, caso di estrazioni con reimmissione, avremo una x che corrisponde al caso delle B determinate su 4 estrazioni. Variabile Casuale di Poisson, variabile casuale discreta con cardinalità che corrisponde alla cardinalità di N, date le stesse condizioni di partenza della binomiale, considerando un numero di prove che cresca, anche sino all’infinito, n che tende all’infinito, data la probabilità del successo che tende a zero, probabilità d successo infinitalmente piccolo, posta una costante uguale a TY=n*| P, tale valore TY è costtante, si ha quindi in tale condizione il modello binomiale tende alla variabile di Poisson, P(x)=(TYx/x!)*eTY, il numero d successi in questi casi può tendere all’infinito, per x=1,2,3, …. E(TY)=V(TY)=TY (riscrivere quanto osservato sul quaderno). 3 Appunti del 29/11/2012 Modelli continui, variabili casuali continue, considerando il concetto di funzione, dato omega, datota di cardinalità nei reali, infinito e non numerabile, vi era il problema che non si potesse assegnare ad ogni evento, ei, contenuto in omega, una probabilità positiva, poiché l’asse dei reali non riusciva a sopperire a tale compito, per risolvere il problema si assegna ad ei un valore nullo, salvo poi definire una funzione f(x) positiva e con un integrale pari ad uno, volendo poi determinare la possibilità di osservare un certo evento di omega, generalmente si considerano intervalli di valori, allora la probabilità dell’intervallo era l’integrale di f(x) in dx compreso tra gli estremi dell’intervallo. (1) Analizzando tale funzione, con lo scopo di legarla al concetto di probabilità è necessario, considerando una situazione data da un’infinità non numerabile di eventi, omega, che tramite una trasformazione diventano numeri reali, nella più generale delle ipotesi, si considera l’intera reta dei reali, vi sono situazioni ove si considera un sotto intervallo, condizione non considerata, dato un punto a si ha che la probabilità che la variabile casuale sia uguale ad a è pari a zero, P(x=a)=0, è necessario poi determinare la probabilità in cui la variabili casuale dia valori compresi tra a+d/2 e a-d/2, P(a-d/2<x<a+d/2)=I(f(x)), data la condizione di uguaglianza tra la classe e d, avremo che la primitiva dell’intervallo meno la primitiva della funzione nell’estremo inferiore dell’intervallo. Dato il limite di tale funzione che tende a zero avremo (2). Nota come de3nsità di probabilità, abbiamo una relazione biunivoca tra la densità di un intervallo piccolissimo a piacere le la f(x) generica, che tende a zero, a parità quindi di ampiezza tanto più amplia è la probabilità dell’intervallo tanto più alta è la probabilità calcolata nel punto stesso. Variabili teoriche casuali di tipo continuo, infinitamente non numerabili, le prime variabili considerate saranno le stesse del modello discreto. Variabile uniforme continua. (3) tutti i valori hanno lo stesso grado di fiducia, caso continuo della variabile uniforme discreta. Variabile casuale esponenziale negativa, analoga continua della variabile causale geometrica, curva teorica di tipo continuo, (4) famiglie di curve che modellano generalmente fenomeni osservati nel tempo, ove il tempo è dato dalla x, generalmente indica il tempo di attesa necessario prima del fallimento del fenomeno stesso. Per la normalizzazione si calcola il valore sino ad un parametro qualsiasi, salvo poi far tendere la funzione si definita all’infinito. Variabile casuale normale, variabile casuale a cui si farà costantemente riferimento, (5), si considererà un fenomeno, distribuito secondo un variabile normale qualora. Tale curva ha un andamento a campana, gaussiana, ed è caratterizzata da due caratteri la media e la varianza della curva, dati questi si conosce tutto della curva, poiché le parti restanti sono delle costanti, |P, in questo caso è quanto noto per le formule del cerchio, |P=3,14 ; e=2,718. Tale curva ha nel valore centrale della densità la media, tale curva è simmetrica rispetto al valore centrale, la media coincide con la moda e coincide anche con la mediana. La simmetria rispetto al valore centrale è di immediata verifica, dato un incremento a sinistra e destra, la curva assume lo stesso valore, dato lo stesso incremento. (6). L’andamento a campana, prima crescente da meno infinito sino alla media e poi decrescente, dalla media sino alla moda, si determinerà poi la spiegazione del perché E(x) è il punto di massimo. La derivata risulta quindi facilmente calcolabile, e escludendo situazioni banali, tale funzione di densità è positiva, e il segno della derivata prima dipende dal resto, la frazione, e data la varianza al denominatore, sempre positiva, salvo variabile degenere con varianza pari a zero, caso escluso, dalla x che si estende su tutto l’asse dei reali, il segno della deriva dipende quindi dalla differenza tra x e la sua media, data la condizione di estensione di x tra più e meno 4 infinito avremo che, data una x inferiore alla media, tale numero sarà negativo, differenza negativa, avremo una derivata prima negativa, qualora la differenza sia uguale a zero avremo la derivata prima pari a zero, qualora la differenza sia positiva avremo una derivata prima positiva. Considerando una variabile X, tale che ha una media E(X) e una varianza V(X), proponiamoci di calcolare la media e la varianza di questa nuova variabile z legata alla precedente dalla seguente relazione Z=(X-E(X))/V(X), E(Z)=?, V(Z)=?, E(Z)=0, V(Z)=1. Z è una variabile standardizzata, adimensionale, priva di media e variabilità. 5 Appunti statistica Undicesima settimana 1 Appunti del 04/12/2012 Dato il caso (1) è possibile dimostrare come, prescindendo da z si può dimostrare che qualora la trasformazione sia di tipo lineare z manterrà la stessa distribuzione di x. Osservando il caso della traslazione di una funzione normale la zeta resterà una gaussiana centrata nel punto zero, media zero e varianza uno. Dato il caso pratico (2), è necessario osservare come tale funzione può essere risolta trasformando la variabile x in variabile zeta come al caso (1), calcolando quindi il relativo integrale secondo z. L’integrale definito in z è già calcolato e riscontrabile in una particolare tavola delle normali standardizzate, dati gli appositi estremi (3). La tavole delle normali standardizzate riporta la funzione di ripartizione della variabile z, normale standardizzata, e calcola la probabilità di osservare valori che vanno da meno infinito sino ad un valore considerato, tali valori sono crescenti partendo da zero, questo poiché la funzione standardizzata si ha simmetria rispetto al valore centrale, dato tale valore come z, la tavola inizia il processo di calcolo per valori più grandi e al massimo pari a zero, la prima metà, data curva simmetrica, avrà valore pari alla metà, valore di zero, avremo poi valori successivamente crescenti; la simmetria rispetto al valore centrale permette di assumere che, data la tabella è possibile definire l’area minore di un numero negativo, coincide con la stessa probabilità osservata per z più grande o pari al corrispettivo positivo, tale valore è dato da uno meno il valore letto nelle tavole. [email protected] [email protected] Inferenza statistica data la necessità di studiare le caratteristiche di un x fenomeno, con il presupposto che non si può procedere, come sinora fatto, nell’ambito descrittivo, con popolazione di riferimento e relative misure, raccolta di dati, riorganizzazione ecc., ciò può accadere per vari motivi, costo del processo, presenza di situazioni in cui le unità sfuggono alla rilevazione, variabile di interesse data da soggetti interessati ad evitare la misurazione, situazione in cui la rilevazione totale è impossibile, situazione ove la rilevazione totale può essere distruttiva. Data una rilevazione totale impossibile quindi si cerca di tentar di risalire alle caratteristica fondamentali del fenomeno, non potendolo misurare, cercando di rilevare la variabile su un sottoinsieme della popolazione, e dalle caratteristiche del sottoinsieme a quelle della popolazione, data una particolare selezione tale sottoinsieme prende il nome di campione casuale, è possibile difatti dimostrare come se il campione viene scelto sotto certe condizioni risulta come rappresentativo della popolazione, possiede quindi caratteristiche molto vicine e quelle della popolazione stessa, analizzandolo possiamo risalire, in maniera probabilistica a quelle della popolazione. Il campione casuale deve: possedere unità, partecipanti al campione, scelte, selezionate, in modo casuale, a caso, dando ad ogni unità della popolazione la stessa probabilità di far parte del campione, aumentando la numerosità del campione si aumenta la rappresentatività della popolazione, è possibile dimostrare come tale campione risulti rappresentativo, con caratteri simili a quelli della popolazione di riferimento, si può quindi analizzare un campione per carpire i caratteri della popolazione. Dato un fenomeno (4), estraendo un campione casuale, con riferimento fatto alla media della distribuzione, indice più indicativo, un’estrazione casuale di un campione della popolazione i caratteri dello stesso si avvicinano a quelli della popolazione. dato un campione di ampiezza pari a 2, indicando con x1 gli esiti del primo campionamento e con x2 gli esiti del secondo campionamento, avremo quindi un x1i (5); data la stessa popolazione avremo gli stessi risultati se considerassimo la seconda estrazione. Gli esiti si ottenuti sono variabili casuali indipendenti, il primo non influenza il secondo, tale le estrazioni con ripetizione, si può poi notare come la 2 distribuzione di probabilità degli esiti sono equivalenti e coincidono con quella della variabile della popolazione di riferimento. Gli esiti campionari sono indipendenti e identicamente distribuiti, con la stessa distribuzione della variabile nella popolazione di riferimento, la stessa cosa accadrebbe aumentando il numero delle estrazioni. Iniziando l’analisi del campione si inizia dalla media campionaria, principio di analogia, necessario per risalire alla media originaria della popolazione, tramite quindi la media campionaria, simulata quindi una qualsiasi estrazione avremo una serie di valori si definibili: X*, media campionaria, a differenza della media normale, presenta valori differenti e non definibili poiché dipendenti dai valori ottenuti dall’estrazione, tale valore varia e dipende dal variare del campione, estrazioni effettivamente effettuate. A priori, fase di simulazione, la media campionaria è una variabile casuale, tra i valori che può assumere la media campionaria vi è quello coincidente con la media della popolazione, la probabilità associata a questo valore è generalmente più alto degli altri, la probabilità quindi che la media campionaria assuma un valore maggiore rispetto alla probabilità che assuma un valore diverso dalla media reale. Se quindi si allarga il campo di analisi si ha che i valori che dal valore stesso si discostano di poche unità, sommando tali probabilità la somma si avvicina molto all’unità, la probabilità di osservare una media campionaria coincidente con il parametro incognito o con valori prossima allo stesso parametro ha una probabilità elevatissima. 3 Appunti del 05/12/2012 (1) Di cui due rappresenta il numero delle estrazioni effettuate all’interno della popolazione stessa. Considerando quindi un aumento della dimensione del campione avremo dei possibili valori definibili come (2), i valori più alti sono quelli prossimi al parametro con probabilità maggiore, e alla media che rimane costante e centrata sul parametro oggetto di osservazione. Procedendo in questo modo è possibile generalizzare il discorso effettuato dicendo che data una popolazione di riferimento e l’estrazione casuale di un campione di ampiezza pari ad n i caratteri della media campionaria saranno: una media corrispondente alla media degli esiti ottenuti diviso n, dato il denominatore come costante avremo uno su n che moltiplica la media di tutti gli esiti. (3) (4) la media dell’i esimo esito campionario tale valore assumerà un valore pari alla probabilità di variabilità indipendenti e con la stessa distribuzione della variabile nella popolazione di riferimento. Quanto detto fa si che la media dell’i esimo esito campionario altri non è che la media della variabile osservata nella popolazione di rifermento. (5) svolgendo lo stesso procedimento con la varianza del campione pari ad n, sarà la varianza della sommatoria degli esiti campionari fratto n. Va quindi considerato che qualora si consideri la variabile di una sommatoria per una costante si che il valore di n va elevato al quadrato prima di essere portato danti l’indice di varianza. Quanto ottenuto dallo sviluppo è simile a quanto osservato per la media, analizzando quindi la varianza dell’i esimo esito campionario, data una distribuzione del campionamento uguale alla distribuzione delle variabile originale avremo che la varianza del dato campionario è uguale alla varianza del normale insieme di riferimento. Si ha quindi che generalmente all’aumentare del campione la dispersione della media campionaria diminuisce, al limite tale valore tende a concentrarsi su un unico valore, che altri non è che la media della popolazione, parametro oggetto di stima. Volendo quindi analizzare al distribuzioni di probabilità di un campione pari ad n avremo che data una variabile di partenza, X, distribuita in modo normale, si ha una media campionaria distribuita in maniera normale con la media che corrisponde a quella di x e una varianza pari alla varianza di X fratto n. Considerando invece un campione estratto da una popolazione non distribuita in modo normale, avremo una media campionaria, che varrà, secondo il teorema del valore centrale, dato un campione estremamente grande avremo una media campionaria divisa in modo normale, tale risultato è vero solamente con un campione sufficientemente numeroso, teorema del limite centrale, definibile come: Teorema del limite centrale “Supponendo un numero n di variabili casuali, indipendenti tra di loro e che hanno tutte la stessa distribuzione, si indichi poi con y1 la prima va, y2 la seconda,…, yn la ennesima variabile casuale, solamente dato variabili dello stesso tipo, stessa media e stessa varianza, indipendenti e identicamente distribuite, data Sn come la somma delle variabili casuali, avremo una media pari ad n volte la media della i esima variabile, analizzando la varianza di tale somma avremo che essa altri non è che n volte la varianza della i esima variabile casuale. Il teorema del limite centrale dimostra come al cresce delle variabili casuali, limite per n che tende all’infinito di Sn, si dimostra che il limite di questa somma è distribuito in modo normale con una media pari a n volte la media di x e una varianza pari a n volte la varianza di x.” Tra le possibili dimostrazioni abbiamo che se la media campionaria è estratta da una popolazione non distribuita in modo normale ha una distribuzione normale. 4 Data una Yi=Xi/N, avremo allora una somma della variabili casuali che altri non è che la somma per i che va da uno a enne di xi/N, che altresì non è che la media campionaria, data la media della media campionaria pari alla media di x e una varianza pari alla varianza di x fratto N. avremo quindi che al crescere della dimensione del campione il limite per N che tende all’infinito di S n, tenderà ad una normale con parametri di media e varianza tipica della normalizzata. Dato quindi un campione sufficientemente grande di una variabile distribuita in maniera non normale, abbiamo comunque una variabile distribuita in maniera normale, i valori che determinano ciò sono, secondo la letteratura 30, in generale un’estrazione di 100 assicura la veridicità dell’affermazione effettuata. La media si considerata ha un particolare densità di probabilità stabilità distribuita in maniera normale e centrata sulla media, con una varianza pari alla varianza del campione sul numero del campionamento. Quanto detto ci porta a definire che(7), supponendo quindi una variabile distribuita in maniera normale, ipotese più semplice, dotata di una media sconosciuta, ma di una varianza pari ad 400, estraendo da questo fenomeno, popolazione, un campione di 100 unità, estrazione casuale, volendo definire la probabilità che la media campionaria di questo campione sia diverso dalla media della popolazione al massimo di quattro unità, tale valore si calcola tramite la corrispondenza biunivoca tra una variabile normale, distribuita normalmente ed una sua standardizzata, distribuita anch’essa normalmente si ha il caso come da esempio, (vedi appunti). Nella realtà invece di accontentarsi di un unico valore, si può tentare di determinare un intervallo di valori che contiene la media della popolazione con un certo intervallo di probabilità, condizione contraria quanto appena visto. Si può quindi individuare un intervallo, che dipende dalla media campionaria, tale per cui la probabilità che la media della popolazione sia contenuta in questo intervallo e corrisponda ad un valore a priori di probabilità. Per fare quanto detto è necessario, partendo dalla normale standardizzata, f(z), fissato il livello di probabilità a priori, dato questo livello è possibile trovare due valori tali per cui z assuma uno di questi due valori, dato il valore positivo, è sufficiente un processo di inversione per trovare quello positivo, per fare ciò si legge la tavola al contrario. Avremo quindi un’area necessaria ad arrivare ad uno corrispondente a quella delle code, praticamente la metà dell’area necessaria ad arrivare da alfa a uno. 5 Appunti del 06/12/2012 Vi èp poi il caso in cui si individui un intervallo di valori che individui il parametro che contenga il parametro di riferimento pari ad uno meno alfa. generalizzando il discorso fatto su questo particolare paragrafo avremo che considerando un particolare fenomeno governato da una curva teorica, qualsiasi, Bernoulliana, ecc. ecc., dato un campione estratto casualmente del gruppo si vuole determinar e il parametro che caratterizza la curva stessa, dato il fatto che non si conosce il valore di riferimento per il parametro fondamentale della funzione. Per far ciò si indichi con Tn, una combinazione qualsiasi degli esiti campionari, tale combinazione, che dipende dalla funzione che legata tra di loro gli esiti, prende il nome di stimatore del parametro, dato il fatto che i valori in Tn sono valori casuali, combinazione di esiti casuali, a sua volta lo stimatore sarà una variabile casuale che dipende essenzialmente dal numero degli esiti campionari, variabile casuale ad n dimensioni. Considerando un esempio dato da: Tn=X*=y(x1,…,x2)=(1/n)S1-nxi. Dato il primo numero estratta come xx1 come esito della prima estrazione e xxn esito della n esima estrazione è possibile determinare un particolare valore dello stimatore indicabile come tn=y(xx1,xx2,…,xxn) Quali caratteristiche devono quindi possedere gli stimatori? La prima caratteristica da considerare è quella della correttezza, nota come prima caratteristica o prima proprietà, uno stimatore si dice quindi corretto se in media coincide con il parametro da stimare, dato quindi il parametro come (teta), variabile dipendente dalla variabile casuale da tenere in considerazione, E(In)=(teta). L’uso di stimatori corretti generalmente permette, dato B=E(Tn)-(teta), B prende il nome di distorsione, Bias, valore atteso dello stimatore meno parametro da stimare, indicando ES=I n-(teta), differenza tra stimatore del parametro e dal valore di stima, partendo dalla distorsione di può determinare il parametro (teta) come differenza tra il valore atteso dello stimatore e la sua distorsione (teta)=E(Tn)-B sostituendo nella seconda equazione determinata avremo che ES=In-E(In) +B. quando quindi l’errore di stima è nullo? Stimatore uguale al parametro da stimare? Si può dimostrare immediatamente che si ha uno stimatore nullo con distorsione zero e quando valore atteso meno valore reale sono pari a zero. Dato un campione di ampiezza pari a due e i relativi valori di media campionaria avremo (1). Dato uno stimatore distorto è possibile applicarvi delle modifiche in maniera da renderlo corretto, una seconda possibilità prevede l’analisi del comportamento asintotico, comportamento della distorsione al crescere della dimensione del campione. Valutazione del comportamento della distorsione all’aumentare della base campionaria determinando quindi un errore di stima insignificante o al massimo nullo, dato il limite che tende a zero dello stimatore si può dire di avere uno stimatore asintoticamente corretto per stimare campioni di grandi dimensioni, determiniamo quindi un errore di stima minimo. Un'altra proprietà che può essere richiesta agli stimatori è quella della consistenza o convergenza in probabilità si vuole quindi che l’errore di stima dello stimatore tenda a zero al crescere di n, ES=In-(eta) deve tendere a 0 qualora n, numero delle estrazioni, tenda ad infinito. Formalmente la consistenza o convergenza della probabilità si esplica come: uno stimatore si dice consistente o convergente in probabilità se fissata una costante (alfa), piccolissima in maniera indeterminata e a piacere, al crescere della dimensione campionaria è pari a uno, la probabilità che l’errore di stima sia più piccolo di (alfa). L’errore di stima si annulla quindi al crescere delle dimensioni del campione, sino ad un massimo dato dall’annullamento. 6 Data una variabile x la probabilità che lo scarto assoluto dalla media sia maggiore di (alfa), tale proprietà non supera la varianza fratto (alfa)2, vale anche la condizione opposta. Quanto detto permette, qualora generalizzato di dimostrare se uno stimatore converge in probabilità, tale valore è valido se si considera oltre la media un’altra costante. Quanto detto resta valido qualora al posto della media si consideri una qualsiasi altra costante, sia come riferimento degli scarti che degli scarti quadrati, varianza. Sostituendo ad x il valore teorico e a b il valore da stimare, e verificare per n che tende all’infinito, se tale probabilità tenda ad uno, per far ciò dovremo avere una varianza che tenda a zero. 7 Appunti Statistica Dodicesima settimana 1 Appunti del 11/12/2012 Per dimostrare quindi che la condizione di consistenza si verifichi è sufficiente dimostrare che lo stimatore noto come errore quadratico medio tendi a zero qualora n tendi all’infinito. È quindi possibile dimostrare come l’errore quadratico medio sia dato dalla somma di due quantità, cioè la varianza dello stimatore più l’indice di distorsione al quadrato. È sufficiente quindi dimostrare che i due limiti considerati, la varianza e la distorsione siano pari a zero, dato il limite per n che tende all’infinito. Avremo quindi la seguente dimostrazione (1). Considerando quindi solamente il doppio prodotto delle due variabili rielaborate avremo difatti un valore nullo come da dimostrazione (2). Ulteriore proprietà degli stimatori cioè quella della efficienza, terza proprietà, si tratta di efficienza relativa, poiché va distinta da quella assoluta, argomento non affrontato. Dato quindi il parametro oggetto di stima (O\), dati quindi due stimatori del parametro Tn1 e Tn2, a parità di altri condizioni utilizzeremo come stimatore di O\ quello che ha un errore quadratico medio più piccolo. (3) Esempio pratico (4), dato un campione estratti di ampiezza pari ad n. Quali sono quindi i metodi di stima, tecniche che consentono di determinare o dedurre gli stimatori dei parametri. Primo stimatori dei parametri o metodo dei momenti metodo più semplice ed immediato, noto anche come metodo di stima per analogia, o anche metodo di stima per corrispondenza, data la proprietà degli stimatori che verifica come i momenti campionari siano stimatori corretti dei corrispettivi momenti della popolazione, l’errore di stima è minimo rispetto a quello degli altri stimatori, tra gli altri esempi si è dimostrato come i momenti campionari siano stimatori corretti dei corrispondenti momenti della popolazione, partendo da questo principio, è possibile ricavare il metodo de momenti, volendo stimare il momento r esimo della popolazione si può per analogia o corrispondenza considerare il corrispondente momento campionario. (5) L’unico problema di questo metodo di stima è che stimando un momento centrato non sempre il metodo dei momenti fornisce stimatori corretti. (6) Come si è già visto però la varianza campionaria è uno stimatore distorto della varianza reale. Volendo però stimare il parametro che caratterizza un modello teorico, considerando i modelli teorici si era difatti detto che gli stessi sono caratterizzati da alcuni parametri, noti i quali si conosce praticamente ogni elemento del sistema. (7) Variabile uniforme continua. Si ha che per le curve teoriche i parametri caratterizzati sono legati ai momenti della curva stessa. Primo stimatore dei parametri o metodo di massima verosimiglianza iniziando con un esempio avremo, date due urne composte relativamente da Rosso o Nero, ipotesi semplificativa, nella prima vi sono novanta palline rosse e dieci palline nere, nella seconda urna vi sono cinquanta palline rosse e altrettante nere. Estraendo una pallina a caso questa è risultata Rossa, tale pallina da quale delle due urne è stata estratta? Considerando tutti gli strumenti sino ad ora visti si può procedere per tale attribuzione tramite il calcolo delle probabilità, si verifica se è più probabile che tale risultato provenga dall’urna uno o due, confrontando quindi le probabilità si può determinare da quale valore proviene l’estrazione effettuata. Così procedendo è possibile effettuare una stima di massima verosimiglianza della provenienza dell’elemento Rosso; poiché è più verosimile che tale estrazione provenga dalla prima urna tale estrazione si considera come proveniente da tale urna. Tale processo può poi essere applicato anche ad una serie infinita di alternative: dato il modello teorico (8) caratterizzato dal parametro O\. data l’analisi di un modello discreto e la semplificazione che O\ possa assumere due valori noti: O\1 e O\2, dato un campione si vuole stabilire se il parametro che caratterizza la curva stessa è il primo o il secondo. 2 Appunti del 12/12/2012 Elemento non affrontato a lezione ma considerato a esercitazione, t di Student, intervallo di confidenza ove invece di utilizzare la normale standardizzata si utilizza la T di Student, variabile casuale non considerata, non è argomento di esame. Tale variabile, supponendo che x sia distribuita in maniera normale con una media ignota ma con varianza nota, è possibile, considerando il teorema del limite centrale, data variabile campionaria con campione amplio, la media campionaria è distribuita in modo normale con media normale e varianza data dalla varianza fratto n. nel caso reale potrebbe accadere che media e varianza siano incognite, estraendo un campione casuale da questa variabile è necessario conoscere come è distribuita tale variabile che è nota come t di studente, tale variabile è distribuita in maniera simile ad una normale, curva a campana, differisce rispetto alla normale per il fatto che l’andamento a forma di campana dipende dalla numerosità del campione considerato, che in tale contesto prende anche il nome di grado o gradi di libertà, ciò fa si che all’aumentare di n aumenta la similitudine con una normale; la differenza essenziale con la normale è che la t di Student presente una distribuzione più marcata al lati, tale differenza scompare al crescere della dimensione del campione, gradi di libertà. Come già visto per la normale per la t di Studente esistono delle tavole che calcolano i livelli di libertà data la dimensione del campione, tale è il valore indicato nelle tavole della t di Student (2). Il calcolo dell’intervallo di confidenza quindi per la media di una popolazione distribuita in maniera normale, data la varianza, tale intervallo è pari a (3), data la varianza non conosciuta è possibile sostituirla con la varianza campionaria, corretta o no, il valore za/2 andrà cercato sulle tavole della t di Student. Metodo di stima della massima verosimiglianza, dato il campione o evidenza si deve dimostrarne la provenienza, tramite la probabilità. La funzione congiunta che ne deriva si chiama funzione di verosimiglianza, va notato come tale funzione dipende dal parametro oggetto di stima, probabilità che dipende dal parametro oggetto di stima, data la possibilità di ottenere due valori non si una funzione continua, anche se ciò è probabile qualora si considerino tutti i casi della funzione stessa. Tralasciando l’ipotesi di un parametro che possa assumere solamente due o più valori definiti, poiché il parametro realmente può prendere qualsiasi valore compreso tra zero e uno, si deve quindi scegliere il valore che tra zero e uno da un valore che massimizza la funzione L, tale funzione è continua in |P. Per fare ciò è necessario (4). L’operazione può complicarsi per far ciò si lavora sul logaritmo, trasformata monotona della funzione di verosimiglianza ciò fa si che il punto di massima dell’una coincida con il punto di massima dell’altra. Data la stima del parametro ottenuta, poiché il campione estratto era fissato a priori, si può quindi generalizzare qualora il campione non sia fissato a priori, data una qualsiasi curva, o modello teorico, nello specifico Bernulliana, estraendo quindi casualmente un campione indicabile come (x1; x2;…; xn). data la generica funzione di verosimiglianza è possibile determinare il valore di !P tale per cui la funzione di verosimiglianza è massima. Passando da una curva teorica discreta a una continua, caso di esponenziale negativa, da cui avremo che (5), estratto il campione si deve costruire la funzione di verosimiglianza, espressa sempre in funzione del parametro oggetto di stima. Per risolvere il problema che si determina probabilità del valore pari a zero si considera la densità di probabilità calcolata in quel valore, altrimenti la singola probabilità del valore sarebbe zero. (6). Per determinare la stima si esprimono in forma trattabile, algebricamente parlando la densità di probabilità congiunta, data la rielaborazione, per rendere agevole la derivata posso calcolare la trasformazione logaritmica. 3 Appunti del 13/12/2012 Avviso: fine del corso martedì 18 Giovedì 20 vi sarà un’esercitazione in orario di lezione sull’ultimo argomento svolto, Mercoledì 19 10.00-12.00 vi sarà un ricevimento straordinario. Per stimare due parametri dato una variabile casuale si stima un parametro dato l’altro come costante, e dato il risultato determineremo l’altro parametro, l’analisi può anche essere svolta in maniera congiunta anche se con complicazioni dovute alla presenza di un sistema di due derivate prime date dalla presenza di due parametri da stimare e quindi due variabili secondo cui derivare la funzione e che vanno poi massimizzate. Vi sono quindi tutta una serie di proprietà di cui godono gli stimatori di massima verosimiglianza, gli stimatori ottenuti con questo metodo sono stimatori noti come consistenti, o quantomeno convergenti in probabilità, dati errori grandi l’errore di stima è piccolo, le stime si avvicinano ai valori veri dei parametri. Tali stimatori sono poi asintoticamente distribuiti in maniera normale, dati campioni di grandi dimensioni, la distribuzione ne dello stimatore, variabile casuale, data però la natura di massima verosimiglianza per campioni di amplia dimensione risultano distribuiti in maniera normale. Gli stimatori si ottenuti sono poi efficienti l’errore quadratico medio è minimo. Gli stimatori si ottenuti godono poi della proprietà nota come invarianza, ciò implica che (2) quindi data una funzione che lega due parametri casuali espressa secondo il primo parametro e data la stima del primo parametro la stima del secondo non sarà altro che l’inverso della funzione secondo la stima del primo. (Ultimo argomento) Prova di Ipotesi argomento prettamente pratico, si tralasceranno questioni teoriche e conseguenti teoremi, si intende per prova delle ipotesi una procedura statistica che consente, o quantomeno ha l’obbiettivo, di verificare con quali livelli di probabilità sono vere le ipotesi fatte su un parametro di una popolazione. Dato il caso pratico avremo (3). Una ditta sostiene che un nuovo tipo di fertilizzante, incrementa la produzione per ettaro del 10%, supponendo quindi di sapere che la produzione per ettaro di tale prodotto ha una distribuzione di tipo normale, con una media di 50 quintali per ettaro e con una deviazione standard, o scostamento quadratico medio di 7 quintali, dato l’aumento di un dieci per cento i tale produzione si vuole verificare se effettivamente tale è l’incremento della produzione. Per fare ciò si fanno due ipotesi la prima, nota come H0, prende il nome di ipotesi nulla, e specifica quanto è già noto, avremo poi un’ipotesi H1, nota come ipotesi alternativa, tale ipotesi contraddice quella nulla. Volendo quindi verificare quale delle due ipotesi è quella giusta, ciò permette di stabilire la veridicità dell’affermazione della ditta. Per far ciò, probabilisticamente parlando, è necessario considerare un campione di appezzamenti, ed in ognuno di questi appezzamento effettuare il trattamento concentrando l’attenzione sulla media campionaria, produzione media del campione, data per vere le due ipotesi avremo (4). Si può quindi procedere per ottenere il nostro obbiettivo con il metodo della massima verosimiglianza, verificando la probabilità dell’estrazione tra le varie alternative, determinando poi la massima. Accetteremo una delle due probabilità ogni qual volta una delle due medie saranno superiore al valore sotto l’ipotesi alternativa. Dato quanto detto è possibile stabilire quale delle due ipotesi è accettabile procedendo nel seguente modo: suddividere l’insieme dei valori della media campionaria in due sottoinsiemi, il primo noto come A e il secondo R, nel primo registreremo tutti i valori della media campionaria tali per cui la densità della stessa sotto l’ipotesi nulla sia maggiore o pari alla stessa sotto l’ipotesi alternativa, tale insieme è la regione dell’accettazione dell’ipotesi nulla, nel secondo troveremo tutti i valori rimanenti. Sorge spontanea la domanda su come vada effettuata la suddivisione 4 dell’insieme totale nelle due regione, è sufficiente determinare il punto critico, punto ove le due curve si incrociano, a sinistra dello stesso troviamo valori di accettazione di H0 e a sinistra i valori di accettazione di H1. Tale punto si individua uguagliando tra di loro le due densità. (5). 5 Appunti statistica Lezione di recupero 1 Appunti del 18/12/2012 Data quindi un’ipotesi di partenza e una ipotesi alternativa e quindi centrata su un differente valore si ha che sino a che l’intensità vale sino ad un determinato valore si hanno due ragioni una di accettazione e uno di rifiuto di entrambe le ipotesi. È possibile osservare come procedendo nel modo appena svolto, suddivisione in due sottoinsiemi, il primo che verifica l’ipotesi nulla, e il secondo che determina il rifiuto dell’ipotesi nulla, vi possono essere degli errori: un primo potrebbe essere il rifiuto dell’ipotesi nulla qualora questa nella realtà è vero, ciò indica che si osserva una media campionaria più grande del valore che fa da spartiacque, dato questo errore si ha una media maggiore dello spartiacque, o punto critico ma si rimane nell’ipotesi nulla, questo errore prende il nome di errore di prima specie è necessario quindi definire con che probabilità si commette un errore di prima specie? Si tale probabilità può essere calcolata ed è uguale alla probabilità che la media campionaria sia maggiore del punto critico supponendo che H0 sia l’ipotesi vera (1) tale probabilità prende anche il nome di significatività del test statistico condotto, il complemento a uno di a è la probabilità di accettare correttamente l’ipotesi nulla quando la stessa è vera, noto come complemento o complementare. Vi è poi l’opzione di errore di rifiuto dell’ipotesi alternativa quando la stessa è vera, in questa seconda situazione si ha una media campionaria minore del punto critico però rimane vera l’ipotesi alternativa, la probabilità di tale errore si determina come (2). Tale errore prende il nome di errore di seconda specie, il relativo complemento rappresenta invece la probabilità corretta di accettare l’ipotesi alternativa quando la stessa è vera, e prende il nome di 1-B ed è anche nota come potenza del test, contro il valore di B che rappresenta la probabilità di rifiutare l’ipotesi alternativa quando essa è vera. Quando detto è riassumibile come in tabella (3), dato da un lato l’evento che si verifica, media campionaria appartenente al rifiuto di ipotesi nulla o media campionaria che appartiene all’accettazione dell’ipotesi nulla, le decisioni che si possono prendere fanno si che se la media campionaria appartiene ad A si accetta l’ipotesi nulla, H0, se invece la media campionaria appartiene all’area di rifiuto si rifiuta l’ipotesi H0. Dato quindi un errore di prima specie che sembra essere troppo alto è possibile abbassarlo traslando ad esempio il punto critico, si fissa quindi a priori l’errore di prima specie, cercando il minor grado di errore, determinando quindi il relativo punto critico conseguente. (4). Il nuovo valore di va necessariamente calcolata come (4.1) e così il relativo punto B, la relazione esistente tra il punto B ed A sono inversamente proporzionali. Esiste un metodo in grado di diminuire contemporaneamente A e B cioè aumentare la dimensione del campione. Sorge un primo problema relativo al fatto che fissato un valore dell’errore di prima specie non è possibile determinare un livello di B che sorge come spontaneo dalla nostra ipotesi. Sorge infine un altro problema, fissando difatti a priori la probabilità di commettere un errore di prima specie la regione di rifiuto dell’ipotesi nulla non è univocamente determinata, (5). Dovendo quindi stabilire quale ipotesi accettare è necessario, considerando la precedente indeterminatezza, si arriva a fissare a priori l’errore di prima specie e si sceglie come regione di rifiuto dell’ipotesi nulla quella tale per cui la potenza del test risulta massima, il problema risulta quindi sull’esistenza della regione di rifiuto in queste condizioni? Si esiste, ed è noto come teorema di Neyman-Pearson. Una volta fissato a a priori è possibile determinare una regione di rifiuto dell’ipotesi nulla facendo si che la potenza del test sia massima. 2 Un primo sistema di ipotesi è quello già visto ove, note come ipotesi semplici: (6) vanno distinte le ipotesi semplici, già considerate, da quelle composte ove l’ipotesi alternativa invece di specificare una sola ipotesi ne specificano più di una ipotesi, (7). Vi è poi una ultima situazione che fa riferimento al caso pratico esprimibile come (8) tale verifica di ipotesi si conduce come la si condurrebbe con ipotesi semplici. Data la condizione di partenza relativa all’analisi di una funzione reale con media incognita e varianza nota, data la verifica di ipotesi per la varianza utilizzeremo uno stimatore corretto noto come la varianza campionaria corretta. (9) esempio uno. (10) esempio due. (11) esempio tre. 3