DISTRIBUZIONI DI FREQUENZA L’info statistica è costituita dal carattere statistico (fenomeno oggetto di studio) e dall’unità statistica sul quale è osservabile il fenomeno. Il fenomeno ha rilevanza statistica quando si manifesta in diverse modalità e quindi quando è variabile. I caratteri statistici possono essere: Quantitativi variabili discrete (assumono valori in un insieme discreto es.un voto d’esame) variabili variabili continue (quando assumono valori in un intervallo limitato o illimitato) statistiche (n° reali o Valori) Qualitativi L’obiettivo della statistica è lo studio della popolazione, e la rilevazione della stessa può essere effettuata a CENSIMENTO (rilevazione esaustiva e riguarda tutte le unità statistiche) o CAMPIONAMENTO (la rilevazione avviene solo su alcune unità statistiche che costituiscono il campione). Il dato calcolato sul campione è senz’altro un approssimazione del dato vero così come le generalizzazioni possono essere derivate utilizzando l’inferenza statistica calcolando al livello probabile il grado di incertezza di ogni risultato. All’aumentare di unità statistiche diviene più difficile l’analisi. Le informazioni vanno perciò sintetizzate e la prima elaborazione dei dati è la distribuzione di frequenza. Considerando un insieme di n unità statistiche sul quale è stato osservato un carattere che assume k modalità (m1,m2,m3 etc..). Si definisce frequenza assoluta di mi il numero di volte che la modalità mi e stata osservata sulle n unità statistiche e si indica con ni. Ξni = n1+n2+…+nk= n dopo aver calcolato le frequenze è possibile darne una rappresentazione mediante una tabella. L’insieme delle modalità assunte dal carattere con le corrispondenti frequenze costituisce la distribuzione di frequenza. Quando un carattere quantitativo (continuo o discreto) assume numerosi valori, la costituzione della distribuzione di frequenza richiede che le osservazioni siano raggruppate in classi. Le classi debbono essere: - Disgiunte in modo da evitare ambiguità. - Esaustive di modo che tutte le osservazioni possano essere collocate nelle classi. - Scegliere scientemente il numero delle classi difatti dovrebbe essere garantito il compromesso tra sintesi e dettaglio, si potrebbe perciò cominciare con un numero elevato di classi per poi procedere all’aggregazione. - Ampiezza conviene perciò che le classi abbiano, laddove sia possibile rispettando i criteri di dettaglio e sintesi, la stessa ampiezza. Nella costruzione delle classi è necessario fare attenzione affinché il valore centrale (semi-somma degli estremi) sia rappresentativo della classe. La frequenza relativa è la distribuzione indipendente dalla numerosità delle unità statistiche. Quindi fi=ni/n e la somma di tutte le frequenze relative è pari ad 1. Ξfi=1 L’istogramma è un grafico mediante il quale di rappresentano le distribuzioni di frequenza di un carattere quantitativo. Le basi dei rettangoli sono le classi mentre l’area è proporzionale alla frequenza delle classi. L’altezza è data da fi/Ai dove Ai=x(i)-x(i-1). fi=ni/n Valore modale un valore a cui corrisponde la massima frequenza Classe modale una classe a cui corrisponde la massima frequenza Distribuzione congiunta per cui vengono considerati due fenomeni A e B che si presentano in ai (i=1,2,..k) e bj (j=1,2,…h) modalità; nij è la frequenza congiunta. La sommatoria delle frequenze congiunte è pari ad n. INDICI DI POSIZIONE Se c’è necessità di sintesi e quindi impossibilità nel creare un istogramma si utilizzano questi indici. La media sia X una variabile statistica che assume n valori (x1,x2,..xn) la media (aritmetica) è data X = 1/nΞxi se è disponibile la frequenza ni e vogliamo ponderare X= 1/n Ξ xi ni L’approssimazione della media è la media dei valori centrali (valore medio per ogni classe) Proprietà della media: 1. Trasformazione linare Y=aX+b per cui yi=axi+b la media di y è data dalla trasformazione lineare della media di x 2. Media è quel valore che sostituito ad goi osservazione lascia invariata la somma 3. La somma degli scarti xi-x(media) dalla media è nulla 4. Minimizza la somma dei quadrati degli scarti Ξ(xi-x(media))^2 ni= min Ξ(xi-a)^2 ni Definita distanza d(x,a) dei dati di un indice di posizione a l’obiettivo è determinare a di modo che la somma delle distanza sia minimizzata d(x,a) = (xi-a)^2 se d(x,a) = Ixi-aI indice di posizione ottimale è la mediana. La mediana valore centrale di una distribuzione e divide i dati in due parti di eguale numerosità. La profondità di una mediana è prof(med)=n+1/2 se n è dispari la mediana coincide con questo valore, se n è pari la mediana è la media dei due valori in mezzo al valore (3 e 4 la mediana è 3,5) Proprietà: 1. Sia y trasformazione linare di X med(Y) = amed(X)+b 2. Siano x1-med,x2-med,…,xn-med gli scarti della mediana il numero di scarti positivi è uguale al numero degli scarti negativi. 3. La mediana è quel valore che minimizza la somma degli scarti in valore assoluto. Ξ Ixi-medI = min Ξ Ixi-aI Mentre la media è sensibile alle osservazioni anomale la mediana non lo è in quanto osserva soltanto ciò che accade agli estremi della distribuzione. La moda di una variabile X che assume valori x1,x2,…,xn con frequenza n1,n2,..,nk è il valore X al quale corrisponde la massima frequenza xi*ni. La moda vale anche per caratt. qualitativi. INDICI DI VARIABILITA’ Gli indici di posizione sono funzionali se la dispersione dei dati intorno ad essi è minimizzata. La varianza è il più importante indice di variabilità e dispersione. S^2 = 1/n Ξ (xi-x(med))^2 fornisce info sull’ordine di grandezza degli scarti. Visto che la somma degli scarti è nulla (in quanto pos. E neg.) la varianza considera gli scarti privati di segno. Varianza è definita anche come differenza della media dei quadrati e del quadrato della media. Varianza è espressa in un unità di misura diversa da quella dell’oggetto, per ottenere un indice con la stessa unità di misura si usa lo scarto quadratico medio s=√s^2 qualora sia disponibile la distribuzione di frequenza è come la varianza moltiplicando a dx per ni Proprietà : 1. La disuguaglianza di Chebyshev è possibile dimostrare che fr(IX-x(media)I<ε)>= 1-s^2/ε^2. Esiste perciò un intorno della media per cui X assume valori nell’intervallo x(media)-ε e x(media)+ε. La semi ampiezza dell’intorno è ε con frequenza relativa pari alla quantità a dx della virgola. 2. Sia s^2 la varianza di una trasformazione lineare s”y=s”(ax+b)=a^2*s^2(x) 3. Varianza e indipendente dalla posizione ma sensibile ai cambiamenti di scala. (se si aggiunge q=b la varianza non cambia in quanto non variano gli scarti, se moltiplico si) Quando la variabile assume solo valori positivi conviene usare il coefficiente di variazione CV=s/x(media) che non dipende da unità di misura e no sensibile ai cambiamenti di scala. La mediana degli scarti assoluti della mediana è un indice non sensibile alle osservazioni anomale. MAD(median absolute deviation)= 1,483 mediana (I xi-med I) la costante rende la MAD confrontabile con lo scarto quadratico medio. La differenza interquartile misura la variabilità del 50% dei dati al centro della distribuzione (si dividono i dati in tre quartili Q1 Q2 Q3 che si lasciano Q1 il 25% dei dati a sinistra etc..)Q1 e Q3 sono considerati come la mediana della I e II metà dei dati. La profondità del I quartile prof(Q1) = prof(med)+1 /2 se Q1 è un numero intero osservazione altrimenti Q1+(Q1+1)/2 La differenza interquartile è pari a DQ=Q3-Q1 e fornisce info sulla variabilità della media centrale (non risentente dei valori anomali in quanto si trascurano gli estremi). Il campo di variazione come differenza tra gli estremi xn-x1 ed è eccessivamente sensibile alla presenza di osservazioni anomale. CALCOLO DELLE PROBABILITA’ Misura l’incertezza detta logica del possibile o dell’incerto associata ad enunciati del tipo ne vero ne falso ma possibile. La proposizione di interesse per il calcolo viene chiamata eventi casuali e si definisce esperimento casuale per ogni fenomeno del mondo reale per il quale vi è più di un risultato possibile (w1,w2,…wn). L’insieme di tutti i risultati possibili è chiamato spazio campionario. L’evento casuale è perciò la proposizione non ambigua formulabile intorno a un esperimento casuale, gli eventi sono sottoinsieme di S. Gli eventi elementari sono quelli composti da un singolo elemento. Il diagramma di Venn è quello per cui lo spazio viene raffigurato come un rettangolo mentre le figure all’interno sono gli eventi. 1) intersezione (si verificano contemporaneamente) 2) unione quando è costituito da elementi che caratterizzano solo A o solo B o entrambi. 3) negazione A(trattino) è l’insieme complementare di A e perciò l’evento che si verifica quando non si verifica A ed è perciò negazione di A. 4) A e B si dicono incompatibili quando non si possono verificare contemporaneamente 5) n eventi si dicono necessari se la loro unione da l’evento certo quindi S. La probabilità definizione frequentistica: si applica agli eventi ripetibili (replicabili indefinitamente senza che il risultato sia influenzato dalle prove precedenti). n(numero di replicazioni) k(il numero delle volte in cui si è verificato A, la probabilità è il valore a cui converge la frequenza k/n di A al divergere di n. Ma non tutti gli eventi sono ripetibili. Definizione soggettivistica: dipende dal grado di fiducia che un individuo ha nel verificarsi di un event. Su una scala da 0 a 1 sono disposta a scommettere 0,8 per guadagnare uno nel caso di si verifichi. La valutazione è però soggettiva (sulla base delle info disponibili) Impostazione assiomatica: Sia S lo spazio campionario si dice probabilità la funzione P(A) che associa ad ogni evento A un numero reale che soddisfa tre postulati: -per ogni evento A la P(A)≥0 -la probabilità dell’evento certo è P(S) = 1 -siano A e B due eventi incompatibili la probabilità che A∩B ≠0 è uguale P(AUB)= P(A)+P(B) Teoremi: -dato un evento A la sua probabilità di negazione è P(Atrattino) = 1-P(A) in quanto AUA(trattino)=S -la probabilità dell’evento impossibile è nulla P(0)=0 -per qualsiasi evento sia A P(A)≤1 -dati due eventi la probabilità dell’unione è P(AUB)=P(A)+P(B)-P(A∩B) Fr(A*)=fr(A)-(fr sommate di dove sta A – (frequenza dell’intersezione) Quando gli eventi elementari sono equiprobabili e in numero finito l’evento A si ottiene come rapporto tra casi favorevoli e casi possibili. En elementi elementari se equiprobabili ciascuno ha probabilità 1/n P(Ei)=1/n Se vengono presi in considerazione solo k elementi allora invece che 1/n sarà k/n. La probabilità di un evento si modifica anche in seguito alle info relative ad un altro evento. La probabilità condizionata è perciò P(A I B)= 1-P(A∩B)/P(B) oppure come P(A) = P(B) P(A I B) + P(B trattino) P(A I B trattino). Si condirano due eventi tali che B è indipendente da A se P(B I A) = P(B) l’info relativa al verificarsi di A non modifica il verificarsi di B. Se sono indipendenti A e B lo sono anche tutte le combinazioni tra A trattino e B trattino. Due eventi incompatibili ( non possono essere indipendenti ( (infatti se sono incompatibili non si verificano insieme). Teorema di Bayes distingue la probabilità a priori attribuita ad un evento di interesse e la probabilità a posteriori ossia quella aggiornata in funzione di una info aggiuntiva. P(A) prob.a priori e P(B) l’evento subentrato e assumendo che siano note le probabilità probative o verosimiglianze P(A I B) = P(A∩B)/P(B). La somma delle probabilità a posteriori P(A I B) e P(Atrattino I B). generalizzando il teorema ad n ipotesi P(Ai I B) = P(Ai)P(B I Ai)/ΞP(Aj)P(B I Aj) Siano M ed L due caratteri statistici dello stesso fenomeno che assumono (m1,m2,..mk) ed (l1,l2,…lh). S= ((m1,l1)(m2,l2),…(mk,lh)) mentre E11=(m1,l1) E12=(m1,l2) sono gli eventi elementari associati. Ad ogni coppia è associata una probabilità congiunta pij≥0 per ogni i e j; l’insieme delle probabilità congiunte è chiamato distribuzione di probabilità congiunta. Se l’interesse si dovesse spostare dalla coppia di caratteri M ed L ad uno solo si calcola la probabilità marginale che è non negativa. VARIABILI CASUALI Una variabile viene definita casuale perché il suo valore dipende dall’esito dell’esperimento casuale ed è una funzione che associa ad ogni possibile risultato un numero reale. (variabili espresse in lettera maiuscola i valori in lettera minuscola). Per ogni elemento di S un solo valore ma ad una variabile anche + valori. Le variabili casuali si distinguono in discrete e continue. Sia X una variabile casuale discreta può assumere un num finito di valori (x1,x2,…,xn) con probabilità pi=P( X = xi) con le seguenti proprietà pi≥0 per ogni i e la ∑pi=1 Sia X una variabile casuale continua è associata una f(x) tale che P(a≤X≤B) che X assuma valori compresi tra a e b è data dall’area sottesa ad f(x) sull’intervallo (a,b). La f è chiamata funzione di densità con le seguenti proprietà: -f(x)≥0 per ogni x -la misura dell’area sotto la funzione di densità è =1 come affermare che la probabilità dell’evento certo è 1 La probabilità che assume un solo valore è nulla in quanto non esiste intervallo. La funzione di ripartizione F(x) è la probabilità che X assuma un valore massimo pari ad x F(x)= P(X=x). Per variabili discrete il valore della ripartizione nel punto x è dato dalla somma di tutte le pi dei valori xi non superiori ad x F(x)=∑(sotto xi≤x) pi e la funzione è una f a gradini (punti di discontinuità sono in corrispondenza delle x mentre le h dei salti sono le probabilità). La probabilità che una variabile casuale discreta o continua assuma valori nell’intervallo (a,b) può essere calcolata come la differenza tra il valore assunto all’estremo superiore e quello all’estremo inferiore. L’indice che fornisce informazioni sulla posizione di una variabile casuale X è il valore atteso μ=E(X)=∑xi pi Il valore atteso è l’equivalente della media(del contesto descrittivo). E(X) valore a cui converge la media dei valori osservati per n +∞ La varianza è indice di variazione per il calcolo delle probabilità σ²=Var(X)=E(X-μ)² mentre per le discrete σ²=E(X²)-μ² oppure σ²=∑(xi-μ)²pi. La disuguaglianza di Chebyshev P(I X-μ I<ε)≥1- σ/ε per ogni ε>0 la probabilità è almeno la parte a dx dell’uguale. Il valore atteso di Y intesa come trasformazione lineare del valore atteso di X è σ²y=a²σ²x mentre lo scarto quadratico medio è σy= IaI σx. Variabili casuali standardizzate Z=X-μ/σ e Z=1/σX-μ/σ una variabile casuale standardizzata la media è nulla e la varianza unitaria. VARIABILI CASUALE DOPPIE Variabile casuale doppia quando l’interesse riguarda due caratteristiche che si manifestano congiuntamente sulla stessa unità statistica. X ed Y sono variabili casuali marginali se entrambe sono discrete lo è anche la v.c.doppia. esistono tre tipi di distribuzioni: -congiunta (probabilità con cui entrambe assumono determinati valori) -marginale (considerare le variabili come uni variate) -condizionata (osservare la distribuzione di una delle due dato che l’altra ha assunto un determinato valore evidenziando l’incidenza di una sull’altra). Ad ogni coppia è associata una probabilità congiunta pij=P((X=xi)∩(Y=yj)). L’insieme di tutte le coppie possibili di valori (xi,yi) costituisce la f di probabilità congiunta. Proprietà pij≥0 e ∑∑pij=1. Le f di probabilità marginali pi.=∑pij. I valori attesi marginali μx=∑xipi e le varianze marginali σx= ∑(xi-μ)²pi. Le funzioni di probabilità condizionata P(Y=yi I X=xi) = P(X=xi∩Y=yi)/P(X=xi) = pij/pi Il valore atteso condizionato E(Y I X=xi) = ∑yi*pij/pi La varianza condizionata Var(Y I X=xi) = ∑(yj-valore atteso)² * pij/pi Le variabili casuali doppie sono indipendenti quando lo sono anche gli eventi in questo caso le probabilità marginali congiunte coincidono pij= pi*pj Nel caso di variabili casuali doppie continue la f di densità marginale sono fx(x) e fy(y). Sono indipendenti quando f(x,y)=fx(x)fy(y). Un valore atteso importante è la covarianza σxy = E (X-μx)(Y-μy) nel caso continuo invece nel discreto =∑∑(xi-μx)(yj-μy)pij oppure anche σxy = μxy-μxμy dove μxy= ∑∑xiyj pij se esiste dipendenza lineare la covarianza ne individua il segno ed è considerata il valore atteso del prodotto degli scarti. Proprietà della covarianza: -Se X ed Y sono indipendenti μxy=μxμy allora la covarianza è nulla (ma non viceversa infatti potrebbero non avere legame lineare ma averne comunque uno non lineare). -date due variabili la covarianza tra trasformazioni lineari Cov(aX+b,cY+d)=acCov(X,Y) -Disuguaglianza di Cauchy-Schwarz la covarianza in valore assoluto è al massimo uguale al prodotto degli scarti quadratici medi σxσy≤σxy≤σxσy e se tra le due c’è perfetta dipendenza lineare IσxyI=σxσy. Indice di intensità di legame lineare tra due variabili è il coefficiente di correlazione ρxy=E((X-μx/σx)(Y-μy/σy) oppure come ρxy=σxy/σxσy. Proprietà del coefficiente sono: -il coefficiente conseguentemente alla III proprietà della covarianza assume valori nell’intervalli (-1,1) -il valore assoluto del coefficiente in una situazione di perfetto legame lineare è =1 se ρ=0 non c’è legame lineare. -se le variabili sono indipendenti ρxy=0 infatti non c’è alcun legame tra le variabili ma non viceversa(non lineare). -il coefficiente di correlazione è invariante (tranne che per il segno) nelle trasformazioni lineari. Date due variabili casuali X,Y una combinazione lineare è data da aX+bY il valore atteso è E(aX+bY)=aμx+bμy La Var(aX+bY)= a²σ²x+b²σ²y+2abσxy e se la covarianza è =0 viene eliminato il doppio prodotto. Somma e differenza tra due variabili casuali il valore atteso si somma la varianza = σ²x+σ²y±2σxy. MODELLI PER VARIABILI CASUALI DISCRETE Variabile casuale di Bernoulli caso in cui un esperimento ha due soli esiti possibili (successo o insuccesso). La probabilità del successo è π e quella dell’insuccesso è (1-π) per indicare che X ha distribuzione di Bernoulli X~Ber(π) (onda “si distribuisce come”) f di probabilità P(X=x)=π^(x)(1-π)^(1-x) il valore atteso coincide con π mentre la varianza è pari a π(1-π) Variabile casuale binomiale caso in cui un esperimento ha un risultato dicotomico. Si eseguono n prove indipendenti con probabilità di successo pari a π si scrive come X~B(n,π) la variabile assume valori interi compresi tra n e 0 per cui P(X=x)=(n x) π^(x)(1-π)^(n-x). Non interessa l’ordine dei successi o insuccessi ma soltanto il numero. P è data dal prodotto della probabilità di una particolare sequenza per il numero di sequenze nel quale si possono presentare x successi nelle n prove. Un variabile casuale binomiale può essere rappresentata come n casuali Bernoulliane yi~Ber(π) inoltre E(X) =nπ Var(X)=nπ(1-π). MODELLI PER VARIABILI CASUALI CONTINUE La variabile casuale normale è una f che ha il max in corrispondenza della media e decresce simmetricamente nelle code. f(x)= 1/√2πσ²*e^(1/2*(x-μ)²/σ²) -∞≤x e μ≤+∞ e σ²>0 si chiama X~N(μ,σ²). La funzione ha forma campanulare centrata sulla media e al variare del valore atteso la f trasla sull’asse delle ascisse. Una variabile casuale normale standardizzata ha μ=0 e σ²=1 Z~N(0,1). La φ(z)=1/√2π*e^(-1/2*z²). La funzione di ripartizione Z si indica con Φ(z)=P(Z≤z) tabulata per z≥0. E’ possibile calcolare la probabilità che Z assuma valore in una qualsiasi regione dell’asse reale. -P(Z≥z) per z>0 è l’area sotto Φ(z) alla dx della z; poiché l’area sotto la f.di densità è pari ad 1. -Z>-z con z>0 P(Z≥-z)=Φ(z) -Z<-z con z>0 P(Z≤-z)=Φ(-z)=1-Φ(z) -Z assuma valori nell’intervallo (z1,z2) P(z1≤Z≤z2)=Φ(z2)-Φ(z1) -trasformazione lineare X~N(μx,σ²x) Y=aX+b è ancora normale con media aμx+b e varianza a²σ²x Perciò standardizzando X come X-μ/σ la probabilità che assuma valori nell’intervallo P(a≤X≤b)=(a-μ/σ≤X-μ/σ≤b-μ/σ) = Φ(b-μ/σ) – Φ(a-μ/σ). Proprietà riproduttiva della variabile casuale normale dice che le combinazioni lineari di variabili casuali normali indipendenti generano variabili casuali la cui distribuzione è ancora normale. Paticolare rilievo ha la media di n variabili indipendenti con media μ e varianza σ²/n per la proprietà riproduttiva Xtrattino=1/n∑Xi~N(μ,σ²/n). La variabile casuale uniforme assume valori in un intervallo (θ1,θ2) la notazione è X~U(θ1,θ2) la funzione di densità f(x)=1/(θ2-θ1) costante nell’intervallo; la forma della f è tale che la probabilità che x assuma valori in due diversi segmenti di eguale ampiezza è la stessa. E(x)= (θ1+θ2)/2 (la media coincide con il valore centrale dell’intervallo) e la Var(x)= (θ2-θ1)²/12. La variabile casuale chi-quadrato Siano Z1,Z2,…Zn variabili casuali standardizzate Zi~N(0,1) e indipendenti X=∑Z²i ha una distribuzione χ² con n gradi di libertà (n è il numero di variabili indipendenti). E(x)=n Var(x)=2n. I percentili χ²(n,a) sono tali che la variabile casuale χ²n assuma valori > di χ²(n,a) con probabilità a. P(χ²n≥ χ²(n,a))=a se minore è uguale a 1-a. La variabile casuale t di Student Sia Z una vaiabile normale standardizzata e Y una variabile χ²n fra loro indipendenti X=Z/√(Y/n) ha distribuzione t student X~tn con n gradi di libertà. Variabile t student assume valori reali e ha distribuzione simmetrica intorno allo zero. (simile alla variabile normale graficamente ma con > dispersione e tende a zero + rapidamente) P(tn≥t(n,a))=a se minore è uguale a 1-a. Se n diverge positivamente tn converge alla distribuzione di una variabile casuale normale standardizzata. TEOREMA DEL LIMITE CENTRALE Dimostra che la distribuzione della media o della somma di n variabili casuali indipendenti tende alla distribuzione di una variabile casuale normale quando n diverge positivamente. Considerando una successione di variabili X1,X2,…Xn tali che E(xi)=μ e Var(xi)=σ² viene chiamato X(trattino)n la media delle prime n variabili casuali. X(trattino)n= 1/n∑Xi la varianza si trasforma in Var(xn)=σ²/n. Per n che diverge pos la varianza di X(trattino ì) tende a zero e quindi la distribuzione converge a quella di una costante che assume lo stesso valore della media. Media standardizzata Z(trattino)n=X(trattino)n-μ/(σ/√n) si ottiene una variabile con media nulla e varianza unitaria. Perciò quando n diverge la distribuzione converge ad una variabile casuale normale standardizzata. Ogni volta che una variabile può essere espressa come media di n variabili casuali indipendenti è possibile approssimare la probabilità che assuma valori in un intervallo (a,b) utilizzando la f. di ripartizione di una variabile casuale standardizzata. P(a≤X(trattino)n≤b)=P(aμ/(σ/√n) ≤ Z ≤ b- μ/(σ/√n)). Somme di variabili casuali indipendenti Yn= ∑xi con E(x)=nμ e Var(xi)=nσ² la variabile somma standardizzata coincide con Z(trattino)n infatti Yn-E(Yn)/√Var(Yn). CAMPIONAMENTO Inferenza è l’insieme di metodi finalizzati ad ottenere la migliore conoscenza possibile sulla base delle info campionarie. (processo inverso della probabilità) Il procedimento per l’inferenza è induttivo dal particolare al generale(probabilità di errore) l’inverso della probabilità. Vista la possibilità di errore perché usufruire del campionamento? –per motivi economici (dispendiosità) –per motivi temporali (necessità di averli subito) –la rilevazione potrebbe essere distruttiva (necessario rompere il prodotto per studiarlo) –non esiste un elenco completo delle unità statistiche. L’oggetto dell’inferenza è la distribuzione dell’insime di tutti i valori che costituiscono la popolazione. La distribuzione è rappresentata da un modello di variabile casuale. I parametri che caratterizzano le distribuzioni non sono noti. X è la variabile casuale e θ è il parametro perciò X~f(x,θ) e data questa funzione l’inferenza avviene mediante l’estrazione di un campione rappresentativo che per esserlo deve essere casuale(ttt le unità hanno la stessa possibilità di essere estratte). Se nella popolazione vi sono N unità la probabilità è 1/N. Il campione è dato da X1,X2,…Xn e dopo l’osservazione i valori sono x1,x2,…xn. L’insieme di tutte le n-ple di valori che può assumere il campione è uguale allo spazio campionario. Le variabili appartenenti al campione hanno la stessa distribuzione rispetto alla variabile casuale X che descrive la popolazione. Rilevazione con rimessa e in blocco. Per sintetizzare le info campionarie dopo l’osservazione utilizziamo un valore o meglio una f. del campione chiamata statistica campionaria Sn=S(X1,X2,..Xn) e dopo l’osservazione sn=S(x1,x2,…xn). stimare la media campionaria X(trattino)=1/n∑Xi. STIMA PUNTUALE Per sintetizzare le info si usa uno stimatore che approssima il valore del parametro. L’’affidabilità dipende dalle caratteristiche dello stimatore. Gli stimatori sono essi stessi una variabile casuale e nel caso in cui lo stimatore sia una variabile casuale continua lo stimatore sarà certamente diverso dal parametro. Gli stimatori possono essere < o > rispetto al parametro ma importante è che non ci sia sistematicità nell’errore altrimento lo stimatore si definisce distorto. E’ invece non distorto se E(tn)=θ l’eventuale distorsione di calcola come d(Tn)=E(Tn)-θ ci potrebbero esser situazioni in cui uno stimatore distorto è preferibile ad uno non distorto a seconda della variabilità intorno a θ. L’efficienza è proprietà degli stimatori che riguarda la distribuzione intorno a θ; è misurata con EQM(Tn)= E(Tn-θ)² cioè errore quadratico medio considerato anche come somma tra la varianza e distorsione Var(Tn)+(d(Tn))². Se Tn non è distorto d(tn)=0 perciò EQM=Var; il calcolo di efficienza relativa tra due stimatore è e=EQM(>)/EQM(<), il rapporto indica qual è il rapporto da utilizzare per avere uguale efficienza. Tn viene detto consistente in probabilità in quanto all’aumentare di n la distribuzione di Tn tende al parametro. Si considera un intorno di θ di semi-ampiezza ε tale che P(I Tn –θ I<ε) tende a 1. La media campionaria X(trattino)=1/n∑Xi se il campione estratto è con rimessa le variabili sono indipendenti e il valore atteso è μ e la varianza è σ²/n. La media comparata è uno stimatore non distorto per cui EQM=Var. La legge debole dei grandi numeri dimostra che la media campionaria è consistente in probabilità per μ. Il teorema del limite centrale fornisce ulteriori info infatti la media campionaria standard ha distribuzione asintotica perciò X(trattino)-μ/(σ/√n). La proporzione campionaria è la media campionaria applicata ad una popolazione Bernoulliana. P^=1/n∑xi è la frequenza relativa dei successi del campione. Ha le stesse proprietà della media campionaria ed inoltre E(p^)=π e Var (p^)= π(1-π)/n. La varianza campionaria per stimare la varianza potrebbe essere naturale usare S²=1/n∑(xi-x(trattino))² tuttavia questo metodo è distorto infatti E(S²) =(n-1/n)*σ² lo stimatore è perciò distorto negativamente cioè sottostima σ². Uno stimatore non distorto invece è la varianza campionaria σ²^= 1/n-1∑(Xi-X(trattino))² il suo valore atteso infatti è E(σ²)= E(n/n-1*S²)=n/n-1*n-1/n* σ²= σ². Una spiegazione intuitiva della non distorsione è il fatto che tra gli n scarti Xi-X(trattino) soltanto n-1 sono linearmente indipendenti. Infatti per la III proprietò della media la somma degli scarti è nulla perciò determinati i primi n-1 scarti l’n-esimo deve essere tale che la somma sia uguale a zero. Xn-X(trattino)=-∑(Xi-X(trattino)) nella stima della varianza si fa quindi riferimento ai soli n-1 scarti indipendenti, la varianza campionaria è consistente in probabilità per σ². Per la popolazione normale Var(σ²^)= 2σ/n-1 INTERVALLI DI CONFIDENZA Insieme di plausibili valori per il parametro che riassume il grado di incertezza del suo valore. Viene individuato un intervallo (L1,L2) tale che le f del campione sono L1=L1(X1,X2,...,Xn) le f del campione vengono considerate statistiche campionarie cioè variabili casuali di un intervallo casule. Dopo aver estratto il campione i valori sono l1=L1(x1,x2,...xn). Gli intervalli di confidenza hanno un elevata probabilità di comprendere il parametro; questa probabilità è chiamata livello di confidenza pari a 1-a (confidenza in quanto dopo avere estratto il campione si è già verificato se l’intervallo comprende o meno il parametro. P(L1≤ =1-a. Nota la varianza sigma quadro si vuole determinare il valore atteso è necessario individuare una quantità pivot che è funzione del parametro e del campione, consideriamo la media campionaria standardizzata Z= X(trattino)-µ/(σ/√n) che dipende dl campione per la media campionaria e per il parametro µ ed ha distribuzione nota in quanto normale e standardizzata Z~N(0,1). Per costruire un intervallo di livello 1-a è necessario determinare quel valore z(a/2) tale che la probabilità che Z assuma un valore nell’intervallo P=(-z(a/2)≤Z≤,+z(a/2))=1-a con Φ(z(a/2))= 1-(a/2) la probabilità può essere scritta in modo tale da scrivere un intervallo di confidenza per µ come P=(L1≤µ≤L2)=1-a. Quando 1-a cresce cresce anche l’ampiezza dell’intervallo. TEST DELLE IPOTESI L’obiettivo è verificare se vi èè evidenza a sufficienza per sostenere le ipotesi sulle caratteristiche della variabile casuale che descrive la popolazione. Le ipotesi statistiche sono affermazioni su alcune caratteristiche di un fenomeno di interesse. Consideriamo una variabile casuale X~f(x,θ) per sottoporre a test un’ipotesi sul valore θ. Le ipotesi sui parametri possono essere semplici oppure composite, semplice considera un solo valore per θ mentre un ipotesi composita assume un insieme di possibili valori per θ, le ipotesi composite possono essere unidirezionali o bidirezionali per cui uni, θo> o < di θ mentre bidirezionali θo≠θ. Nell’ambito del test si confronta l’ipotesi nulla con l’ipotesi alternativa L’ipotesi nulla è considerata vera fino a prova contraria finche dai dati non emerge un info che smentisca. Se l’ipotesi nulla è falsa l’ipotesi alternativa sarà vera. La regola di decisione che stabilisce dopo l’estrazione se l’ipotesi nulla va respinta o meno è stabilire una regione di accettazione e di contro una regione critica. Viene individuata una statistica che sintetizzi le info campionarie e viene chiamata statistica test Tn=T(X1,X2,..Xn) ed ha la condizione che la sua distribuzione sia nota sotto l’ipotesi nulla e che qundi non dipenda da parametri: Tn~(Ho)f(t). dopo l’estrazione viene valutato tn; il valore ta che delimita la regione di accettazione dalla regione critica viene chiamato valore critico. La statistica test è soggetta ad errori in quanto dipende dal campione osservato: quando l’ipotesi nulla è vera ed è respinta si commette errore di I tipo la probabilità di effettuare un errore del primo tipo è chiamata livello di significatività del test; quando invece l’ipotesi nulla è falsa e non viene respinta si commette un errore del II tipo. I due errori sono inversamente proporzionali in quanto aumentando la regione di accettazione diminuisce quella critica. E possibile diminuire la probabilità di errore di entrambi i tipi soltanto aumentando la numerosità campionaria n. Poiché per una numerosità campionaria fissata non è possibile controllare sia la probabilità del I errore che del II nel test delle ipotesi si fissa la probabilità dell’errore di tipo I in quanto errore di tipo I è ritenuto più grave, si fissa perciò il livello di significatività a quindi si individua la statistica test Tn e infine l’insieme di valori assunti da Tn. -Ho= mentre H1> la RA x(trattin)-µo/(σ/√n)≤za -Ho= oppure≥ mentre H1< la RA x(trattin)-µo/(σ/√n)≥-za -Se Ho è un’ipotesi composita del tipo µ≤µ0 si confrontano le due ipotesi unidirezionali e la regola di decisione rimane quella del primo punto ma il livello di significatività a diventa la massima probabilità di commettere errore del I tipo. Test unidirezionale per popolazione normale due ipotesi unidirezionali viene applicata la variabile t Student: -Se Ho≤ e H1> RA x(trattin)-µo/(σ^/√n)≤t(n-1,a) -Se Ho≥ e H1< allora RA x(trattin)-µo/(σ^/√n)≥t(n-1,a) Test bidirezionale sulla media di una popolazione normale: -Ho= mentre H1≠ RA -t(n-1,a/2) ≤ x(trattin)-µo/(σ^/√n) ≤ t(n-1,a/2) quindi in modulo x(trattin)-µo/(σ^/√n) ≤ t(n-1,a/2) Test sulla media di una popolazione in attesa di normalità: -Ipotesi in cui Ho e semplice = oppure composita per H1> la RA x(trattin)-µo/(σ^/√n)≤za -In ipotesi bidirezionale Ho= ed H1≠ RA x(trattin)-µo/(σ^/√n)≤z(a/2) Per le probabilità di bernoulli il principio è lo stesso sostituendo a µ=πo e a σ=πo(1-πo) e al posto di x=p^ il valore p indica il minimo livello di significatività per il quale l'ipotesi nulla viene rifiutata. Ovvero l'ipotesi nulla viene rifiutata se il test fornisce un valore pinferiore al livello di significativitò del test, e viene accettata altrimenti. CORRELAZIONE Un campione ossevato estratto da una variabile casuale bivariata (x,Y) è costituito da n coppie di valori xi,yi che costituiscono i valori estratti dalle variabili casuali. L’intensità del coefficiente di correlazione misura l’intensità di dipendenza lineare. ρxy=E(X-µx/σx)(Y-µy/σy)=σxy/σxσy σxy è la covarianza. Ρxy= I1I nel caso di perfetta dipendenza lineare. Stima del coefficiente di correlazione e il rapporto tra la covarianza campionaria e gli stimatori degli scarti quadratici medi. Rxy= essere scritta come il numeratore è chiamato codevianza mentre il denominatore devianza. La codevianza può mentre la devianza può anche essere scritta come per y si ha IL MODELLO DI REGRESSIONE Il modello consente di rappresentare una dipendenza asimmetrica in base alla quale il valore assunto da una delle due variabili dipende da quello assunto dall’altra variabile. E’ un modello che descrive e interpreta fenomeni di interesse. Il modello di regressione lineare semplice distingue due variabili quella dipendente y e quella esplicativa X. Esite tra le due variabili un legame di media. Assumendo un modello di regressione lineare il valore atteso di Y si trova sulla retta di regressione E=(Y I X=x) = il parametro a= intercetta mentre b= coefficiente angolare. Se B è pos. la relazione è crescente viceversa decrescente. Il valore di Yi si trova in un intorno non proprio sulla retta di regressione. Il modello di regressione è perciò dove è termine di errore. I motivi dell’esistenza dell’errore è perché: -vi è la variabilità del comportamento umano -la relazione tra X e Y non è esaustiva in quanto potrebbe dipende da altre variabili non citate -potrebbero esserci errori di misurazione o la relazione non è perfettamente lineare. Il modello di regressione assume come ipotesi: (omoschedasticità) -X è variabile deterministica Il modello di regressione è perciò composto da una componente deterministica (a+bX) e una variabile casuale La componente deterministica coincide con il valore atteso di Yi. Inoltre se εi εj sono incorre lari lo sono anche Yi ed Yj Per stimare i parametri si estrae un campionecostotuito da n coppie di valori si ha perciò dove ei è il valore della casuale errore. Il metodo per stimare è chiamato minimi quadrati si considerano gli scarti delle osservazioni yì-(a+bxi) le stime devono essere scelte per minimizzare il valore degli scarti quei valori a e b sono con ^ sopra. Le stime di a^ e b^ sono il sistema Le proprietà e Ytratt è la media campionaria della variabile dipendente. Le proprietà: -Linearità possono essere ottenuti come combinazioni lineari delle variabili Y1,Y2,...Yn -Inoltre sono non distorti in quanto E(A)=α E(B)=β -La varianza di entrambi gli stimatori dipende dalla devianza di X (la devianza più grande possibile) -teorema di Gauss Markov gli stimatori dei minimi quadrtai sono i più efficienti nell’insieme degli stimatori lineari e non distorti. Dove