UNITA’ -> oggetti a cui si interessa la ricerca. L’insieme delle unità costituisce la POPOLAZIONE / collettivo / universo Mediante la DEFINIZIONE OPERATIVA o o Si passa dalle UNITA’ ai CASI Si passa dalle PROPRIETA’ alle VARIABILI (i casi devono presentare almeno due stati delle proprieta) Attraverso delle operazioni canoniche Classificazione Creazione di un determinato numero di classi di equivalenza nel rispetto delle condizioni di esaustività e esclusività. Ordinamento Come la classificazione dà origine a una partizione del dominio di una proprietà, le categorie individuate godono oltre che della relazione di equivalenza, della relazione d’ordine, non è però possibile quantificare la distanza tra le categorie Misurazione Presuppone l’esistenza di una unità di misura alla quale rapportare l’ammontare di proprietà posseduta da ciascun caso Conteggio Enumerazione degli oggetti posseduti, è possibile quando la proprietà è pensabile come quantità discreta A seconda delle operazione compiute vengono generati diversi tipi di variabili CLASSIFICAZIONE DEI LIVELLI DI SCALA DI STEVENS Una variabile o una scala di misura è un sistema che mette in corrispondenza gli stati di oggetti su determinate proprietà e i numeri reali => < SE,f,SN> SE è un sistema relazionale empirico, SN un sistema relazionale numerico e f è la funzione che fa corrispondere a ogni elemento di SE uno e uno solo degli elementi di SN. Per ogni SE possono esistere più rappresentazioni numeriche Trasformazione ammissibile : se α è un SE rappresentato dal SN β; una trasformazione dei valori di scala f’(a)= T[f(a)] è detta ammissibile se anche f’(a) è una rappresentazione del SE α attraverso SN β (SCALA NOMINALE) variabili categoriali Un SE composto da elementi su cui è possibile definire solo relazioni di uguaglianze e diseguaglianza, viene rappresentato da un SN attraverso una funzione di corrispondenza che assegna lo stesso numero agli stati uguali e un numero diverso agli stati differenti (i numeri hanno solo funzione di etichette) Trasformazione ammissibile => transcodifica o corrispondenza biunivoca y’ = t(y) tale che se yi = yj => y’i = y’j e se yi ≠ yj => y’i ≠ y’j SCALA ORDINALE variabili ordinali Quando sul SE è definita la relazione di maggiore o minore, oltre a quella di uguaglianza, la scala che ne deriva dalla sua rappresentazione numerica è detta scala ordinale. Le distanze tra i “pioli” della scala non sono però costanti o quantificabili esattamente Sono ammesse tutte le trasformazioni che non alterano l’ordine tra le modalità Trasformazione ammissibile => trasformazioni isotoniche (monotone strettamente crescenti) y’=m(y) tale che se yi < yj => y’i < y’j e se yi = yj => y’i = y’j SCALA DI INTERVALLI variabili cardinali Un SE sul quale è possibile definire una relazione di uguaglianza degli intervalli tra gli stati di una proprietà dà origine a una scala di intervalli, entriamo nel mondo della misurazione propriamente detta. Il nostro sistema di rilevazione è dotato di un’unità di misura (convenzionale), garantita dalla costanza degli intervalli. Lo 0 della scala è però convenzionale Poiché l’aggiunta di una costante non altera la differenza tra i valori della scala è anche ammessa anche la traslazione ( non varia il rapporto tra gli intervalli) Trasformazioni ammissibili => trasformazioni lineari (affini) y’= my+a con m > 0 SCALA DI RAPPORTI variabili caridnali Quando nel SE è definita oltre alla relazione di uguaglianza degli intervalli anche l’uguaglianza dei rapporti, la sua rappresentazione numerica è detta scala di rapporti. Esiste uno 0 assoluto, che sta a indicare l’assenza di proprietà Trasformazioni ammissibili => trasformazioni di similarità y’= my con m > 0 I quattro tipi di scala individuati da Stevens stanno a una precisa gerarchia: la scala nominale rappresenta il livello più basso, sono poche le relazioni matematiche definite nel SN; la scala di rapporti è invece il livello più alto poiché a questo livello la variabile gode di tutte le proprietà dei numeri reali. Rispetto alle trasformazioni ammissibili, più il livello di scala è basso più le funzioni sono generali, sono minori cioè i vincoli per passare da una rappresentazione numerica a un’altra. Salendo la gerarchia delle scala la natura delle funzioni si fa più restrittiva Altri esempi di scale Scale assolute variabili cardinali Non si hanno unità di misura, ma di conto (ad esempio libri, figli, reati,….) Variabili di tipo Likert Variabile che presenta solitamente cinque o sette modalità ordinate che esprimono gradi di accordo con una certa affermazione Scale auto ancoranti La variabile presenta etichette verbali soltanto alle due modalità estreme La scale di intervalli, di rapporti e assolute sono accomunate dalla presenza di un’unità di misura o di conto e di conseguenza dal fatto che i valori numerici che esse assumono godono di tutte le proprietà dei numeri cardinali. È consuetudini riferirsi a questa famiglia di variabili col nome di VARIABILI CARDINALI Concetto di STATISTICA IDONEA Una statistica è idonea per un determinato livello di scala se e soltanto se il suo risultato è invariante per il tipo di trasformazione ammissibile per quel livello di scala. L’invarianza può essere di tre tipi: 1. Invarianza assoluta Se f[t(y)] = f(y) Il risultato della statistica è il medesimo sia sui dati di partenza, sia su quelli sottoposti a una trasformazione ammissibile 2. Equivarianza (o invarianza di riferimento) Se f[t(y)] = t[f(y)] La funzione che consente il passaggio dalla statistica sui dati di partenza al risultato della medesima sui dati trasformati è la trasformazione ammissibile t 3. Ortovarianza (o invarianza di confronto) Se f[t(y)] = g[f(y),t] La statistica sui dati trasformati è esprimibile attraverso una funzione g (diversa da t) che dipende esclusivamente da f(y) e dai parametri della trasformazione (t) Esempio: deviazione standard applicata a una scala di intervalli MATRICI DI DATI Possiamo distinguere le matrici in base a: Il numero di vie, cioè il numero di entrate della matrice Il numero di modi, cioè il numero di famiglie di entità distinte a cui il dato rimanda Il condizionamento, una matrice a due vie è o Unconditional se consente confronti tra celle sia per riga che per colonna o Row conditional se autorizza soltanto confronti entro le righe o Column conditional se consente confronti soltanto entro le colonne MATRICE CxV (caso x variabile)-> matrice in cui le colonne rappresentano le variabili, le righe rappresentano i casi STATISTICA DESCRITTIVA MONOVARIATA Insieme degli strumenti statistici che permettono di rispondere a domande relative a una singola variabile DISTRIBUZIONE SEMPLICE DI FREQUENZE: modo di organizzare i dati di una matrice CxV che affianca a ogni modalità della variabile in esame la frequenza con cui essa si è manifestata nel collettivo => compressione dei valori, da un insieme di N valori passiamo a un insieme di K valori (tanti quanti sono il numero delle modalità della variabile) Variabile categoriale Variabile ordinale Variabile cardinale -> -> -> serie sconnessa di frequenze serie ordinata di frequenze seriazione di frequenze Serie sconnessa di frequenze Dato un collettivo di N unità e una variabile X che può assumere due modalità x1 e x2, possiamo organizzare le nostre osservazioni in un vettore di una matrice CxV. Se contiamo quanti soggetti presentano la modalità x1 e quanti la x2 e disponiamo i dati ottenuti in una tabella otteniamo una tabella di frequenze semplici. Frequenze relative -> n I valori n1 e n2 rappresentano le frequenze assolute con cui compaiono rispettivamente le modalità x1 e x2. La somma delle frequenze assolute delle modalità è uguale alla numerosità del collettivo, ovvero 𝐾 ∑ 𝑛𝑘 = 𝑁 = n1 + n2 + … + nk = N 𝑘=1 dove k rappresenta una generica modalità e K indica il numero delle modalità della variabile Frequenze relative -> f per confrontare due variabili è necessario eliminare l’effetto dell’ampiezza del collettivo => è sufficiente dividere ciascuna frequenza assoluta per il numero complessivo dei casi. 𝑛𝑘 𝑓𝑘 = 𝑁 𝐾 ∑ 𝑓𝑘 = 1 𝑘=1 In termini formali le frequenze relative sono date dal rapporto tra le frequenze assolute di ciascuna modalità (n) e la numerosità del collettivo Frequenze percentuali -> q È sufficiente moltiplicare per 100 le frequenze relative. Se indichiamo con qk la frequenze percentuale di una generica modalità abbiamo 𝐾 𝑞𝑘 = 𝑓𝑘 ∗ 100 ∑ 𝑞𝑘 = 100 𝑘=1 Rappresentazione grafica => o o Diagramma a barre: rettangoli aventi tutti la stessa base e un’altezza proporzionale alla frequenza con xui la modalità si è presentata nel collettivo Diagramma a torta (preferibile): vengono riportati tanti settori quante sono le modalità e l’area di ciascun settore è proporzionale alla frequenza della modalità corrispondente [α= 360° nj/N] Serie ordinata di frequenze Oltre a tutti i tipi visti in precedenza per questo tipo di variabili possiamo avere anche le Frequenze cumulate -> n’, f’, q’ Se a fianco di ogni modalità riportiamo il numero di soggetti che rientrano nella modalità stessa otteniamo delle frequenze cumulate. Queste possono essere calcolate per le frequenze assolute, relative e percentuali 𝑛𝑘′ = 𝑛1 + 𝑛2 + … + 𝑛𝑘 𝑓𝑘′ = 𝑓1 + 𝑓2 + … + 𝑓𝑘 𝑞𝑘′ = 𝑞1 + 𝑞2 + … + 𝑞𝑘 Le frequenze retro cumulate si ottengono invece partendo dalla modalità più alta (indicate con n’’, f’’, q’’) Rappresentazione grafica => o o Istogramma : i rettangoli sono accostati uno all’altro per sottolineare la contiguità tra le categorie Spezzata a gradini (per le frequenze cumulate): sull’asse delle ascisse vengono riportate le diverse modalità, sull’asse delle ordinate le frequenze cumulate Seriazione di frequenze È necessario raggruppare preliminarmente i dati in classi, in modo tale da avere poche modalità, ognuna rappresentata da un certo numero di soggetti. Ogni classe è individuata attraverso il valore minimo e massimo in essa inclusi, ossia attraverso i suoi limiti. Per calcolare l’ampiezza della classe* è sufficiente fare la differenza tre il limite superiore e il limite superiore e aggiungervi un’unità. I limiti veri delle classi si ottengono togliendo 0.5 al limite inferiore della classe e aggiungendo 0.5 al limite superiore Rappresentazione grafica => o Istogramma: la base dei rettangoli è proporzionale all’ampiezza della classe e l’altezza rappresenta la densità di frequenza (dk) 𝑛𝑘 𝑑𝑘 = 𝑎𝑘 Dove ak rappresenta l’ampiezza* della k-esima classe (calcolo tramite i limi veri) o o Quello che viene rappresentato sull’asse delle ordinate è così il numero di osservazioni per ogni sottoclasse di ampiezza unitaria, mentre la frequenza della classe è rappresentata dall’area del rettangolo Quando tutte le classi hanno uguale ampiezza sulle ordinate è indifferente riportare le densità di frequenza o direttamente le frequenze. Poligonale di frequenze Si ottiene partendo da un istogramma, congiungendo con una spezzata i valori centrali delle basi superiori di ciascuna classe (utile quando si devono confrontare le distribuzioni di due o più collettivi riferite alla medesima variabile) Quando il collettivo è molto ampio e le classi hanno un’ampiezza molto piccola la poligonale tende a assume l’aspetto di una curva continua => curva di Gauss Ogiva (per le frequenze cumulate) Poligonale usata per frequenze cumulate di variabili cardinali OPERATORI MONOVARIATI Dispositivi che sintetizzano la distribuzione di una variabile in uno scalare (un numero). Si possono distinguere tre principali classi di operatori monovaratiati: o o o Operatori di tendenza centrale Restituiscono uno scalare che esprime sinteticamente come si è manifestata la proprietà in esame nel collettivo considerato; deve rispettare il criterio di internalità (valore compreso tra quelli che la variabile può assumere) Operatori di dispersione Restituiscono uno scalare che informi circa la diversità esistente tra le osservazioni, valutano quanto il valore di tendenza centrale è rappresentativo Indici di forma Utilizzabile per le variabili cardinali, si dividono in operatori che valutano la simmetria della distribuzione e operatori che valutano quanto una distribuzione simmetrica e unimodale è simile a una curva normale Operatori di tendenza centrale e altri operatori di posizione MODA Quando una variabile è categoriale l’operatore di tendenza centrale adeguato a rappresentare la distribuzione è la moda, ovvero la modalità più ricorrente nella variabile. In una distribuzione possono essere presenti più mode (d. bimodale). La moda può essere calcolata anche per variabili ordinali e cardinali (se la seriazione di frequenze riguarda dati raggruppati in classi non della stessa ampiezza, per determinare la moda è necessario considerare la densità di frequenza delle diverse classi e non la frequenza assoluta) MEDIANA Per le variabili ordinali si dispone di un ulteriore misura di tendenza centrale, la mediana. Quando l’ampiezza del collettivo (N) è un numero dispari, la mediana è la modalità a cui appartiene quel caso (= caso mediano -> CMdn) che divide esattamente a metà la distribuzione 𝐶𝑀𝑑𝑛 = (𝑁+1) 2 possiamo indicare la mediana come: 𝑀𝑑𝑛 = 𝑥(𝑁+1)⁄2 Per calcolare la mediana è necessario: ordinare le modalità in ordine crescente, calcolare le frequenza assolute cumulate (f’), osservare in quale modalità cade il soggetto mediano. Quando N è un numero pari abbiamo due casi mediani, rispettivamente in (N/2)-esimo e il (N/2 +1)-esimo Quando si hanno variabili cardinali la mediana è data da: 𝑥𝑁/2 + 𝑥𝑁⁄2+1 2 se N è par e da 𝑥𝑁+1 2 se è dispari MEDIA Data una variabile cardinale X contenente valori x1, x2, …. , xN la media aritmetica è: 𝑁 1 𝑥̅ = ∑ 𝑥𝑖 𝑁 𝑖=1 La media si ottiene quindi sommando tutti i valori di X (da 1 a N) e dividendo tale somma per il numero dei casi. La media aritmetica gode di importanti proprietà: la somma algebrica degli scarti dei valori xi dalla loro media aritmetica è uguale a 0 la somma algebrica dei quadrati degli scarti dai valori xi dalla loro media è minima ∑𝑁 𝑖=1(𝑥𝑖 − 𝑥̅ ) = 0 𝑁 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2 = 𝑚𝑖𝑛 talvolta al posto della media aritmetica semplice si ricorre alla media aritmetica ponderata: ∑𝑁 𝑖=1 𝑥1 𝑤1 𝑥̅𝑝 = 𝑤1 + 𝑤2 + ⋯ + 𝑤𝑛 Dove xi rappresenta il valore assoluto dall’i-esimo caso e wi rappresenta il peso ad esso attribuito e N il numero dei casi . Per calcolare la media su dati raggruppati in classi: 𝐾 1 𝑥̅ = ∑ 𝑥𝑘 𝑛𝑘 𝑁 𝑘=1 Dato che nk/N = fk possiamo anche scrivere: 𝐾 𝑥̅ = ∑ 𝑥𝑘 𝑓𝑘 𝑘=1 Dove xk rappresenta il valore centrale della generica classe k e nk e fk rispettivamente la sua frequenza assoluta (n) e relativa (f), mentre K è il numero di classi Per capacità informativa di un operatore intendiamo la sua capacità di sfruttare tutte le proprietà dei numeri cardinali possedute da una variabile almeno a livello di scala di intervalli. Media moda e mediano possono essere poste in una precisa gerarchia rispetto alla loro capacità informativa: la mediana è più informativa della moda poiché considera anche l’ordine tra le osservazioni, mentre le più informativa è la media che considera anche la distanza tra le osservazioni. Va tenuto presente che però la media è sensibile alla eventuale presenza di valori anomali (outliers). Se chiamiamo robustezza la proprietà di essere poco sensibile ai valori anomali, possiamo affermare che la media è la meno robusta delle tre. La mediana è più robusta della media e la moda è più robusta della mediana. Per questo quando in una variabile cardinale si sospetta la presenza di valori anomali è preferibile ricorrere alla mediana. QUANTILI È possibile suddividere una distribuzione in più parti uguali, originando quelli che vengono definiti quantili o operatori di posizione. I quantili vengono detti quartili quando suddividono la distribuzione in quattro parti uguali. Il I quartile è la modalità della variabile che lascia alla sua sinistra il 25% dei casi e alla sua destra il 75%. Il secondo quartile coincide con la mediana, il terzo quartile lascia alla sua sinistra il 75% dei cari e alla sua destra il 25%. Calcolo dei quartili: Q1= (N + 1) / 4 Q2 = 2(N + 1) / 4 = (N + 1) / 2 Q3 = 3 (N + 1) / 4 Operatori di dispersione Consentono una quantificazione del grado di rappresentatività di un particolare operatore di tendenza centrale. Per le variabili categoriali si parla mutabilità per indicare la dispersione di una distribuzione (omogenea o eterogenea). Per variabili ordinali e cardinali si parla invece di variabilità (variabilità non metrica per le ordinali e metrica per le categoriali). Per ciascun tipo di variabile è possibile distinguere tra operatori che restituiscono valori assoluti e che restituiscono valori relativi. MUTABILITA’ Per variabili categoriali. Data una variabile di K modalità, la massima omogeneità si ha nel caso in cui una solo modalità ha frequenza assoluta pari a N; la massima eterogeneità quando ciascuna modalità ha la stessa frequenza, pari a N/K Si utilizza la mutabilità di Gini: 𝐾 𝐸1 = 1 − ∑ 𝑓𝑘2 𝑘=1 Ovvero la differenza tra l’intero e la somma di tutte le frequenze relative delle varie modalità della variabile elevate al quadrato. Questa misura assume valore minimo uguale a 0 quando tutti i casi sono addensati in una sola modalità, mentre assume valore massimo paria (K-1)/K quando i soggetti sono equamente distribuiti nelle K modalità. La mutabilità di Gini è una misura assoluta, per relativizzare una misura di eterogeneità occorre sottrarre alla misura assoluta (E) il valore minimo che essa può assumere e dividere il risultato per il suo intervallo di variazione; la nuova misura (e) assumerà valori compresi tra 0 e 1. La misura relativa e1 si ottiene partendo dalla mutabilità di Gini 𝑒1 = 𝐸1 − 0 𝐸1 𝐾 = = 𝐸 𝐾−1 𝐾−1 𝐾−1 1 𝐾 𝑘−0 MUTABILITA’ METRICA Quando le variabili sono cardinali è possibile individuare due famiglie di operatori: gli intervalli di variazione e gli scarti da un valore centrale GLI INTERVALLI DI VARAIZIONE Sono operatori che quantificano la variabilità misurando la diversità tra due particolari termini della distribuzione. Il più semplice intervallo di variazione è dato dalla differenza tra il valore massimo e il valore minimo della distribuzione. Esso viene denominato campo di variazione (gamma o range) 𝑊 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 Un secondo intervallo di variazione è la differenza interquartile che si ottiene semplicemente individuando i quartili della distribuzione e calcolando la differenza 𝑊 ′ = 𝑄3 − 𝑄1 SCARTI DA UN VALORE CENTRALE Sono gli operatori di dispersione per variabili cardinali più ricorrenti: scostamento semplice medio 𝑠𝑚𝑒 = ∑𝑁 𝑖=1|𝑥𝑖 − 𝑥̅ | 𝑁 Dato dalla media aritmetica e dagli scarti assoluti dalla media Varianza 𝑆2 = 2 ∑𝑁 𝑖=1(𝑥𝑖 − 𝑥̅ ) 𝑁 È la sommatoria degli scarti dalla media elevati al quadrato fratto la numerosità della variabile La varianza ha lo svantaggio di essere una grandezza quadratica e quindi non direttamente confrontabile on la media, per questo viene più frequentemente usata la sua radice, la deviazione standard 𝑆2 = Esiste una formula che ne abbrevia notevolmente i calcoli 2 ∑𝑁 𝑖=1(𝑥𝑖 − 𝑥̅ ) 𝑁 = ̅̅̅ 𝑥 2 − 𝑥̅ 2 ossia la differenza tra la media dei quadrati e il quadrato della media 2 𝐷𝑒𝑣 = ∑𝑁 𝑖=1(𝑥𝑖 − 𝑥̅ ) Il numeratore della varianza prende il nome di devianza Deviazione standard ∑𝑁 (𝑥𝑖 − 𝑥̅ )2 𝑆 = √ 𝑖=1 𝑁 Questo valore è direttamente confrontabile con la media Le misure fin ora descritte sono assolute, il loro valore dipende dall’unità di misura delle variabili. Per poter confrontare la variabilità di distribuzioni espresse con diverse unità di misura si può ricorrere al coefficiente di variazione 𝐶𝑣 = 𝑆 𝑥̅ Si tratta di un numero puro (rapporto fra due grandezze espresse nella stessa unità di misura) e permette confronti diretti tra qualsiasi distribuzione. Il coefficiente di variazione può essere applicato soltanto a variabili a livello di scala di rapporti o scala assoluta in quanto soltanto a questi livelli di scala è una statistica idonea Esiste un concetto più generale del quale media, varianza e media dei quadrati sono casi specifici, ed è quello di momento omogeneo. un momento omogeneo consiste nella media dei valori di una variabile presa con esponente positivo. L’esponente determina l’ordine del momento. I momenti possono essere divisi in centrali o non centrali. Sono momenti centrali (o rispetto alla media) quelli calcolati considerando gli scarti dalla media; sono momenti non centrali (o rispetto all’origine) quelli calcolati sui dati di partenza. Formula di una generico momento omogeneo: 𝑁 1 𝑀 = ∑ 𝑥𝑖𝑟 𝑁 𝑖=1 Dove X può essere una variabile grezza o uno scaro da una media e r è un intero positivo. Il momento omogeneo non centrale di primo ordine (media) informa sulla tendenza centrale di una distribuzione μ1 : tendenza centrale (media) Il momento omogeneo centrale di secondo ordine (varianza) informa sulla dispersione μ2: varianza I momenti di terzo e quarto ordine danno informazioni relative alla simmetria e alla curtosi di una distribuzione μ3: simmetria μ4: curtosi Indici di forma Indici di simmetria (o di Skeweness): γ1 si definisce distribuzione simmetrica una distribuzione in cui le modalità che sono equidistanti dalla mediana hanno la stessa frequenza. In una distribuzione simmetrica media e mediana coincidono. Se la distribuzione è unimodale anche la moda coincide con media e mediana Se una distribuzione è asimmetrica positiva le osservazioni sono addensate sui valori bassi della variabile con una lunga coda sui valori alti della variabile. La media è maggiore della moda e della mediana. ( media>mdn>mo) Se una distribuzione è asimmetrica negativa le osservazioni sono addensate sui valori alti della distribuzione con una lunga coda sui valori bassi della variabile. La media è minore della mediana. (media<mdn) Se la distribuzione è simmetrica i momenti centrali di ordine dispari sono uguali a 0, sono maggiori di 0 nel caso di asimmetria positiva, sono minori di 0 nel caso di asimmetria negativa 𝛾1 = 𝜇̅ 3 3/2 𝜇̅1 1 𝑁 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )3 𝑁 = 1 2 3⁄2 [𝑁 ∑𝑁 𝑖=1(𝑥𝑖 − 𝑥̅ ) ] 1 𝑁 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )3 𝑁 = 𝑆3 Ossia il rapporto tra il momento centrale di 3° ordine e il cubo della deviazione standard distribuzione simmetrica => μ3 = 0 distribuzione asimmetrica positiva => μ3 > 0 distribuzione asimmetrica negativa => μ3 < 0 μ3 costituisce una misura assoluta, dipende dall’unità di misura della distribuzione, per rendere la misura indipendente dall’unità di misura viene fatto il rapporto con S3. γ1 è quindi una misura di simmetria relativa, non dipende dall’unità di misura se γ1 = 0 => curva simmetrica se γ1 > 1 => curva ragionevolmente simmetrica se γ1 > 2 => curva non ragionevolmente simmetrica la curva normale è il più importante esempio di curva simmetrica Curtosi La curtosi è una misura di quanto la distribuzione è più appuntita di quella normale (viene detta leptocurtica) o più piatta (viene detta platicurtica). Il momento omogeneo centrale di quarto ordine 𝜇̅ 4 è una misura di curtosi. Anche in questo caso la misura può essere relativizzata, dividendola per il quadrato della varianza 1 𝑁 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )4 𝜇̅ 4 𝑁 𝛾2 = 2 = −3 1 𝑁 𝜇̅ 2 2 2 ∑ [𝑁 𝑖=1(𝑥𝑖 − 𝑥̅ ) ] 1 𝑁 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )4 𝑁 = −3 𝑆4 se γ2 = 0 => distribuzione mesocurtica (normale) se γ2 > 0 => distribuzione leptocurtica se γ1 < 0 => distribuzione platicurtica STANDARDIZZAZIONE Le distribuzioni standardizzate si caratterizzano per avere media paria 0 e varianza uguale a 1 Formula della standardizzazione 𝑧𝑖 = (𝑥𝑖 − 𝑥̅ ) 𝑠 Al numeratore quella che viene effettuata è un’operazione di centratura, originando una variabile che contiene gli scarti dalla media, detta variabile scarto; che viene poi divisa per la deviazione standard della variabile (operazione detta uniformazione). I valori che si ottengono vengono detti punteggi z e presentano le seguenti proprietà: ∑𝑁 𝑖=1 𝑧𝑖 = 0 2 ∑𝑁 𝑖=1 𝑧𝑖 = 𝑁 La scala dei punteggi z può essere ulteriormente trasformata in modo da assumere come media e varianza valori, sempre prefissati dal ricercatore ma diversi da 0 e 1. La formula generale per effettuare questo cambiamento di scala non è altro che una trasformazione lineare dei punti z : y= bz+a Dove y è il punteggio della nuova scala, b rappresenta il valore che si vuol fare assumere alla deviazione standard della nuova variabile e a il valore che si vuole far assumere alla media. TEORIA DELLA PROBABILITA’ Evento aleatorio (o casuale) : dato un insieme di condizioni C, l’evento A può accadere oppure no. È possibile associare a ogni evento aleatorio con numero p, che rappresenti il grado della sua probabilità di realizzazione. Possiamo collocare gli eventi su un ipotetico continuum: a un estremo si collocano gli eventi certi (p=1) e all’altro estremo gli eventi impossibili (p=0). A ciascuno degli eventi aleatori, a seconda della posizione sul continuum, può essere associato un numero reale compreso tra 0 e 1 Sono state date differenti definizioni probabilità: Concezione frequentista (Von Mises) “la probabilità di Ei è uguale per definizione alla frequenza relativa limite di ni su n, per n che tende a infinito.” In cui Ei rappresenta una classe di eventi ripetibili; n è il numero totale della volte in cui la prova viene ripetuta a parità di condizioni e ni è il numero di volte in cui l’evento Ei si verifica. ni/n è la frequenza relativa di Ei 𝑛𝑖 𝑃(𝐸𝑖 ) = lim 𝑛→ ∞ 𝑛 Si tratta di un tipo di probabilità calcolata a posteriori, dopo avere osservato il valore effettivamente assunto da una frequenza in un numero molto grande di prove. Definizione classica o simmetrica (Laplace) La probabilità di un evento E viene definita come il rapporto tra il numero degli esiti che realizzano l’evento E, e tutti gli esiti possibili in una certa prova, purché i diversi esiti siano tutti equiprobabili. 𝑛° 𝑐𝑎𝑠𝑖 𝑓𝑎𝑣𝑜𝑟𝑒𝑣𝑜𝑙𝑖 𝑃(𝐸) = 𝑛° 𝑐𝑎𝑠𝑖 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖 Più in generale se gli esiti elementari sono K e tutti egualmente probabili, la probabilità di uno di essi sarà: 𝑃(𝐸𝑖 ) = 1⁄𝑘 Nella teoria classica abbiamo una probabilità calcolata a priori, sulla base di un ragionamento logico, fondato su determinati assunti Concezione soggettivista (Ramsey, DeFinetti) La probabilità dell’evento E è la somma che un individuo coerente è disposto a scommettere in un gioco equo nel quale al verificarsi di E egli riceve dal banco un importo unitario. L’equità si realizza se in ogni momento giocatore e banco sono disposti a scambiarsi le parti. La valutazione numerica della probabilità è connessa alle valutazioni personali di un soggetto circa la verificabilità di un certo esito incerto. Definizione assiomatica (Kolmogorov) la teoria delle probabilità viene intesa come disciplina matematica; concetti come probabilità ed evento sono considerati concetti primitivi che, in quanto tali, non necessitano di una definizione esplicita: è sufficiente una definizione implicita, attraverso la definizione di alcune regole circa il loro impiego coerente. PROPRIETA’ ELEMENTARI DELLA PROBABILITA’ Gli eventi elementari che compongono un generico insieme Ω: [ω1, ω2, … ωi …. ωn] possono essere: un numero finito (numero di facce di un dado); un numero infinito numerabile (l’insieme dei numeri razionali); un numero infinito non numerabile (l’insieme dei numeri reali) Definito lo spazio degli eventi elementari di Ω (tutti gli eventi elementari che compongono l’insieme), è possibile individuare degli eventi più complessi, che si presentano come sottoinsieme di Ω Se chiamiamo E un evento complesso , che è formato dall’associazione di eventi elementari, l’evento complementare di e rispetto a Ω viene indicato col simbolo 𝐸̅ → [𝐸̅ = Ω − 𝐸] Ω è l’evento certo (comprende tutti gli esiti possibili), mentre il suo complementare (∅) è l’evento impossibile (l’insieme nullo) Se Ω è un insieme finito o infinito non numerabile, si può identificare l’insieme delle parti ad esso associato BΩ, che comprende tutti i sotto insiemi di Ω, compresi gli eventi ∅ e Ω stesso. Se Ω è un insieme infinito non numerabile BΩ è scelto arbitrariamente tra tutti gli eventi di interesse associabili a Ω. Dato un insieme Ω di cardinalità N (composto da n elementi) il suo insieme delle parti è dato da 2N BΩ è una classe additiva, essa non è vuota ed è chiusa rispetto all’operazione di negazione e all’operazione di unione; ossia i risultati di queste due operazioni su BΩ fanno ancora parte di BΩ Fissato BΩ si associa a ogni evento uno scalare che rappresenta la probabilità per ciascun evento di costituire l’esito di una prova aleatoria. L’assegnazione deve rispettare i seguenti assiomi: 1. Gli eventi, sottoinsiemi di uno spazio Ω, formano una classe additiva BΩ 2. A ogni evento Ei è assegnato un numero reale maggiore uguale a 0 → 𝑃(𝐸𝑖 ) ≥ 0 3. La probabilità di Ω è uguale a 1 → 𝑃(Ω) = 1 La probabilità di un evento (uno dei possibili risultati elementari o una loro combinazione) viene indicata con uno scalare compreso tra 0 e 1. La terna {Ω, BΩ, P} è detta spazio probabilistico. Con: Ω= eventi che compongono l’insieme, BΩ = insieme delle parti dell’insieme (comprende tutti i sotto insiemi possibili di Ω) e P = probabilità che si verifichi uno degli eventi compresi nell’insieme. 4. La probabilità (P) di un evento ottenuto come l’unione di eventi incompatibili è uguale alla somma delle probabilità dei singoli eventi. → Ei∩Ej=0, per ogni i ≠ j, allora P(Ei U Ej) =P(Ei)+P(Ej) Il quarto assioma è noto anche come il principio delle probabilità totali (o principio della somma). Se l’evento complesso E è dato dall’associazione di ω1 e ω2, dove i due eventi sono incompatibili allora 𝑃(𝐸) = 𝑃(𝜔1 ) + 𝑃(𝜔2 ) Eventi incompatibili: appartengono a due insiemi disgiunti se la loro intersezione restituisce insieme vuoto. Eventi compatibili appartengono a due insiemi che hanno almeno un elemento in comune Dai precedenti assiomi si assume anche che: P(∅)=0 ̅) = 1 − P(E) Se 𝐸̅ è il complemento di E rispetto a Ω allora: 𝑃(E Se Ei e Ej sono eventi compatibili → 𝑃(𝐸1 ∪ 𝐸2 ∪ 𝐸3 … ) = 𝑃(𝐸1 ) + 𝑃(𝐸2 ) + 𝑃(𝐸3 ) … Se Ei e Ej sono eventi incompatibili → 𝑃(𝐸1 ∪ 𝐸2 ∪ 𝐸3 … ) = 𝑃(𝐸1 ) + 𝑃(𝐸2 ) + 𝑃(𝐸3 ) − 𝑃(𝐸1 ∩ 𝐸2 ) − 𝑃(𝐸1 ∩ 𝐸3 ) − 𝑃(𝐸2 ∩ 𝐸3 ) + 𝑃(𝐸1 ∩ 𝐸2 ∩ 𝐸3 ) Per calcolare la probabilità che due eventi si presentino congiuntamente [𝑃(𝐸1 ∩ 𝐸2 )] occorre prima distinguere la situazione in cui gli eventi sono stocasticamente indipendenti da quella in cui non lo sono. Un evento (Ei) è considerato condizionato quando si assume una qualche informazione su un altro evento che indirettamente riguarda la probabilità dell’avverarsi dell’evento Ei. Il condizionamento viene indicato col simbolo “|” => P(E1|E2) che si legge “probabilità di E1 posto che si sia verificato E2. La probabilità condizionata viene calcolata con la formula: 𝑃(𝐸1 |𝐸2 ) = 𝑃(𝐸1 ∩ 𝐸2 ) 𝑃(𝐸2 ) Siamo in presenza di due eventi stocasticamente indipendenti se la probabilità di un evento di BΩ si verifiche non è influenzata dal fatto che un altro evento, anch’esso appartenente a BΩ si sia verificato. L’indipendenza stocastica è espressa con la formula: 𝑃(𝐸1 |𝐸2 ) = 𝑃(𝐸1 ) 𝑒 𝑠𝑝𝑒𝑐𝑢𝑙𝑎𝑟𝑚𝑒𝑛𝑡𝑒 𝑃(𝐸2 |𝐸1 ) = 𝑃(𝐸2 ) Per calcolare una probabilità composta; consideriamo dapprima la combinazione la due eventi {E1} e {E2} generati da due processi stocasticamente indipendenti; in questo caso abbiamo che: 𝑃(𝐸1 |𝐸2 ) = 𝑃(𝐸1 ∩ 𝐸2 ) = 𝑃(𝐸1 ) 𝑃(𝐸2 ) Se invece i due eventi sono dipendenti 𝑃(𝐸1 |𝐸2 ) ≠ 𝑃(𝐸1 ) 𝑑𝑎 𝑐𝑢𝑖 𝑠𝑖 𝑟𝑖𝑐𝑎𝑣𝑎 → 𝑃(𝐸1 ∩ 𝐸2 ) = 𝑃(𝐸1 ) ∗ 𝑃(𝐸2 ) 𝑃(𝐸1 ∩ 𝐸2 ) = 𝑃(𝐸1 ) ∗ 𝑃(𝐸1 |𝐸2 ) E2 influenza E1, moltiplico la probabilità elementare di uno degli eventi per la probabilità condizionata dell’altro. La probabilità condizionata {P(E1 ׀E2)} è comunque un evento elementare (trattiamo sempre l’evento E1). Se E2 si è verificato….. ΩE1 non viene modificato => P(E1 ׀E2)= P(E1) => eventi indipendenti ΩE1 viene modificato => eventi dipendenti Nel primo caso abbiamo una prova aleatoria con reinserimento, nel secondo caso abbiamo una prova senza reinserimento (quindi viene modificata la numerosità dello spazio campione) Se ΩE1 viene modificato…. Il n° di casi favolevoli a E1 si modifica allo stesso modo => Il rapporto tra Ω e i casi favorevoli a E1 non cambia => P(E1 ׀E2)= P(E1) => eventi indipendenti Il n° di casi favolevoli a E1 si modifica in modo diverso => Il rapporto tra Ω e i casi favorevoli a E1 cambia => P(E1 ׀E2) ≠ P(E1) => eventi dipendenti VARIABILI ALEATORIE E INFERENZA STATISTICA Il concetto di variabile aleatoria rinvia al fatto che esse è generata da un esperimento di cui non siamo in grado di prevedere l’esito con certezza. Le variabili così descritte possono essere variabili aleatorie (v.a.) discrete o continue; unidimensionali o multidimensionali. Variabili aleatorie unidimensionali discrete Dato uno spazio di eventi elementari Ω =[ω1, ω2, … ωn] finito o infinto numerabile in cui ognuno degli eventi elementari è equiprobabile, si definisce BΩ l’insieme delle parti (l’insieme di tutti gli eventi Ei costruibili con gli elementi presenti in Ω) e P la funzione di probabilità che assegna ad ogni elemento Ei (ad ogni elemento dell’insieme delle parti) una probabilità P(Ei). Agli eventi Ei viene assegnato in modo univoco un numero reale ovvero 𝑋(𝐸𝑖 ) = 𝑥𝑖 A ognuno di questi eventi Ei è assegnata una probabilità pi tale per cui 𝑛 𝑃(𝑥𝑛 ) = 𝑝𝑛 𝑐𝑜𝑛 𝑝𝑖 > 0 (𝑖 = 1,2, … . 𝑛) → ∑ 𝑝𝑖 = 1 𝑖=1 Chiamiamo v.a. discreta unidimensionale l’insieme di coppie xi e pi , dunque: 𝑋 = [(𝑥1 , 𝑝1 )(𝑥2 , 𝑝2 ) … . (𝑥𝑛 , 𝑝𝑛 )] L’insieme dei valori (numeri reali) che una v.a. può assumere con probabilità positiva è detto supporto della v.a. Ogni elemento di Ω trova un’immagine di un punto di ascissa x della retta R (il supporto); d’altro canto i punti della retta R così individuati hanno una contro immagine in Ω e in BΩ Tutti gli elementi di Ω che si trovano sullo stesso punto x della retta R formano un sottoinsieme E di eventi, che sono un elemento dell’insieme delle parti BΩ al quale è assegnata una stessa funzione di probabilità Possiamo definire un’altra importante funzione Φ(𝑥), detta funzione di ripartizione (phi) Φ(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑃(𝑋 = 𝑥𝑖 ) 𝑃(𝑋 = 𝑥𝑖 ) 𝑥𝑖 ≤𝑥 Che fornisce la probabilità che in un esperimento casuale la v.a. X assume un valore inferiore a x; si tratta dunque di una funzione cumulativa Variabili aleatorie unidimensionali continue Definiamo una v.a. “continua” se gli elementi che formano Ω sono un insieme infinito non numerabile. Una v.a. unidimensionale continua X è una quantità variabile che può assumere tutti i valori reali di un intervallo dx, anche molto piccolo, a cui risulta associata una funzione f(x), denominata funzione di densità di probabilità, in cui la probabilità è individuata dall’area sottesa alla curva in un dato intervallo. Variabili aleatorie multidimensionali È possibile associare a ogni evento anche una coppia, tripla,…. n-pla ordinata di numeri reali, e studiare la distribuzione di probabilità; si parla allora di v.a. multidimensionali, utili a valutare connessioni, concordanze e rapporti tra variabili da un punto di vista inferenziale. Ogni dimensione è a sua volta una v.a. unidimensionale, detta variabile componente. Anche in questo caso si distingue tra variabili discrete e continue VALORI CARATTERISTICI DI UNA DISTRIBUZIONE TEORICA DI PROBABILITA’ Come per una distribuzione di frequenze, anche per una distribuzione di probabilità possiamo definire vari indici di tendenza centrale, di variabilità,… Valore atteso [ μ o E(X) ] 𝑛 𝐸(𝑋) = ∑ 𝑥𝑖 𝑝(𝑥𝑖 ) 𝑖=1 Ovvero il valore atteso di una v.a. si calcola con la sommatoria degli xi moltiplicato alla loro probabilità. E(X) gode delle seguenti proprietà: o Data una costante c, -> E(c)= c o Data una costante c e una v.a. X -> E(cX)= c E(X) o Date n vv.aa. Xi con i=1,2,….n -> E(ΣXi)= Σ E(Xi) o Date n vv.aa. Xi indipendenti -> E(ΠXi)= Π E(Xi) Varianza [ σ2 oppure VAR(X) ] 𝑛 𝑉𝐴𝑅(𝑋) = ∑(𝑥𝑖 − 𝜇)2 𝑝(𝑥𝑖 ) 𝑖=1 La varianza di una v.a. di calcola facendo la sommatoria degli scarti dal valore atteso (μ) elevati al quadrato e moltiplicati per la probabilità degli xi ESEMPI DI DISTRIBUZIONI TEORICHE DI PROBABILITA’ PER VV.AA. DISCRETE VARIABILE ALEATORIA DI BERNOULLI Sia E un evento che si può presentare (successo) in un esperimento aleatorio con probabilità p (0<p<1). Al risultato dell’esperimento venga associata una v.a X[(X=1,p) (X=0,q)], dove X assume valore 0 per 𝐸̅ (insuccesso) e 1 per E (successo), e dove q=1-p. Una variabile che assume esclusivamente i valori 1 e 0, rispettivamente con probabilità p e q prende il nome di v.a. Bernoulliana. Gli eventi generati da una prova possono essere dicotomizzati, al di là della natura del sistema fisico o simbolico su cui la prova si basa. Per riassumere: Ha un supporto numerico dicotomico -> Ωr{0,1}; 1 = xi associato all’evento successo -> (p); 0 = xi associato all’evento insuccesso -> (q) p+q= 1 q= 1-p P(0 o 1)= P(Ωr)=1 Funzione di probabilità per una bernoulliana: 1 𝑓(𝑥; 𝑝) = ( ) 𝑝 𝑥 (1 − 𝑝)1−𝑥 𝑥 [p= parametro che regola la variabile; X = valore che può assumere l’evento] Se ne ricava che : f(X=1)= p1 (1-p)1-1 = p1* q0 = p f(X=0) = p0 (1-p)1-0 = p0 * q1 = q calcolo del valore atteso e della varianza 𝑛 1 1 𝐸(𝑋) = ∑ 𝑥𝑖 𝑝(𝑥𝑖 ) → (0) ( ) 𝑝0 (1 − 𝑝)1 + (1) ( ) 𝑝1 (1 − 𝑝)0 = 0 1 0∗𝑞+1∗𝑝 =0+𝑝=𝑝 𝑖=1 𝑛 1 1 𝑉𝐴𝑅(𝑋) = ∑(𝑥𝑖 − 𝜇)2 𝑝(𝑥𝑖 ) → (0 − 𝑝)2 ( ) 𝑝0 (1 − 𝑝)1 + (1 − 𝑝)2 ( ) 𝑝1 (1 − 𝑝)0 = 𝑝(1 − 𝑝) 0 1 𝑖=1 =𝑝∗𝑞 VARIABILE ALEATORIA BINOMIALE Sia E l’evento come è stato definito nel caso della v.a. bernoulliana, e si consideri il risultato congiunto di n prove indipendenti. A ciascuna prova può essere associata una v.a. di Bernoulli, secondo le modalità precedentemente descritte (𝐸̅ = 0; 𝐸 = 1) somma di N v.a Bernoulliane, sotto la condizione che esse siano i,i,d {identicamente. indipendentemente distribuite}. ciascuna Bernoulliana è governata dallo stesso parametro (p) funzione di probabilità binomiale: 𝑛 𝑓(𝑥; 𝑝; 𝑛) = 𝑃(𝑋 = 𝑥) = ( ) 𝑝 𝑥 𝑞𝑛−𝑥 𝑥 Dove con n intendiamo il numero di prove (quante bernoulliane compongono la binomiale); con p si intendono le probabilità di successo e con x il numero di successi che assumiamo di ottenere Calcolo del valore atteso e della varianza 𝑛 𝑛 𝐸(𝑋) = 𝐸(∑ 𝑋𝑖 ) = ∑ 𝐸(𝑋𝑖 ) = 𝑛𝑝 𝑖=1 𝑖=1 In una binomiale la media è uguale al numero di prove (n)* le probabilità di successo (p) 𝑛 𝑛 𝑉𝐴𝑅(𝑋) = 𝑉𝐴𝑅(∑ 𝑋𝑖 ) = ∑ 𝑉𝐴𝑅(𝑋𝑖 ) = 𝑛𝑝(1 − 𝑝) = 𝑛𝑝𝑞 𝑖=1 𝑖=1 In una binomiale la varianza è uguale al prodotto tra il numero di prove, la probabilità di successo e la probabilità di insuccesso Riassumendo le caratteristiche fondamentali di queste due variabili aleatorie discrete V.A. BERNUOLLIANA {0;1} Ωr Supporto numerico 1 f(x) 𝑓(𝑥; 𝑝) = ( ) 𝑝 𝑥 (1 − 𝑝)1−𝑥 𝑥 funzione di probabilità Parametri che governano P (probabilità di successo) la distribuzione Valori caratteristici E (x) = p VAR (x)= p*q V.A. BINOMIALE (bernoulliane i,i,d) {0,1,2… n} 𝑛 𝑓(𝑥; 𝑝; 𝑛) = 𝑃(𝑋 = 𝑥) = ( ) 𝑝 𝑥 𝑞𝑛−𝑥 𝑥 p; n (numero di prove) E (x) = np VAR (x) = np*q ESEMPI DI DISTRIBUZIONI TEORICHE DI PROBABILITA’ PER VV.AA. CONTINUE VARAIBILE ALEATORIA NORMALE si caratterizza per avere un supporto numerico infinito non numerabile -> Ωr [ - ∞, + ∞}. La sua distribuzione di probabilità assume una forma a campana (distribuzione normale o gaussiana). Sull’asse delle ascisse vengono indicati i valori che assume il supporto numerico (Ωr); sull’asse delle ordinate è indicata la densità di probabilità f(x) Non è possibile associare a P un numero (Ωr è infinito e non numerabile) => siccome P(X=x)= 0 è necessario che questa proporzione venga rispettata, cosa che non è possibile se P è associato a dei numeri reali => associamo delle P (probabilità) a degli intervalli piccoli a piacere di valori => le P sono delle aree sottese a una curva. +∞ per calcolare P dobbiamo calcolare degli integrali: ∫−∞ 𝑓(𝑥)𝑑(𝑥). Dove f(x) è la funzione di densità della probabilità e d(x) è un intervallo piccolo a piacere. Si tratta di fare la sommatoria di aree di rettangoli con una base infinitamente piccola e dove i rettangoli sono tantissimi È accertato che le misure di una grandezza, ripetute un gran numero di volte si distribuiscono attorno a un valore, in modo che al crescere del valore assoluto dell’errore diminuisce la sua frequenza. La frequenza di ciascun errore positivo è uguale alla frequenza dell’errore negativo di pari valore assoluto (simmetria) La distribuzione, sinteticamente indicata con 𝑋~𝑁 (𝜇, 𝜎 2 ), è definita su tutto l’asse reale con funzione di densità di probabilità: 𝑓(𝑥; 𝜇; 𝜎 2 ) = −∞ < 𝑥 < +∞, 1 𝜎√2𝜋 𝑒 −(𝑥−𝜇) 2 ⁄2𝜎 2 − ∞ < 𝜇 < +∞; 𝜎>0 Dove μ e σ2 sono rispettivamente la media e la varianza della distribuzione (parametri che la governano), π = nota costante 3,14… e = base dei logaritmi naturali (2,7183) (x- μ)2= scarto dalla media della distribuzione elevato al quadrato L'equazione della funzione di densità è costruita in modo tale che l'area sottesa alla curva rappresenti la probabilità. Perciò, l'area totale è uguale a 1, quindi l’integrale della funzione da −∞ a +∞ è uguale a1 +∞ ∫ 𝑥 = 𝑓(𝑥)𝑑(𝑥) = 𝜇 −∞ ↓ ↓ =𝜇 𝑝(𝑥) ∑𝑥 +∞ → 𝑃(Ω𝑟 ) = 1 → ∫ 𝑥 = 𝑓(𝑥)𝑑(𝑥) = 1 −∞ integrale -> operazione che restituisce un’area: 𝜇 ∫−∞ 𝑓(𝑥)𝑑(𝑥) = 0,5 (metà della distribuzione che va da − ∞ a μ) +∞ ∫𝜇 𝑓(𝑥)𝑑(𝑥) = 0,5 (metà della distribuzione che va da μ a + ∞ ) Graficamente una distribuzione normale si presenta come una curva a campana, unimodale e perfettamente simmetrica rispetto al punto di ascissa x=μ, con due punti di flesso in 𝑥 = 𝜇 − 𝜎 e 𝑥 = 𝜇 + 𝜎. La moda coincide con la media e con la mediana della distribuzione. La normale è inoltre asintotica rispetto all’asse delle ascisse. I punti in cui la curva da convessa diventa concava si trovano in corrispondenza a ±1 deviazione standard dalla media; I due parametri della variabile casuale normale, detti pure valori attesi, cioè μ e σ2, corrispondono alla media E(X) e varianza Var(X) della distribuzione. Si dimostra infatti che: +∞ 1 2 2 𝐸(𝑋) = ∫ 𝑥 𝑒 −(𝑥−𝜇) ⁄2𝜎 𝑑𝑥 = 𝜇 −∞ 𝜎√2𝜋 +∞ 𝑉𝐴𝑅(𝑋) = ∫ −∞ (𝑥 − 𝜇)2 1 𝜎√2𝜋 𝑒 −(𝑥−𝜇) 2 ⁄2𝜎 2 𝑑𝑥 = 𝜎 2 Ogni distribuzione normale è univocamente definita dalla media e dalla varianza. Al variare della media e della varianza la curva subisce sia uno spostamento sull’asse dell’ascissa, sia un appiattimento; mentre se si fa variare solo la varianza e si tiene costante la media, la curva si appiattisce quando la varianza cresce e diventa più appuntita quando la varianza si riduce. Per distinguere la distribuzione normale da altre distribuzioni che presentano forma simile occorre tenere presente che la probabilità di X assume sempre, per ogni μ e σ2 i seguenti valori nei seguenti intervalli tipici: 𝜇+𝜎 (𝑥)𝑑𝑥 = 0,6826 → 68% 𝑃(𝜇 − 𝜎 ≤ 𝑥 ≤ 𝜇 + 𝜎) = ∫ 𝜇−𝜎 𝜇+2𝜎 (𝑥)𝑑𝑥 = 0,9545 → 95% 𝑃(𝜇 − 2𝜎 ≤ 𝑥 ≤ 𝜇 + 2𝜎) = ∫ 𝜇−2𝜎 𝜇+3𝜎 𝑃(𝜇 − 3𝜎 ≤ 𝑥 ≤ 𝜇 + 3𝜎) = ∫ 𝜇−3𝜎 (𝑥)𝑑𝑥 = 0,9974 → 99% Variabile aleatoria normale standardizzata Trasformando i valori della variabile X in punteggi standardizzati (punti Z), otteniamo una v.a. normale standardizzata, che ha parametri μ e σ rispettivamente pari a 0 e 1. La distribuzione normale standardizzata si ottiene con la trasformazione lineare dei punti grezzi in punti z: 𝑍= 𝑥−𝜇 𝜎 La funzione di densità di probabilità della distribuzione normale standardizzata è: 𝑓(𝑧) = 1 √2𝜋 𝑒 −𝑧 2 ⁄2 Con −∞ < 𝑧 < +∞ E(Z)= μ= 0 VAR(Z)= σ2=1 Mediante l’uso della relativa tavola di probabilità è possibile ricavare l’area sottostante ad ogni porzione della curva, compresa tra la media e una certa ascissa (Z). Le probabilità corrispondenti alle superfici racchiuse dalla curva normale possono essere calcolate. Queste probabilità sono state tabulate per la normale standardizzata e vengono riportate in apposite tabelle. Ciò evita il calcolo di integrali per trovare le probabilità che una v.a. X assuma valori compresi all’interno di intervalli della retta reale. Le tavole di probabilità della normale standardizzata vengono utilizzate per calcolare l’area compresa tra due determinati valori della variabile oggetto di studio. Le tavole della distribuzione normale standardizzata riportano l’area compresa tra media e il valore di z oppure l’area che si colloca oltre il punto z nella coda della distribuzione. Nella prima colonna abbiamo il valore di z con il primo decimale e nella prima riga la seconda cifra decimale. Dall’intersezione della riga e della colonna corrispondente al valore z calcolato, si individua il valore dell’area. Dato che la distribuzione normale è simmetrica nelle tavole dei punti z i valori sono solo positivi, in quanto la proporzione dei valori tra la media e un valore z=1.00 e tra la media e un valore z=-1.00 è uguale a 0.3413. VARIABILE ALEATORIA CHI QUADRATO L a v.a. chi quadrato è una funzione di variabile aleatorie. Si chiama 𝜒 2 la sommatoria dei quadrati di n variabili indipendenti normali standardizzate 𝑁 2 𝜒 = ∑ 𝑍𝑖2 𝑖=1 𝑁 𝑋𝑖 − 𝜇𝑖 2 = ∑( ) 𝜎2 𝑖=1 La funzione di densità di probabilità 𝑓(𝜒 2 )è un caso parti calore della v.a. gamma generalizzata ed è espressa come: 𝑓(𝜒 2 , 𝜈) La funzione è definita per valori positivi 0 ≤ 𝜒 2 ≤ +∞, ed è caratterizzata dal parametro 𝜐 (nu) che rappresenta i gradi di libertà della distribuzione, pari a 𝜐 = 𝑛 La distribuzione 𝜒 2 ha media e varianza pari a: 𝜐 𝐸(𝜒 2) = 𝜈 𝐸 (∑ 𝑍𝑖2 ) 𝑖=1 = 𝜈 → ∑ 𝐸(𝑍𝑖2 ) = 𝜈 𝑖=1 𝑉𝐴𝑅(𝜒 2 ) = 2𝜈 La funzione di densità della v.a. 𝜒 2 al variare dei gradi di libertà (gdl) assume forme diverse; per 𝜐 che tende a infinito essa converge con la normale: l’approssimazione è considerata adeguata a partire da 𝜈 = 30 VARIABILE ALEATORIA T DI STUDENT Possiede le stesse caratteristiche della distribuzione normale, ma ha una forma più schiacciata che esprime una variabilità maggiore intorno alla media. La variabilità della media e lo schiacciamento della curva dipendono dall’ampiezza campionaria, ovvero tanto più i campioni sono piccoli, maggiore sarà la variabilità e tanto più schiacciata risulterà la curva. Il valore di t dipende dalla numerosità campionaria, quindi non esiste una sola distribuzione t, ma ne esistono tante in funzione dei gradi di libertà, dati dalla quantità n-1. 𝛺𝑟 {−∞ , + ∞} 𝜈 =𝑛−1 𝐸(𝑡) = 0 𝑉𝐴𝑅 (𝑡) = 𝑣/ (𝑣 − 2) La sua f(x) è governata dai suoi gdl Se v > 30 la distribuzione approssima una normale VARIABILE ALEATORIA NORMALE BIVARIATA Costituisce la generalizzazione a 𝑘 dimensioni della v.a. normale. (in questo caso K=2) Rappresentando una funzione di densità di una v.a. bivariata,ricaveremo una sorta di cappello rappresentato su tre dimensioni; la sezione parallela all’asse delle x o delle y rappresenta una distribuzione normale. Se invece sezioniamo il cappello con un taglio parallelo al piano individuato da x e y, otterremo un ellisse, tanto maggiore quanto il taglio si avvicina il piano xy. La forma dell’ellisse dipende dalla varianza della X e Y e dalla loro covarianza. Considerando il caso che le due variabili siano standardizzate. In caso di relazione positiva tre le due variabili, le ellissi saranno direzionate lungo la bisettrice del primo e del terzo quadrante del piano cartesiano; in caso di associazione negativa lungo la bisettrice del secondo e quarto quadrante. DISTRIBUZIONI CAMPIONARIE Ogni statistica campionaria (indicata con lettere dell’alfabeto latino) è una v.a. che ha una sua distribuzione di probabilità. Tali statistiche avranno un valore che varia intorno all’omologo parametro della popolazione (sempre ignoto, indicato con lettere greche). In virtù di questa “attrazione” delle statistiche da parte del parametro corrispondente, è ragionevole tentare una stima del parametro (che è fisso ma sconosciuto) a partire dalla statistica osservata. Tale stima sarà inevitabilmente affetta da un certo margine di errore accidentale, in quanto noi operiamo su uno solo dei campioni potenzialmente estraibili dalla popolazione. Le vv.aa. sono distribuzioni teoriche, o leggi di probabilità, che intervengono nella statistica inferenziale come strumento per rappresentare una distribuzione osservata mediante un modello matematico che dipende da un ristretto numero di parametri. Più precisamente una v.a. teorica entra in un processo ci inferenza in due modi: Alcuni problemi di inferenza statistica per essere risolti richiedono particolari assunti sulla forma della distribuzione che caratterizza l’universo Altri problemi di inferenza invece, pur non richiedendo particolari assunti distribuzionali della popolazione, sfruttano le caratteristiche di una distribuzione teorica partendo dal fatto che essa caratterizza una distribuzione campionaria Le distribuzioni teoriche vengono utilizzate innanzi tutto per rappresentare la distribuzioni campionarie (una distribuzione campionaria può essere distribuita in modo normale, chi quadrato, …) vi sono poi alcune distribuzioni che, oltre a coincidere con dispositivi procedurali, sono utilizzabili per rappresentare in forma parsimoniosa, cioè come modello , il modo in cui le variabili sono distribuite nella popolazione. Occorre classificare i principali modi in cui si impostano le procedure di inferenza statistica: Test sulle ipotesi statistiche: concernono una congettura su una o più caratteristiche di una v.a. assunta come modello interpretativo del fenomeno in esame; si tratta di procedure che portano il ricercatore a trattenere o respingere un’ipotesi. Rispetto all’uso di una v.a. come modello della popolazione possiamo individuare duegrandi famiglie di test: o TEST PARAMETRICI (funzionali) Vengono applicati a ipotesi relative ai valori numerici dei parametri di una o più popolazioni, che si assumono distribuite secondo una legge di probabilità nota o TEST NON PARAMETRICI (distributio-free) In questo caso le uniche informazioni sulla popolazione si traggono dal campione senza ulteriori assunti Procedure di stima: servono a identificare il valore incognito di certi parametri della legge di probabilità assunta come modello, essi si articolano a loro volta in due classi di operatori: o STIMA PUNTUALE Consiste nell’ottenere un singolo valore che sia un buon rappresentante del parametro (ignoto) o STIMA INTERVALLARE Consiste nell’individuare un intervallo entro il quale con una certa probabilità ricade il parametro INFERENZA SU UNA VARIABILE Si definisce popolazione qualsiasi insieme di elementi simili tra loro per una o più caratteristiche che rappresentano l’oggetto dello studio. Può essere finita, ovvero costituita da un numero finito di unità (comunque molto grande) o infinita trattiamo come popolazioni anche insiemi che non sono enumerabili e che si realizzeranno anche nel futuro. Si definisce campione un sottoinsieme della popolazione, ovvero una raccolta finita di elementi estratti da una popolazione. Scopo dell’estrazione: ottenere informazioni sulla popolazione Pertanto il campione deve essere rappresentativo della popolazione da cui viene estratto (‘non viziato’). Per corrispondere a queste esigenze il campione viene individuato con un campionamento casuale. Campionamento ed inferenza sono due processi simmetrici, l’inferenza permette di dire qualcosa sulla popolazione a partire dai dati ottenuti sul campione. Definiamo statistica campionaria la statistica calcolata per le osservazioni che compongono il campione (T). In generale, le statistiche campionarie sono definite in modo tale da essere degli stimatori non distorti dell’omologo parametro della popolazione (θ). Una distribuzione campionaria è la distribuzione relativa ad una specifica statistica calcolata su più campioni di dimensione n tutti estratti dalla stessa popolazione. La funzione campionaria è una funzione di probabilità il cui dominio è costituito dai valori di una statistica (es media) e il codominio è costituito dalle probabilità che i valori della statistica hanno di verificarsi. Per costruire una distribuzione campionaria occorre: 1. Estrarre dalla stessa popolazione dei campioni con lo stesso numero di casi (n) 2. Le estrazioni devono essere casuali e indipendenti. 3. In questo modo, le determinazioni (osservazioni) campionarie (x1, x2, ..xn) sono variabili indipendenti, ed hanno la stessa funzione di probabilità della popolazione di origine, ovvero sono identicamente distribuite (variabili IID: indipendenti, identicamente distribuite) 4. Sui campioni così estratti si procede a calcolare la statistica della quale si vuole definire la distribuzione campionaria DISTRIBUZIONE DELLA V.A. MEDIA CAMPIONARIA Siano 𝑋1 , 𝑋2 , … , 𝑋𝑛 delle prove indipendenti di un processo aleatorio con: valore atteso 𝐸(𝑋𝑖 ) = 𝜇; e varianza 𝑉(𝑋𝑖 ) = 𝜎 2 . Si definisca la somma delle variabili aleatorie 𝑋𝑖 come: 𝑈 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 Dato che 𝑋1 , 𝑋2 , … , 𝑋𝑛 sono variabili aleatorie indipendenti, ciascuna delle quali definita con media 𝜇 e varianza 𝜎 2 , il valore atteso e la varianza di U diventano: 𝐸(𝑈 ) = 𝐸(𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ) = 𝐸(𝑋1 ) + 𝐸(𝑋2 ) + ⋯ + 𝐸(𝑋𝑛 ) = 𝑛 𝜇 𝑉(𝑈 ) = 𝑉(𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ) = 𝑉(𝑋1 ) + 𝑉(𝑋2 ) + ⋯ + 𝑉(𝑋𝑛 ) = 𝑛 𝜎2 Definiamo ora la distribuzione della media campionaria, che è data da: 𝑋̅ = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 𝑈 = 𝑛 𝑛 Poiché ogni v.a. Xi ha una distribuzione identica a quella della popolazione di riferimento, è facile dimostrare che la media della distribuzione campionaria 𝜇𝑋̅ è uguale alla media della popolazione 𝑈 1 1 𝜇𝑋̅ = 𝐸(𝑋̅) = 𝐸 ( ) = 𝐸(𝑈) = 𝑛𝜇 = 𝜇 𝑛 𝑛 𝑛 Anche la varianza della media campionaria, denotata da 𝜎𝑋2̅ , è in relazione con l’omologo parametro della variabile nella popolazione 𝑈 1 1 𝜎2 𝜎𝑋2̅ = 𝑉𝐴𝑅(𝑋̅) = 𝑉𝐴𝑅 ( ) = 2 𝑉𝐴𝑅(𝑈) = 2 𝑛𝜎 2 = 𝑛 𝑛 𝑛 𝑛 Se il campionamento non è bernoulliano e la popolazione è finita, occorre moltiplicare per un fattore di 𝑁−𝑛 riduzione 𝑁−1 dove 𝑁 e 𝑛 sono rispettivamente la numerosità della popolazione e quella campionaria. La varianza della media campionaria è inversamente proporzionale all’ampiezza del campione. La forma assunta dalla distribuzione della media campionaria è normale quando la popolazione da cui deriva è normale. Alla distribuzione della media campionaria è possibile applicare il teorema del limite centrale: se si estraggono ripetuti campioni casuali di dimensione n da un qualsiasi universo (qualunque sia la sua forma) con media 𝜇 e varianza 𝜎 2 , all’aumentare della dimensione n del campione, la distribuzione della media campionaria sarà normale e avrà come media 𝜇 e come varianza 𝜎 2 /𝑛 Quindi al crescere della grandezza del campione, la distribuzione campionaria della media tende ad una distribuzione nomale. La deviazione standard della media campionaria si definisce errore standard e rappresenta un indice di precisione della media stimata su un campione. 𝐸𝑆𝑋̅ = 𝜎𝑋̅ = 𝜎 √𝑛 La stima fornita dal singolo campione è affetta da incertezza, a causa dell'errore casuale del campionamento. L’errore standard è una misura dell’incertezza di una statistica misurata su un campione (ad esempio la media). L’errore standard rappresenta l’errore che noi commettiamo se consideriamo ad esempio la media calcolata su un campione come la media vera della popolazione. La variabilità delle medie campionarie (𝐸𝑆) è minore della variabilità della popolazione (𝜎), ed è tanto minore, tanto maggiore è la numerosità campionaria. NB: deviazione standard è diversa dall’errore standard: La deviazione standard è una misura di variabilità fra individui L’errore standard è una misura di incertezza della stima. DISTRIBUZIONE DELLA V.A. VARIANZA CAMPIONARIA Anche la statistica 𝑆 (deviazione standard o scarto quadratico medio) ha una sua distribuzione campionaria, ovvero gli scarti quadratici medi dei campioni si distribuiscono attorno al vero scarto quadratico medio della popolazione, proprio come le medie dei campioni si distribuiscono attorno alla media della popolazione. NB: 𝑆 2 è una stima sistematicamente errata di 𝜎 2 . La media della distribuzione campionaria di 𝑆 2 per campioni casuali, non è 𝜎 2 ; non si verifica l’eguaglianza perfetta tra valore atteso della varianza campionaria e il suo omologo nella popolazione: i due valori risultano connessi come segue: 2 𝐸(𝑆 2 ) = 𝑛−1 2 𝜎 𝑛 Per questo motivo siamo portati a definire un’altra statistica, definita come varianza campionaria corretta: ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑛−1 2 𝑆̂2 = 𝑆 = 𝑛 𝑛−1 In questo modo avremo che 𝐸(𝑆̂2 ) = 𝜎 2 Il valore atteso della varianza campionaria (calcolata con 𝑛 − 1) è la varianza della popolazione, in altre parole la varianza campionaria (calcolata con 𝑛 − 1) è una stima non distorta della varianza della popolazione. Sovente non si conosce la deviazione standard della popolazione di riferimento, si usa allora la statistica S del campione per ottenere l’errore standard stimato: 𝜎̂𝑥 = 𝑆⁄√𝑛 − 1 La distribuzione della varianza campionaria corretta ha una funzione di densità basata sul chi quadrato con 𝜎2 2 𝑛 − 1 gradi di libertà: 𝑛−1 𝜒(𝑛−1) La varianza di una varianza è funzione dl momento centrale di quart’ordine del fenomeno x, della varianza alla seconda e dell’ampiezza del campione 𝑉𝐴𝑅 (𝑆 2 ) = 𝑓𝑢𝑛𝑧𝑖𝑜𝑛𝑒 ( 𝜇4, 𝜎4, 𝑛) In sintesi: La distribuzione campionaria delle medie permette di fare inferenza sulla media della popolazione quando si conosce 1 solo campione di dimensioni n. Ha le seguenti proprietà: la media della distribuzione campionaria delle medie è uguale alla media μ della popolazione. La deviazione standard della distribuzione campionaria delle medie è funzione della numerosità n del campione e della deviazione standard (σ) della popolazione. Tale quantità si chiama Errore standard (ES): 𝜎 /√𝑁 . Se non conosciamo σ della popolazione, può essere stimato a partire dai dati del campione, e l’ES diventa: 𝑆/√𝑁 − 1 La distribuzione campionaria è approssimativamente normale, indipendentemente dalla distribuzione della popolazione, posto che n sia sufficientemente grande (𝑛 ≥ 30). CAMPIONE 𝑚𝑒𝑑𝑖𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒𝑣. 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑥̅ 𝑆2 𝑆 POPOLAZIONE 𝑚𝑒𝑑𝑖𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒𝑣. 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝜇 𝜎2 𝜎 DIST CAMPIONARIA DELLE MEDIE 𝑚𝑒𝑑𝑖𝑎 𝐸(𝑋̅) = 𝜇 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑉𝐴𝑅(𝑋̅) = 𝜎 2 𝑑𝑒𝑣. 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝐸𝑆(𝑋̅) = 𝜎⁄√𝑁 DISTRIBUZIONI CAMPIONARIE E DISTRIBUZIONI DI PROBABILITÀ Per associare una probabilità ad una media campionaria (𝑛 ≥ 30) se conosciamo δ della popolazione facciamo riferimento alle tavole della normale standardizzata. La standardizzazione sarà fatta usando i parametri di tale distribuzione campionaria: 𝑥̅ − 𝜇 𝑍𝑥̅ = 𝜎 ⁄ 𝑛 √ Quando il campione è piccolo e/o non conosciamo la varianza della popolazione possiamo stimarla attraverso quella del campione, ma per associare un valore di probabilità al risultato ottenuto in un campione bisogna utilizzare la distribuzione t di Student al posto della normale standardizzata. La distribuzione t di Student (William Gosset 1876-1937): possiede le stesse caratteristiche della distribuzione normale, ma ha una forma più schiacciata che esprime una variabilità maggiore intorno alla media. La variabilità della media e lo schiacciamento della curva dipendono dall’ampiezza campionaria, ovvero tanto più i campioni sono piccoli, maggiore sarà la variabilità e tanto più schiacciata risulterà la curva. Il valore di t dipende dalla numerosità campionaria, quindi non esiste una sola distribuzione t, ma ne esistono tante in funzione dei gradi di libertà, dati dalla quantità 𝑛 − 1. Se i gdl sono quei valori liberi di variare, poste certe restrizioni, allora se abbiamo un campione di numerosità n, i gdl saranno sempre un valore in meno rispetto ad n: 𝐺𝑑𝑙 = 𝑛 − 1 Il percorso dell’inferenza statistica si svolge seguendo le seguenti fasi: 1. estrazione di un campione della popolazione 2. calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati contenuti nel campione 3. stima dei parametri nella popolazione in base ai risultati forniti dal campione. Distinguiamo tra θ = (teta) PARAMETRO -> valore reale, fisso riferito a una popolazione che però non possiamo conoscere, è ignoto; è uno dei valori che governa la variabile all’interno della popolazione T = STIMATORE del parametro θ; (T)-> funzione delle determinazioni campionarie T= f(Xi) è anche detto riassunto campionario t = uno dei valori possibili di T, estratto dal campione selezionato per indicare che il valore trovato (t) è una stima del parametro θ, si mette il simbolo ^ sopra il simbolo del parametro Proprietà degli stimatori: Correttezza uno stimatore si definisce corretto se il suo valore atteso corrisponde al valore del parametro nella popolazione 𝐸(𝑇) = 𝜃 → 𝐸(𝑇) − 𝜃 = 0 Ad esempio 𝐸(𝑥̅ ) = 𝜇 La distorsione di uno stimatore B (Bias) si definisce: 𝐸(𝑇) − 𝜃 = 𝐵𝑖𝑎𝑠 Stimatore assolutamente corretto 𝐸(𝑇) − 𝜃 = 0 Stimatore asintoticamente corretto se la distorsione tende a zero quando n tende a infinito 𝑛 → ∞ ; 𝐵𝑖𝑎𝑠 → 0 Stimatore distorto 𝐵𝑖𝑎𝑠 ≠ 0 In termini di correttezza la mediana è uno stimatore corretto tanto quanto la media La varianza campionaria è uno stimatore solo asintoticamente corretto, dal momento che al crescere di n la varianza campionaria e la varianza campionaria corretta tendono a coincidere Efficienza uno stimatore si definisce efficiente se, a parità di altre condizioni, la sua varianza risulta minore. La stima dell’errore standard (per popolazioni finite) è: 𝑆(𝑥̅ ) = 𝑆̂ √𝑛 𝑁−𝑛 ( 𝑁−1 ) L’efficienza relativa di uno stimatore corretto 𝑇 rispetto a un altro stimatore corretto 𝑇′ è dato dal rapporto tra le loro precisioni: 𝐸𝑓𝑓 𝑇 𝑉𝐴𝑅(𝑇′) = 𝑇′ 𝑉𝐴𝑅(𝑇) 𝜎𝑇 è più efficiente di 𝜎𝑇′ se il loro rapporto è > 1: La media è uno stimatore più efficiente della mediana. 1⁄𝜎𝑇 1⁄𝜎𝑇′ = 1 𝜎𝑇 ∗ 𝜎𝑇′ 1 = 𝜎𝑇′ 𝜎𝑇 >1 Quando uno stimatore risulta più efficiente di qualsiasi altro si parla di efficienza assoluta. Precisione Uno stimatore è tanto più preciso quanto minore è la dispersione della distribuzione campionaria. Questa caratteristica ci fornisce una stima dell’accuratezza dello stimatore, e è misurata attraverso l’errore standard (SE): 𝐸𝑆: 𝜎⁄√𝑛 Consistenza Uno stimatore viene definito consistente se all’aumentare della numerosità campionaria aumenta anche la probabilità che il valore della stima (T) sia uguale al valore del parametro nella popolazione (θ). Cioè che la distorsione B (bias) e la varianza di T tendono entrambe a 0 Una misura della consistenza è l’errore quadratico medio (MSE): 𝑀𝑆𝐸 = 𝐸(𝑇 − 𝜃)2 dove T è un generico stimatore del parametro θ L’MSE risulta scomponibile in due parti: la varianza dello stimatore dovuta all’errore casuale (imprecisione) e il quadrato della distorsione: 𝜎 2 (𝑇) + 𝐵2 (𝑇). Si dice che T è consistente se l’MSE tende a 0 quando n tende a infinito L’individuazione della funzione dei dati campionari che permette di avere una stima dei parametri è detta naturale => vi è un reciproco tra T calcolato sul campione e θ della popolazione di riferimento Un esempio di un estimatore naturale è la media e la varianza 𝜇 = 𝑥̅ ; 𝜎 2 = 𝑆 2 STIMA PUNTUALE se non è possibile individuare un estimatore diretto si utilizzano degli algoritimi detti “metodi di stima” per calcolare la stima del parametro due di questi metodi sono: il metodo dei minimi quadrati (MMQ) il metodo della massima verosimiglianza (ML) Con il metodo dei minimi quadrati (MMQ) si stima il parametro mediante quel valore che rende minima la somma delle distanze al quadrato tra le osservazioni e il parametro stesso. Ad esempio: se vogliamo stimare la vera lunghezza di un oggetto, sulla base di n misurazioni ( 𝑥𝑖 ) affette da errore casuale, la stima del parametro è quel valore che minimizza la seguente espressione: 𝑛 𝑛 2 ∑(𝑥𝑖 − 𝑥̅ ) = min 𝑖=1 1 𝑥̅ = ∑ 𝑥𝑖 𝑛 𝑖=1 Massima verosimiglianza (ML) (Fisher) è legato all’idea che le reali caratteristiche della popolazione generano con diversi livelli di probabilità distribuzioni campionarie diverse. Il metodo di stima della massima verosimiglianza funziona al contrario: dato un certo campione si cerca di stimare quei parametri che con un grado di probabilità più elevato possono aver generato il campione osservato. Vado a considerare come stima di μ il valore che rende massima la probabilità di osservare quel valore => probabilità di un evento composto indipendente 𝑃(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) = 𝑃(𝑥1 ) ∗ 𝑃(𝑥2 ) … ∗ 𝑃(𝑥𝑛 ) Se 𝑥1 , 𝑥2 , … , 𝑥𝑛 sono osservazioni campionarie di un campione casuale con reinserimento. Ogni osservazione assume un valore che è indipendente da quello delle altre e ha una funzione di probabilità f(𝑥𝑖 ; Θ). La densità di probabilità congiunta dell’intero campione è data da: 𝑛 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; Θ) = 𝑓(𝑥1 ; Θ) ∗ 𝑓(𝑥2 ; Θ) … ∗ 𝑓(𝑥𝑛 ; Θ) = ∏ 𝑓(𝑥𝑖 ; Θ) 𝑖=1 Mentre la funzione di verosimiglianza è data da: 𝑛 𝐿(Θ) = 𝐿(Θ; 𝑥1 , 𝑥2 , … , 𝑥𝑛 ) = ∏ 𝑓(𝑥𝑖 ; Θ) 𝑖=1 Tra i diversi valori che un parametro può assumere cerchiamo quello che ha maggiore probabilità di aver generato i dati campionari osservati. Per ottenere questo valore bisogna calcolare il massimo della funzione L(θ). NB: Oltre alla stima puntuale deve essere sempre anche indicato l’errore standard della stima σT (indica quanto la stima si discosta dal parametro). Più l’errore standard è piccolo più la stima è buona STIMA INTERVALLARE Nella stima puntuale non possiamo aspettarci che la nostra stima T coincida con il parametro vero θ, ma è più lecito chiedersi qual è il grado di approssimazione che possiamo aspettarci. Negli anni 30 Neyman propose di fare una stima intervallare ovvero individuare un intervallo “I” entro il quale il parametro ignoto si trova con un certo grado di probabilità. Non stimiamo più il valore esatto del parametro, ma un intervallo di valori che, con un certo grado di probabilità o fiducia, conterrà il vero valore della popolazione. Pertanto spesso si preferisce stimare un intervallo di valori entro i quali si ritiene sia compreso il parametro in esame con un certo grado di “confidenza”. Questo range di valori si chiama intervallo di confidenza o di fiducia. I limiti dell’ intervallo (L1 , L2 ) sono detti limiti di fiducia o di confidenza; più è ampio l’intervallo maggiore sarà la probabilità che contenga il vero valore della popolazione. L’ampiezza dell’intervallo di confidenza dipende dal livello di probabilità (o di confidenza) che è fissato a priori dal ricercatore. A parità di livello si significatività la precisione della stima intervallare migliora al crescere della numerosità del campione. Fissando a priori il livello di accuratezza desiderato calcoliamo quanto deve essere grande il campione per ottenere una stima con quel livello di accuratezza. La procedura di stima intervallare richiede che sia verificato almeno uno dei seguenti pre-requisiti: La variabile si distribuisca normalmente Il campione sia sufficientemente ampio (𝑛 ≥ 30) per cui grazie al tlc (teorema del limite centrale), la forma della distribuzione della variabile nella popolazione è indifferente Si definisce intervallo di confidenza un range di valori costruito intorno alla stima campionaria, all’interno dei quale, con un certo grado di probabilità sarà contenuto il vero valore del parametro della popolazione. L’ampiezza dell’intervallo viene determinata in base a un livello di probabilità che è fissato a priori dal ricercatore. Il livello di probabilità che viene fissato, è definito dall’espressione 1 − 𝛼 è detto livello di significatività. I valori più usati di α sono 0,05 e 0,01 a cui corrispondono i coefficienti di fiducia 0,95 e 0,99 Quindi la stima di 𝜃̂ è dato da : 𝜃̂ = 𝑡 ± 𝑣𝑎𝑙𝑐 𝜎𝑇 valc : valore critico, dipende dal livello di confidenza (1-α) ; il valore critico dipende dal tipo di distribuzione della variabile. Se si tratta di una distribuzione normale utilizziamo lo z critico data una popolazione on distribuzione di probabilità caratterizzata dal parametro θ ed estratti numerosi campioni casuali indipendenti, si verifica che ogni campione fornisce una stima diversa e quindi l’intervallo di fiducia è posizionato in modo diverso rispetto a θ; nell’1-α di questi intervalli sarà contenuto il valore del parametro ignoto (θ). In pratica il ricercatore estrae uno solo di questi campioni e osserva pertanto un solo intervallo al quale attribuisce una probabilità 1-α di contenere il vero valore di θ stima intervallare di una media il caso più semplice di stima intervallare riguarda la media della distribuzione di una variabile nella popolazione con campione grande (>30) e varianza nota il procedimento di stima di μ avviene mediante la media campionaria Xmedio ; poiché questa di distribuisce normalmente con media μ e errore standard 𝜎/√𝑛, la probabilità di ottenere un valore Xmedio che non si discosti da μ ±zc volte l’errore standard è data dalla seguente relazione: 𝑃 (𝑥̅ − 𝑧𝑐 𝜎 √𝑛 ≤ 𝜇 ≤ 𝑥̅ + 𝑧𝑐 𝜎 √𝑛 )=1−𝛼 Il valore si z critico è connesso al valore di α prescelto (vedi tabelle) In una distribuzione normale standardizzata il 95% dei valori è compreso tra -1.96 e +1.96 −1.96 < 𝑍 < +1.96 Dunque un IC al 95% per la media (μ) è dato da: (𝑋𝑚𝑒𝑑𝑖𝑜 − 1.96 ∗ 𝜎/√𝑛 ; 𝑋𝑚𝑒𝑑𝑖𝑜 + 1.96 ∗ 𝜎/√𝑛) Un intervallo di confidenza al 95% è un intervallo in cui in 95 casi su 100 cadrà il vero valore della media della popolazione. Quindi: Siamo confidenti al 95% che la media μ della popolazione è compresa. Per associare una probabilità ad una media campionaria calcolata su un campione con n>30 facciamo riferimento alle tavole della normale standardizzata, poiché la distribuzione campionaria delle medie è normale per il tlc. La standardizzazione della media sarà fatta in riferimento ai parametri di tale distribuzione campionaria che possono essere calcolati conoscendo quelli della popolazione. Si ricava z attraverso la seguente formula: 𝑍𝑥̅ = 𝑋̅ − 𝜇 𝑋̅ − 𝜇 = 𝜎 𝜎 ⁄ 𝑛 √ Se però (come spesso accade) la varianza della popolazione è ignota, occorre stimare σ2 con la varianza campionaria corretta 𝑆̂2 𝑆̂2 = 𝜇̂ = 𝑥̅ Stima di μ è uguale alla media del campione ∑(𝑥𝑖 − 𝑥̅ )2 𝑛 𝑆2 = 𝑛−1 𝑛−1 𝜎 ⁄ 𝑛 √ 𝜎𝑥̅ = σ della media del campione di calcola facendo il rapporto tra σ e la radice della numerosità del campione 𝜎̂ = La stima di σ: è uguale a 𝑆̂⁄√𝑛 var corretta 𝑆⁄√𝑛 − 1 var non corretta il fatto che 𝑆̂ sia una stima di σ fa sì che la sua distribuzione di probabilità non sia più normale, ma sia una t di student 𝑡 = 𝑧⁄ 2 √𝜒 ⁄𝜐 Pur partendo da una distribuzione normale (z) la media standardizzata si distribuisce come un t di student. I suoi gradi di libertà sono n-1 Il valore critico va cercato nelle tavole della t di student => si usa il t critico (tc) 𝜇̂ = 𝑥̅ ± 𝑡𝑐 𝜎̂𝑥̅ La t ha code più ampie di una distribuzione normale, ma per ν>30 => t ≈ NOR (0,1) Per gradi di libertà superiori a 30 la t di student approssima una distribuzione normale standardizzata. t è una distribuzione usata per campioni piccoli Bisogna distinguere due situazioni: Campione grande e varianza nota Distribuzione normale standardizzata Campione grande e varianza ignota se non conosciamo la varianza della popolazione possiamo stimarla attraverso quella del campione, ma per costruire gli IC bisogna utilizzare la distribuzione t di Student al posto della normale standardizzata Campione piccolo e varianza della popolazione nota La procedura di stima è identica al caso in cui N>30: si usa comunque la distribuzione normale standardizzata. Campione piccolo e varianza della popolazione ignota Quando il campione è piccolo e non conosciamo la varianza della popolazione possiamo stimarla attraverso quella del campione, ma per costruire gli IC bisogna utilizzare la distribuzione t di Student al posto della normale standardizzata La distribuzione t di student possiede le stesse caratteristiche della distribuzione normale, ma ha una forma più schiacciata che esprime una variabilità maggiore intorno alla media. La variabilità della media e lo schiacciamento della curva dipendono dall’ampiezza campionaria, ovvero tanto più i campioni sono piccoli, maggiore sarà la variabilità e tanto più schiacciata risulterà la curva. Il valore di t dipende dalla numerosità campionaria, quindi non esiste una sola distribuzione t, ma ne esistono tante in funzione dei gradi di libertà, dati dalla quantità n-1. I gradi di libertà esprimono i valori liberi di variare poste alcune restrizioni. Se i gdl sono quei valori liberi di variare, poste certe restrizioni, allora se abbiamo un campione di numerosità n, i gdl saranno sempre un valore in meno rispetto ad n: Gdl=n-1 La t di student è una famiglia di variabili aleatorie, cambiano in base ai gradi di libertà NB: la media campionaria standardizzata con σ stimato, si distribuisce come una t di student solo se la popolazione si distribuisce normalmente ( non è un problema se la popolazione è grande, ma lo è se la popolazione è piccola) La dicitura “ipotesi mono o bidirezionale” presente sulle tavole ha a che fare col valore delle code della distribuzione o o Bidirezionale = α va spaccato a metà, nelle due code (ogni coda vale α/2) Monodirezionale = α sta tutta su una coda Stima intervallare di una proporzione Se consideriamo una variabile qualsiasi dicotomica e codificata con valori 0 e 1, la media costituisce la proporzione degli 1 sul totale. La varianza 𝜎 2 è data da 𝑝 ∗ 𝑞, ovvero le rispettive probabilità di accadimento delle due classi di eventi (0; 1): l’errore standard è quindi dato da: √ 𝑝∗𝑞 𝑛 Per la stima intervallare di una proporzione si procede come nel caso di stima intervallare della media (distinguendo a seconda della numerosità del campione e delle informazioni sulla varianza). Quando stimiamo proporzioni possiamo procedere come se la varianza fosse nota, assumendo per cautela il suo valore massimo, raggiunto quando 𝑝 = 𝑞 = 0,5 Precisione della stima e ampiezza del campione A parità di livello di significatività, la precisione della stima intervallare migliora al crescere della numerosità campionaria. Se il campionamento non è affetto da distorsione sappiamo che otterremo una media campionaria tale che: 𝑥̅ = 𝜇 ± 𝜀 Dove 𝜀cè l’errore casuale e μ è la media della variabile della popolazione (il parametro da stimare) Sappiamo anche che l’errore standard della distribuzione campionaria delle medie (𝜎⁄√𝑛 ) diminuisce all’aumentare della numerosità campionaria. Pertanto a parità di condizioni, un campione più grande di un altro fornisce rispetto a quest’ultimo una stima dei parametri più accurata. È necessario fissare a preventivamente il livello di fiducia dell’errore che si è disposti a compiere. Se il rapporto tra n (numerosità campionaria) e N (numerosità dell’universo è superiore al 5%, e il campionamento è senza ripetizione, l’errore campionario va calcolato tenendo conto della frazione di campionamento: 𝑒 = 𝑧𝑐 𝜎 √𝑛 𝑁−𝑛 (√ 𝑁−1 ) TEST DI IPOTESI STATISTICHE In un test di verifica di ipotesi, a differenza dei metodi di stima precedenti, non si mira a identificare approssimativamente il valore di un parametro incognito, ma si vuole accertare se una certa affermazione su parametro debba ritenersi vera o falsa. Un’ipotesi è un’affermazione relativa a un fenomeno che può essere controllata empiricamente. Verificare un’ipotesi significa controllare attraverso i dati di un campione la plausibilità dell’ipotesi stessa (è sinonimo di testare). I test statistici sono procedure formalizzate con le quali si sottopone a falsificazione una certa ipotesi (definita ipotesi nulla H0); l’ipotesi alternativa o di ricerca, indicata con H1 , contiene un’affermazione non compatibile con quella dell’ipotesi nulla. In altri termini H0 e H1 devono essere mutualmente esclusive Si va a valutare se H0 è compatibile o meno coi dati del campione; a tale fine viene calcolata la statistica test. Si mira a verificare se H0 è incompatibile coi dati al fine di rinforzare l’ipotesi del ricercatore o o se H0 è compatibile coi dati => accettiamo H0 se H0 è incompatibile coi dati => rifiutiamo H0 qualunque sia l’ipotesi che ha passato un test, è bene tenere presente che essa non può mai in ogni caso, essere assunta come definitivamente provata. L’ipotesi alternativa H1 è un’ipotesi composta, essa afferma l’esistenza di una differenza tra due parametri che non è riassumibile in un valore puntuale, bensì in un intervallo attorno ad esso (oppure alla sua sinistra o alla sua destra). In alcuni casi l’ipotesi di ricerca prevede in segno della differenza tra il parametro di base al il valore di riferimento, nel qual caso si parla di ipotesi unidirezionale. In altri casi si limita a prevedere una differenza solo in termini assoluti, nel qual caso si parla di ipotesi bidirezionali. L’ipotesi nulla H0 è invece per la più rappresentata da un’ipotesi semplice, rappresentabile come un punto nello spazio dei parametri. Per stabilire una regola di decisione su quale delle due ipotesi trattenere, è necessario fissare a priori l’entità della differenza che consideriamo statisticamente significativa tra i due valori. Dobbiamo decidere a priori il confine oltre al quale il nostro dubbio è considerato come probabilmente infondato. Una volta formulate correttamente le ipotesi, si tratterà di individuare il test adeguato per il problema in oggetto. Si noti che ogni test richiede che siano verificati determinati assunti: alcuni valgono per quasi tutti i test, altri sono tipici di alcuni tipi specifici. I test di ipotesi statistiche possono essere classificati secondo diversi criteri. Un primo criterio di classificazione dei test di ipotesi statistiche è il tipo di variabile del campione (ed eventualmente il tipo di proprietà ella popolazione) che sottoponiamo a test; in questo caso distingueremo tra test per variabili categoriali, ordinali e cardinali. Un secondo criterio riguarda il numero di variabili implicate, secondo il quale distinguiamo tra test su singole variabili e test su relazioni tra variabili (in questo caso diventa rilevante la distinzione tra dipendenza e indipendenza tra le variabili). Di notevole importanza è poi la distinzione tra test parametrici e test non parametrici. Generalmente, i test parametrici sono applicabili a variabili cardinali, mentre i test non parametrici a variabili categoriali e ordinali. Errori del primo e del secondo tipo (α e β) Poiché gli eventi studiati sono intrinsecamente probabilistici, la decisione che prendiamo circa la veridicità/falsità delle ipotesi che li riguardano è per definizione affetta dalla possibilità di commettere un errore. È possibile respingere un’ipotesi H0 che in realtà è vera, commettendo un errore del primo tipo. La probabilità di commettere tale errore, o livello di significatività del test è indicato con 𝛼 È possibile che si accetti un’ipotesi H0 che in realtà è falsa, commettendo un errore del secondo tipo. La probabilità di commettere questo errore è indicata con 𝛽 Non è possibile, dato un certo campione, ridurre la probabilità di commettere l’errore di un tipo senza nello stesso tempo aumentare la probabilità di commettere quello dell’altro tipo. La probabilità massima di commettere un errore del primo tipo viene stabilita a priori, ad 𝛼 viene attribuito un valore si 0,01 o 0,05. Con la scelta del livello di significatività, oltre a fissare il rischio di commettere un errore del primo tipo, fissiamo il valore che può assumere l’errore del secondo tipo: a parità di condizioni, al diminuire di uno aumenta l’altro. La probabilità di commettere un errore del primo tipo è uguale alla somma delle probabilità dei risultati che ci fanno respingere l’ipotesi nulla, ossia di quei risultati che rientrano nella regione di rifiuto. Occorre sempre tenere presente l’errore di tipo beta: se non possiamo respingere l’ipotesi nulla dato un certo livello di significatività non è detto che essa sia sicuramente vera. I test statistici sono costruiti in modo tale da bilanciare i due tipi di errore, si può però osservare che test diversi hanno una diversa sensibilità all’errore del secondo tipo; si parla a tal proposito di potenza di un test. Formalmente la potenza è definita come 1 − 𝛽 Accettazione H0 Rifiuto H0 H0 vera H0 falsa Congruenza Errore del 2° tipo 𝑝 =1−𝛼 𝑝= 𝛽 Errore del 1° tipo Congruenza 𝑝=𝛼 𝑝 = 1−𝛽 Per effettuare un Test di verifica di ipotesi occorre: 1. creare un SISTEMA DI IPOTESI ovvero espletare H0 e H1 2. associare al sistema di ipotesi una STATISTICA TEST che permette di decidere se accettare o meno H0 3. stabilisco il valore di α 4. calcolo della distribuzione campionaria della statistica test 5. andiamo a calcolare il valore della statistica test e lo posizioniamo in base alla sua distribuzione campionaria => osservo se H0 è visino o meno al valore atteso VERIFICA DI IPOTESI MONOVARIATE test binomiale sulla probabilità di un evento viene applicato a variabili dicotomiche (variabili categoriali). Permette di testare ipotesi sulla probabilità del verificarsi di un certo evento in un numero n di prove 𝐻0 ∶ 𝑝 = 𝑝0 𝐻1 : 𝑝 ≠ 𝑝0 Si vuole testare la probabilità del verificarsi di un determinato evento sia uguale a un prefissato valore p0. Effettuiamo n prove dello stesso esperimento e basare il nostro test sul numero delle volte in cui l’evento successo p si è verificato. Ogni estrazione è una prova bernoulliana, nella quale i due venti, successo e insuccesso, hanno rispettivamente probabilità p e q di verificarsi (con 𝑝 + 𝑞 = 1 ). L’estrazione di un singolo caso è una variabile aleatoria di Bernoulli; quando procediamo a n estrazioni, il numero di successi è una variabile aleatoria, questa volta con una distribuzione binomiale ancora governata da p, probabilità del successo, ma che dipende ora anche dal numero delle prove effettuate (n). Consideriamo vera l’ipotesi nulla, calcoliamo quale probabilità hanno i singoli valori che costituiscono il supporto della variabile aleatoria binomiale X 𝑁 𝑃(𝑋 = 𝑥) = ( ) 𝑝 𝑥 ∗ 𝑝𝑁−𝑥 𝑥 Individuata la distribuzione campionaria opportuna, attraverso il valore di α individuiamo la regione del rifiuto. Si tratta di trovare quel valore di x che lascia alla sua sinistra un insieme di valori la cui probabilità totale è uguale a α; il valore che individua la regione di rifiuto viene detto valore critico. Il valore critico xo sarà quel valore per il quale: 𝑥0 ∑ 𝑝(𝑥𝑖 ) ≠ 𝑝0 𝑖=0 Dal momento che l’ipotesi di ricerca è bidirezionale vanno individuati due valori critici, ciascuno dei quali lascia sulla coda della distribuzione un insieme di valori la cui probabilità totale fosse pari a 𝛼 ⁄2 Il test binomiale viene applicato soltanto quando n è molto piccolo; al tendere di n a infinito infatti, per il Teorema del limite centrale, la distribuzione binomiale tende a quella normale con media 𝑚 ∗ 𝑝 e varianza 𝑛 ∗ 𝑝 ∗ 𝑞: sarà sufficiente allora standardizzare il valore osservato di X e utilizzare come distribuzione campionaria la normale standardizzata. In generale si ritiene accattabile l’approssimazione partire da valori di 𝑛 ≥ 30 test del chi quadrato per la bontà di adattamento permette di verificare se una distribuzione empirica si discosta significativamente da una qualche distribuzione teorica, discreta o continua. Questo test viene applicato a variabili categoriali 𝐻0 : 𝑋~𝑓(𝑋; 𝜃) 𝐻1 : 𝑋 𝑛𝑜𝑛 ~𝑓(𝑋; 𝜃) Si va a impostare una tabella con indicate le frequenze teoriche e quelle osservate. Possiamo a questo punto calcolare la statistica χ2 che è dato dalla seguente formula: 𝐾 2 𝜒 = ∑ 𝑘=1 (𝑛𝑘 − 𝑛̂𝑘 )2 𝑛̂𝑘 Dove 𝑛𝑘 indica la frequenza empirica di una generica modalità , 𝑛̂𝑘 la corrispondente frequenza teorica (frequenza derivata in base all’ipotesi nulla) e K indica il numero di categorie. Se l’ipotesi nulla è vera, la statistica test si distribuisce approssimativamente come la v.a. χ2 con K-1 gradi di libertà. Per verificare ipotesi relative a distribuzioni continue; in questo caso la statistica test opera su frequenze, si tratta quindi di discretizzare i valori della distribuzione, suddividendo le osservazioni ad esempio in decili. Perché il test abbia una sufficiente potenza, vi è il vincolo che le frequenza teoriche siano almeno uguali a 1 e che il 20% o più delle frequenze teoriche non contenga valori inferiori a 5 test della media di una popolazione test usato per variabili cardinali, si mira a verificare se la media X nella popolazione è uguale a un valore dato 𝐻0 : 𝜇 = 𝜇0 𝐻1 : 𝜇 ≠ 𝜇0 Si utilizza la statistica test z, confrontata con una distribuzione normale standardizzata, se la varianza della popolazione è nota. Si utilizza la statistica test t,confrontata con la distribuzione t di student se la varianza della popolazione è ignota. Se l’ipotesi nulla è vera e gli assunti sono rispettati, sappiamo che la distribuzione campionaria della media è normale, con media 𝜇0 e varianza 𝜎 2 ⁄𝑛, dove 𝜇0 e 𝜎 2 rappresentano la media e la varianza della popolazione di riferimento e n è la numerosità del campione. Se standardizziamo la media campionaria essa avrà una distribuzione normale standardizzata, con media 0 e varianza pari a 1. Il valore critico (detto z critico) andrà ricercato nella tavola statistica della distribuzione normale standardizzata. Il valore critico sarà quello che lascia alla sua sinistra un insieme di valori la cui probabilità totale è 0,5-α se l’ipotesi alternativa è monodirezionale; o,5-α/2 se l’ipotesi alternativa è bidirezionale. Si confronta il valore dello zc con quello dello z calcolato dalla statistica test: 𝑧= 𝑥̅ − 𝜇0 𝜎⁄√𝑛 Nel caso in cui la media della popolazione è nota mentre è ignota la varianza varia solamente la distribuzione campionaria della statistica test. Dovendo utilizzare al posto dello scarto quadratico medio della popolazione la sua stima campionaria corretta, la media campionaria standardizzata non si distribuisce più come una v.a. normale standardizzata ma come una v.a. t di student, con n-1 gradi di libertà 𝑡= 𝑋̅ − 𝜇 𝑠̂ ⁄√𝑛 𝑜𝑝𝑝𝑢𝑟𝑒 𝑡= 𝑋̅ − 𝜇 𝑠⁄√𝑛 − 1 Quando il campione è sufficientemente grande è possibile ricorrere anche in quest’ultimo caso alla distribuzione normale standardizzata, poiché al crescere dei gradi di libertà, e quindi al crescere di n, la distribuzione t approssima sempre di più una distribuzione normale standardizzata. INFERENZA SU DUE VARIABILI Stima intervallare della differenza tra due medie In questo caso si ricorre alle medie di due campioni (𝑋̅1e 𝑋̅2) per stimare μ 1 e μ2 Si considerino due popolazioni con media e varianza rispettivamente (𝜇1 e 𝜎12 ) e (𝜇2 e 𝜎22 ) da cui possono essere generate due distribuzioni campionarie di medie, rispettivamente 𝑋̅1e 𝑋̅2 . Prendendo tutte le possibili combinazioni di questi campioni delle due popolazioni, otteniamo una distribuzione campionaria della differenza tra le de medie, 𝑋̅1-𝑋̅2 . La media e la deviazione standard di questa distribuzione campionaria sono denotate rispettivamente da: 𝜇𝑋̅1 −𝑋̅2 e 𝜎𝑋̅1 −𝑋̅2 Se i campioni scelti sono indipendenti : La distribuzione campionaria della differenza tra medie per popolazioni infinite assume i seguenti valori caratteristici: 𝜇𝑋̅1 −𝑋̅2 = 𝐸(𝑋̅1 − 𝑋̅2 ) = 𝜇1 − 𝜇2 𝜎𝑋̅1 −𝑋̅2 = 𝑉𝐴𝑅(𝑋̅1 − 𝑋̅2 ) = 𝑉𝐴𝑅(𝑋̅1 ) + 𝑉𝐴𝑅(𝑋̅2 ) − 2𝐶𝑂𝑉(𝑋̅1 , 𝑋̅2 ) = 𝜎12 𝜎22 + 𝑛1 𝑛2 La varianza della differenza tra medie è necessariamente maggiore delle varianze delle medie prese singolarmente: essa infatti deriva da due diverse fonti di fluttuazione, una per ognuno dei campioni. Se le due popolazioni sono normali la forma della distribuzione campionarie della differenza tra due medie è approssimativamente normale con media (𝜇1 − 𝜇2 ) e varianza (𝜎1 ⁄𝑛1 + 𝜎2 ⁄𝑛2 ) Se le popolazioni non sono normali e i campioni estratti dalle due popolazioni hanno ampiezze n1 e n2 molto grandi, per il teorema del limite centrale la distribuzione tenderà comunque a una normale campioni grandi e varianze delle popolazioni note la differenza tra due medie campionarie si distribuisce normalmente , con media (𝜇1 − 𝜇2 ) e varianza (𝜎1 ⁄𝑛1 + 𝜎2 ⁄𝑛2 ). La determinazione dell’intervallo di confidenza è analoga a quanto avviene per il caso di parametri singoli: 𝜎12 𝜎22 𝜎12 𝜎22 𝑃 ((𝑋̅1 − 𝑋̅2 ) − 𝑧𝑐 √ + ≤ 𝜇1 − 𝜇2 ≤ (𝑋̅1 − 𝑋̅2 ) + 𝑧𝑐 √ + ) = 1 − 𝛼 𝑛1 𝑛2 𝑛1 𝑛2 campioni grandi e varianze delle popolazioni ignote in questo caso vale una formula che si differenzia da quella precedente solo per il fatto che 𝑠̂12 e 𝑠̂22 prendono il posto di 𝜎12 e 𝜎22 . Quindi : 𝑠̂12 𝑠̂22 𝑠̂12 𝑠̂22 𝑃 ((𝑋̅1 − 𝑋̅2 ) − 𝑧𝑐 √ + ≤ 𝜇1 − 𝜇2 ≤ (𝑋̅1 − 𝑋̅2 ) + 𝑧𝑐 √ + ) = 1 − 𝛼 𝑛1 𝑛2 𝑛1 𝑛2 campioni piccoli e varianze delle popolazioni note è possibile utilizzare la procedura per i campioni grandi, a patto che le distribuzioni delle popolazioni in esame si possano assumere normali. In caso contrario è necessario ricorrere a stime non parametriche campioni piccoli e varianze delle popolazioni ignote sempre sotto condizione che le popolazioni siano normali, è possibile ricorrere alla distribuzione campionaria t di Student: 𝑠12 𝑛1 + 𝑠22 𝑛2 𝑛1 + 𝑛2 𝑠12 𝑛1 + 𝑠22 𝑛2 𝑛1 + 𝑛2 𝑃 ((𝑋̅1 − 𝑋̅2 ) − 𝑡𝑐 √ ∗ ≤ 𝜇1 − 𝜇2 ≤ (𝑋̅1 − 𝑋̅2 ) + 𝑡𝑐 √ ∗ ) 𝑛1 + 𝑛2 − 2 𝑛1 ∗ 𝑛2 𝑛1 + 𝑛2 − 2 𝑛1 ∗ 𝑛2 =1−𝛼 poiché perdiamo un grado di libertà nella stima di ciascuna varianza, i gradi di libertà per la distribuzione t saranno pari a n1+n2-2 test della differenza tra due medie in due campioni indipendenti consideriamo ora la verifica di ipotesi sulla tendenza centrale quando si disponga di variabili cardinali. Analogamente a quanto visto per la stima intervallare possiamo distinguere a seconda della conoscenza o meno delle varianze delle popolazioni, della loro uguaglianza o diversità e a seconda dell’ampiezza del campione. Campioni di grandi dimensioni, con varianze delle popolazioni ignote e diverse (eteroschedasticità) 𝐻0 : 𝜇1 = 𝜇2 𝐻1 : 𝜇1 ≠ 𝜇2 Poiché i campioni sono grandi la distribuzione campionaria della differenza tra due medie è normale, con media pari a (𝜇1 − 𝜇2 ) e varianza (𝜎1 ⁄𝑛1 + 𝜎2 ⁄𝑛2 ). Calcoliamo la differenza tra le medie standardizzata, ricorrendo ad una stima delle varianze delle popolazioni (utilizzando la varianza corretta): 𝑧= (𝑥̅1 − 𝑥̅2 ) − (𝜇1 − 𝜇2 ) 𝑠̂ 2 𝑠̂ 2 √ 1+ 2 𝑛1 𝑛2 Utilizzando invece la varianza non corretta: 𝑧= (𝑥̅1 −𝑥̅2 )− (𝜇1 −𝜇2 ) 2 𝑠2 1 + 𝑠2 𝑛1 −1 𝑛2 −2 √ Assumendo per vera l’ipotesi nulla il numeratore della formula si semplifica: 𝑧= (𝑥̅1 − 𝑥̅2 ) 𝑠̂ 2 𝑠̂ 2 √ 1+ 2 𝑛1 𝑛2 Sarà allora sufficiente individuare sulla tavola della normale standardizzata la regione critica. Campioni di grandi dimensioni, con varianze delle popolazioni uguali In questo caso è utile apportare un calcolo di 𝑠̂𝑥̅ 1 −𝑥̅2 ; una buona stima sarà infatti la media ponderata delle varianze campionarie, cioè una media che tiene conto delle diverse numerosità campionarie: 𝑠̂𝑥̅1 −𝑥̅2 = √ 𝑠12 𝑛1 + 𝑠22 𝑛2 1 1 ∗√ + 𝑛1 + 𝑛2 − 2 𝑛1 𝑛2 Questa nuova quantità andrà a sostituire il denominatore della formula precedente: 𝑧= (𝑥̅1 − 𝑥̅2 ) − (𝜇1 − 𝜇2 ) 𝑠 2 𝑛 + 𝑠22 𝑛2 1 1 √ 1 1 √ 𝑛1 + 𝑛2 − 2 ∗ 𝑛1 + 𝑛2 In questo modo diventa minore la dispersione, l’errore standard, della distribuzione campionaria della differenza tra medie. MODIFICHE DA APORTARE AL TEST DELLA DIFFERENZA TRA MEDIE CAMPIONI GRANDI VARIANZE DELLE NOTE 1 1 POPOLAZIONI UGUALI 𝑠̂𝑥̅1−𝑥̅2 = √𝜎 2 ( + ) 𝑛1 𝑛2 Z normale standardizzata IGNOTE 𝑠̂𝑥̅1−𝑥̅2 = √ NOTE 𝑠12 𝑛1 + 𝑠22 𝑛2 1 1 ∗√ + 𝑛1 + 𝑛2 − 2 𝑛1 𝑛2 𝜎12 𝑠̂𝑥̅1−𝑥̅2 = √ 𝑛1 + 𝑠12 𝑠̂𝑥̅1−𝑥̅2 = √ 𝑠12 𝑛1 + 𝑠22 𝑛2 1 1 ∗√ + 𝑛1 + 𝑛2 − 2 𝑛1 𝑛2 T di Student con n1+n2-2 gdl 𝜎22 𝑛2 Z normale standardizzata IGNOTE 1 1 𝑠̂𝑥̅1−𝑥̅2 = √𝜎 2 ( + ) 𝑛1 𝑛2 Z normale standardizzata Z normale standardizzata VARIANZE DELLE POPOLAZIONI DIVERSE CAMPIONI PICCOLI 𝜎12 𝜎22 𝑠̂𝑥̅1−𝑥̅2 = √ + 𝑛1 𝑛2 Z normale standardizzata 𝑠22 𝑠̂𝑥̅1 −𝑥̅2 = √ + 𝑛1 − 1 𝑛2 − 1 Z normale standardizzata 𝑠12 𝑠22 𝑠̂𝑥̅1 −𝑥̅2 = √ + 𝑛1 − 1 𝑛2 − 1 T di Student con n1+n2-2 gdl test della differenza tra due medie in due campioni dipendenti I due campioni sono tra loro dipendenti, ad esempio misuriamo una variabile in due tempio diversi (t0 e t1) Se le due medie sono uguali, allora la media delle differenze tra le sue risposte in ogni soggetto della popolazione sarà pari a 0. Se indichiamo questo parametro con il simbolo μD, l’ipotesi nulla sarà μD=0. Per verificare che vi sia una differenze significativa tra le medie sarà quindi sufficiente confrontare D, la media delle differenze riscontrata nel campione con μD. si applica quindi lo stesso procedimento visto nel test della media per una popolazione si applica rispettivamente la distribuzione z o la distribuzione t a seconda che il campione sia piccolo oppure grande. Test della differenza tra le varianze di due campioni indipendenti L’uguaglianza tra le varianze di due popolazioni può essere una vera e propria ipotesi di ricerca, oppure essere un assunto per poter effettuare altri tipi di inferenza con altri test. In entrambi i casi serve un dispositivo che permetta di verificare la presenza o meno di omogeneità tra le varianze. 𝐻0 : 𝜎1 = 𝜎2 𝐻1 : 𝜎1 ≠ 𝜎2 Utilizziamo come statistica test la F di Fisher-Snedecor, ottenuta come rapporto tra le due varianze campionarie corrette Quando l’uguaglianza delle varianze rientra tra gli assunti di un determinato test si parla di omoschedasticità, ed è a tale utilizzo del test della differenza tra le varianze di due campioni indipendenti che faremo riferimento. Se l’ipotesi nulla è vera il rapporto tra le due stime 𝑆̂12 e 𝑆̂22 , dovrebbe assumere un valore non eccessivamente distante da uno: 𝐹= 𝑆̂12 𝑆̂22 Il rapporto tra le due stime è distribuito secondo una funzione nota come v.a. F di Fisher-Snedecor con un numero di gradi di libertà, 𝜐1 e 𝜐2 , pari rispettivamente a 𝑛1 − 1 e 𝑛2 − 1 Si tratterà allora di individuare quei valori di F che lasciano alla code della distribuzione i valori che complessivamente hanno una probabilità α di verificarsi. Per comodità il rapporto viene effettuato ponendo al numeratore la varianze più grande, in modo da poter consultare più agevolmente le tavole. Posto in questo modo il rapporto sarà sempre maggiore o uguale a uno: a seconda che l’ipotesi alternativa sia uni o bidirezionale, si farà riferimento a un livello di significatività pari a α o α/2 STATISTICA DESCRITTIVA MULTIVARIATA Date due variabili X e Y, categoriali, ordinali o cardinali ricondotte in classi, si può essere interessati a conoscere come si distribuiscono i casi della variabile X all’interno ci ciascuna modalità della variabile Y e viceversa. Con le lettere I e J indichiamo il numero delle modalità rispettivamente della variabile X e Y. Possiamo definire la distribuzione doppia di frequenza di X e Y come la distribuzione che affianca una frequenza ad ogni coppia (𝑥𝑖 𝑦𝑖 ). Il numero di modalità della distribuzione doppia è dato dal numero delle combinazioni possibili tra le modalità della prima e della seconda variabile è quindi pari a 𝐼 ∗ 𝐽 Possiamo rappresentarne la distribuzione di frequenza congiunta in una tabella a doppia entrata detta tabella di contingenza x1 xi xI Tot di colonna y1 yj yJ n11 ni1 nI1 n.1 n1j nij nIj n.j n1J niJ nIJ n.J Totale Di riga n1. ni. nI. N Frequenze marginali: l’ultima riga e l’ultima colonna rappresentano rispettivamente la distribuzione di frequenza (univariata) marginale di colonna e di riga (𝑛𝐼. e 𝑛.𝐽 ) Frequenze congiunte: le celle interne della tabella riportano la distribuzione di frequenza (bivariata) congiunta delle 2 variabili (𝑛𝐼𝐽 ). Tra le frequenze marginali valgono le seguenti relazioni: 𝐼 𝑛.𝑗 = ∑ 𝑛𝑖𝑗 𝑖=1 𝐽 𝑛𝑖. = ∑ 𝑛𝑖𝑗 𝑗=1 𝐽 𝐼 𝐽 𝐼 ∑ 𝑛𝑖𝑗 = ∑ 𝑛𝑖𝑗 = ∑ ∑ 𝑛𝑖𝑗 = 𝑁 𝑗=1 𝑖=1 𝑗=1 𝑖=1 Le frequenze marginali di riga e di colonna non sono altro che la distribuzione di frequenze semplici rispettivamente delle variabili X e Y. La somma di tutte le frequenze interne è uguale alla somma delle frequenze marginali di riga e alla somma delle frequenze marginali di colonna. Tutte e tre le somme restituiscono infatti la numerosità totale del collettivo (N). Su una tabella di contingenza possiamo cola colare i percentuali di riga, di colonna e sul totale; dividendo ciascun valore della cella per il suo marginale e moltiplicando per 100. Quando calcoliamo percentuali di riga siamo autorizzati a fare confronti all’interno delle singole colonne, quando calcoliamo i percentuali di colonna siamo autorizzati a confrontare le percentuali all’interno delle singole righe. Rappresentazione grafica di una distribuzione doppia di frequenze o Stereogramma: la rappresentazione avviene in uno spazio a tre dimensioni (x,y,z) nel quale vengono rappresentate sui primi due assi le modalità delle due variabili e sul terzo le frequenze con cui ciascuna coppia di modalità si è presentata nel collettivo. All’incrocio di ogni coppia di modalità viene eretto un parallelepipedo di altezza proporzionale alla frequenza con cui la coppia di modalità si è presentata nel collettivo. Le frequenze possono essere assolute, relative o percentuali. Lo stereogramma è usato per variabili categoriali o ordinali, non è molto informativo per le variabili cardinali, a meno che i loro valori vengano ricondotti a un numero non troppo grande di classi o Diagramma di dispersione: è un diagramma cartesiano nel quale i punti rappresentano i casi e le variabili costituiscono gli assi, in esso è del tutto assente l’informazione sulla distribuzione congiunta. Le coordinate di ogni punto del diagramma non sono altro che i valori che il caso presenta sulle due variabili Dipendenza o indipendenza tra variabili In una tabella di contingenza si ha indipendenza tra variabili se ciascuna distribuzione parziale contenente le frequenze relative o percentuali è uguale alla corrispondente distribuzione marginale. Tra le variabili deve quindi essere mantenuta le seguente relazione: 𝑦|𝑥1 = 𝑦|𝑥2 che a loro volta dovranno coincidere con la distribuzione marginale della variabile y. Conoscendo le distribuzioni marginali possiamo allora calcolare i valori di cella che dovremmo aspettarci nel caso di completa indipendenza tra le due variabili. Per la generica cella 𝑛𝑖𝑗 la formula è la seguente: 𝑛𝑖𝑗 = 𝑛𝑖. ∗ 𝑛.𝑗 𝑁 Se effettuiamo i calcoli per tutte le celle otteniamo la tabella delle frequenze teoriche, ossia quella che si avrebbe nella condizione di totale indipendenza tra le variabili. Se le variabili fossero completamente indipendenti le frequenze assolute osservate dovrebbero coincidere con le frequenze toriche. Uno dei principali compiti della statistica bivariata consiste così nel fornire misure per valutare quanto ci si allontana dalla condizione di totale indipendenza. In termini generali date due variabili possiamo affermare che tra esse esiste una relazione se i valori di una variabile variano in modo sistematico con i valori dell’altra. Parliamo di connessione intendendo con tale termine la misura dell’intensità (forza) della relazione tra due variabili o, specularmente, dell’indipendenza tra due variabili. In altri termini la connessione mira a evidenziare l’interdipendenza tra le variabili. Di una relazione tra variabili possiamo talvolta valutare il grado di concordanza (o discordanza). Concordanza tra variabili categoriali. Date due variabili in cui: vi è lo stesso numero di modalità; ogni modalità X è considerabile a priori, sulla base di un ragionamento logico affine a una e solo una delle modalità di Y, e viceversa, allora parliamo di concordanza quando i casi che appartengono contemporaneamente a una categoria i della variabile X e alla categoria affine j della variabile Y sono superiori alle frequenze teoriche Concordanza tra variabili ordinali e cardinali In questo caso la concordanza, oltre alla sua intensità, ci informa sulla direzione della variazione di una variabile al variare dell’altra. Se al crescere di X cresce anche Y, la misura avrà segno positivo. Viceversa, se al crescere di X, Y decresce, la misura avrà segno negativo. Data una connessione o una concordanza, è possibile calcolare talvolta la determinazione: misura che ci informa, in valori percentuali, su quanta variabilità o mutabilità viene “prevista” da una variabile sull’altra. Per le variabili ordinali o cardinali, infine, oltre all’intensità e la direzione, è possibile valutare la forma della relazione; questa può essere esplorata, in prima battuta da un diagramma di dispersione. Tra le variabili può sussistere una relazione lineare o non lineare. OPERATORI BIVARIATI Un operatore statistico bivariato è un procedimento di calcolo che considera due variabili e sintetizza l’informazione sulla loro distribuzione congiunta in uno scalare. Vengono distinti in tre classi: Operatori che servono a valutare la connessione Producono uno scalare sempre positivo; essi assumono valore zero in assenza di connessione e maggiore a zero in presenza di connessione tra le variabili. Si applicano per variabili categoriali e in misura minore a variabili ordinali Operatori che servono a valutare la concordanza Si caratterizzano per la presenza di un punto neutro, lo zero; e due poli, uno negativo e uno positivo. Lo zero segnala l’assenza di concordanza o discordanza. I poli positivi e negativi indicano rispettivamente una concordanza o una discordanza. Si applicano principalmente alle variabili almeno ordinali in quanto in grado non solo di quantificare la forza della relazione, ma anche la sua direzione Operatori che servono a valutare la determinazione Possono assumere soltanto valori positivi e hanno come valore minimo zero e come valore massimo uno ; essendo quote di variabilità riprodotta, possono essere espressi più opportunamente in termini percentuali. Le dicotomie meritano un discorso a parte; il tipo di operatore applicabile dipende dalla loro natura. Nel caso le modalità delle dicotomie non presentino tra loro un ordine si ricorre principalmente a operatori di connessione; viceversa, può essere più informativo applicare operatori di concordanza così da poter valutare, oltre al’intensità della sue relazione anche la sua direzione. Gli operatori di determinazione vengono applicata dicotomie di entrambe le nature. È possibile infine distinguere tra operatori simmetrici e asimmetrici. Date due variabili X e Y è simmetrico l’operatore (O) per il quale vale l’uguaglianza 𝑂𝑥|𝑦 = 𝑂𝑦|𝑥 . Quando 𝑂𝑥|𝑦 ≠ 𝑂𝑦|𝑥 l’operatore si dice asimmetrico. Le scritture x|y e y|x vengono utilizzate quando le due variabili possono essere distinte in dipendenti e indipendenti. La scrittura x|y rappresenta la situazione in cui X assume il ruolo di variabile dipendente e Y quello di variabile indipendente; mentre la scrittura y|x indica la situazione opposta Operatori di connessione CHI QUADRATO Le tabelle delle frequenze osservate e teoriche hanno in comune i marginali e differiscono per i valori di cella. Più le celle interne della tabella empirica si allontanano dalle rispettive celle interne della tabella di frequenze teoriche, più è elevato il grado di connessione tra le variabili; ed è proprio sulla differenza tra le frequenze empiriche e i valori teorici che si bada l’operatore chi quadrato (χ2): 𝐽 𝐼 2 𝜒 = ∑∑ 𝑗=1 𝑖=1 (𝑛𝑖𝑗 − 𝑛̂𝑖𝑗 )2 𝑛̂𝑖𝑗 Con 𝑛𝑖𝑗 viene indicata la frequenza osservata all’incrocio della generica modalità i della variabile posta sulle righe della generica modalità j della variabile posta sulle colonne, mentre con 𝑛̂𝑖𝑗 viene indicata la corrispondente frequenza teorica. Nel chi quadrato dunque per ogni cella interna si calcola lo scarto tra le frequenze osservate e teoriche, si eleva lo scarto al quadrato, si divide il risultato ottenuto per la frequenza teorica e infine si procede sommando le quantità ottenute. La formula precedente può essere anche scritta come: 𝐽 𝐼 2 𝜒 = 𝑁 ∑∑ 𝑗=1 𝑖=1 (𝑓𝑖𝑗 − 𝑓̂𝑖𝑗 )2 𝑓̂𝑖𝑗 Il chi quadrato assume come valore minimo 0, mentre il valore massimo è rappresentato dal minore dei seguenti valori: 𝑁(𝐼 − 1) e 𝑁(𝐽 − 1). Il valore massimo dipende strettamente dall’ampiezza del collettivo, e dal numero di righe e colonne delle tabella. Questo rende il valore prodotto di difficile interpretazione PHI QUADRATO Questa misura di connessione è basate sul chi quadrato, ma è indipendente dal numero dei casi ed è stata proposta da Pearson. Consiste nel rapporto tra il valore che chi quadrato e la numerosità dei casi: I J i j (𝑓𝑖𝑗 − 𝑓̂𝑖𝑗 )2 χ2 Φ = = ∑∑ N 𝑓̂𝑖𝑗 2 Il phi quadrato è una misura simmetrica e assume come valore minimo 0. Solo nel caso delle tabelle 2xJ o Ix2, ha come limite massimo l’unità, negli altri casi il valore massimo è funzione del numero id modalità delle variabili: (min [𝐼 − 1; 𝐽 − 1]) Spesso al posto del phi quadrato si utilizza la sua radice: J (𝑓𝑖𝑗 − 𝑓̂𝑖𝑗 )2 𝑓̂𝑖𝑗 Φ = √Φ2 = √∑Ii ∑j Il phi è una misura di contingenza quadratica media COEFFICIENTE DI INCERTEZZA Ixy, detto coefficiente di incertezza assume valore 0 nel caso di assenza di relazione, nel caso di perfetta relazione questa misura assume valore 1 se le variabili hanno lo stesso numero di modalità, diversamente il suo valore sarà inferiore a 1 Operatori di connessione o K DI COHEN Si può parlare di concordanza nel caso di variabili categoriali soltanto se tra le categorie delle variabili esiste una specifica affinità dal punto di vista logico. In questi casi possiamo concentrare la nostra attenzione sulle celle della tabella di contingenza che incrociano modalità affini e trascurare le rimanenti. La tabella a doppia entrata su cui si calcola la K di Cohen contiene sia sulle righe sia sulle colonne le medesime categorie. Si considerano unicamente le frequenze poste in diagonale principale, quelle cioè che riguardano l’incrocio tra le categorie affini. Se le frequenze sono maggiori rispetto ai valori teorici, calcolati come nel caso delle contingenze, si ha una concordanza,a l contrario, se le frequenze sono inferiori a quelle teoriche si ha una discordanza. Si utilizzano le frequenze relative (sul totale). Il K di Cohen è dato dalla seguente espressione: 𝐾= 𝜃 − 𝜃̂ 1 − 𝜃̂ Dove 𝜃 è la somma delle frequenze relative poste in diagonale principale e rappresenta l’accordo osservato: 𝜃 = ∑𝐼𝑖=1 𝑓𝑖𝑗 . 𝜃̂ è la somma delle frequenze relative teoriche: 𝜃̂ = ∑𝐼𝑖=1 𝑓𝑖. 𝑓.𝑖 e rappresenta il caso di assenza di concordanza. Come nel caso del chi quadrato le frequenze teoriche si ottengono attraverso il prodotto delle frequenze marginali. La frequenza teorica della cella che incrocia la i-esima modalità della prima variabile con la medesima modalità della seconda variabile 𝑓̂𝑖𝑖 è data dai prodotto dei relativi marginali: 𝑓̂𝑖𝑖 = 𝑓𝑖. 𝑓.𝑖 L’operatore K può variare un minimo di − ̂ 𝜃 ̂ 1−𝜃 che corrisponde a un totale disaccordo, ad un massimo di 1, che indica completo accordo. Inoltre il valore 0 rappresenta la completa indipendenza tra le variabili o Q DI YULE Nel caso di due dicotomie, se esse presentano un’affinità tra coppie di categorie, o se comunque si tratta di dicotomie con modalità ordinate, nella vieta di applicare il K di Cohen. Quando in ciascuna dicotomia i codici numerici indicano differenze di grado si può ricorrere alla Q di Yule. 𝑄= 𝑛11 𝑛22 − 𝑛12 𝑛21 𝑛11 𝑛22 + 𝑛12 𝑛21 La Q di Yule varia tra -1 e +1; i due valori estremi indicano rispettivamente massima discordanza e massima concordanza, mentre il valore 0 indica l’indipendenza assoluta delle due variabili. Il valore Q di Yule, preso in modulo, può essere utilizzato anche con le dicotomie i cui codici numerici rimandano unicamente a differenze qualitative. o COEFFICIENTE DI CORRELAZIONE DI SPEARMAN Tra le misure di concordanza che possono essere calcolate a livello di scala ordinale, consideriamo il coefficiente rs si Spearman detto anche coefficiente di correlazione per ranghi. La sue formula è: ∑𝐼𝑖=1 ∑𝐽𝑗=1(𝑥𝑖 − 𝑥𝑗 )(𝑦𝑖 − 𝑦𝑗 ) 𝑟𝑠 = 2 2 √∑𝐼𝑖=1 ∑𝐽𝑗=1(𝑥𝑖 − 𝑥𝑗 ) ∑𝐼𝑖=1 ∑𝐽𝑗=1(𝑦𝑖 − 𝑦𝑗 ) rs è fuzione della somma delle differenze di tutte le coppie all’interno di ciascuna graduatoria. Attraverso la sviluppo del numeratore e del denominatore è possibile riscrivere la formula dell’ rs in un formato più compatto: 𝐼 𝑟𝑠 = 1 − 6 ∑ 𝑖=1 (𝑥𝑖 − 𝑦𝑖 )2 𝑁 (𝑁 2 − 1) Il coefficiente rs assume valori estremi -1 e +1. In particolare assume valore +1 quando, per ogni soggetto, il rango sulla prima graduatoria e quello della seconda coincidono. Si ottiene una perfetta discordanza quando per ciascun soggetto si hanno posizioni opposte nelle graduatorie delle due variabili. Per poter applicare questo coefficiente di correlazione quando le variabili ordinali non sono in origine delle graduatorie, esse devono essere trasformate in ordinamenti per rango. Questa misura di concordanze è applicabile, a rigore, soltanto nel caso in cui non vi siano pareggi o COVARIANZA Valuta la concordanza tra due variabili cardinali X e Y: 𝑁 𝑠𝑥𝑦 1 = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) 𝑁 𝑖=1 La covarianza non è altro che la media dei prodotti degli scarti della due variabili dalle loro medie. La formula privata del fattore 1⁄𝑁 è detta invece codevianza di X e Y. I valori massimi e minimi che la covarianza può assumere sono rispettivamente −𝑠𝑥 𝑠𝑦 e +𝑠𝑥 𝑠𝑦 ; il valore 0 indica l’assenza di relazione lineare tra le due variabili. Il modulo del valore massimo dipende dall’unità di misura in cui sono espresse le variabili. Quando le variabili sono indipendenti la covarianze assume valore 0. La covarianza può essere definita come una momento misto centrale di secondo ordine o CORRELAZIONE LINEARE La covarianza ha il difetto di essere una misura assoluta, molto più utilizzato è il coefficiente di correlazione r di Bravais e Pearson, detto anche coefficiente di correlazione prodotto-momento, ottenuto dividendo la covarianza per il valore massimo che esso può raggiungere in modulo, |sxsy|: 𝑟𝑥𝑦 𝑠𝑥𝑦 = |𝑠𝑥 𝑠𝑦 | ∑𝑁 ̅) 𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦 → 𝑟𝑥𝑦 = 2 𝑁 √∑𝑁 ̅)2 𝑖=1(𝑥𝑖 − 𝑥̅ ) ∑𝑖=1(𝑦𝑖 − 𝑦 La correlazione tra le variabili X e Y non è altro che la media dei prodotti dei punteggi standardizzati delle variabili, o in altri termini, la covarianza delle due variabili standardizzate: 𝑟𝑥𝑦 = 𝑠𝑥𝑦 L’r ha così la comoda proprietà di assumere come valori massimo e minimo rispettivamente +1 (quando 𝑠𝑥𝑦 è max, cioè pari a +𝑠𝑥 𝑠𝑦 ) e -1 (quando 𝑠𝑥𝑦 è min, cioè pari a −𝑠𝑥 𝑠𝑦 ) indipendentemente dall’unità di misura in cui sono espresse le variabili; r assume valore 0 quando le variabili sono linearmente indipendenti. Quando r assume valore +1 o -1 le due variabili, X e Y sono in perfetta relazione lineare. Se rappresentiamo questa situazione attraverso un diagramma di dispersione i punti non costituiranno più una nuvola più o meno dispersa, ma saranno allineati su una retta INFERENZA SU PIU’ VARIABILI Test del chi quadrato sulle tabelle di contingenza 𝐻0 ∶ 𝑋 𝑒 𝑌 𝑠𝑜𝑛𝑜 𝑖𝑛𝑑𝑖𝑝𝑒𝑛𝑑𝑒𝑛𝑡𝑖 𝐻1 : 𝑋 𝑒 𝑌 𝑛𝑜𝑛 𝑠𝑜𝑛𝑜 𝑖𝑛𝑑𝑖𝑝𝑒𝑛𝑑𝑒𝑛𝑡𝑖 La statistica test del chi quadrato di basa sul confronto tra frequenze osservate e teoriche: 𝐼 𝐽 2 𝜒 = ∑∑ 𝑖=1 𝑗=1 (𝑛𝑖𝑗 − 𝑛̂𝑖𝑗 )2 𝑛𝑖𝑗 Le frequenze osservate (𝑛𝑖𝑗 ) non sono altro che i valori osservati, e registrati nelle celle interne della tabella di contingenza IxJ valori, dove I e J sono il numero di modalità rispettivamente della prima e della seconda variabile; quelle teoriche (𝑛̂𝑖𝑗 ), ancora in numero IxJ, corrispondono a quei valori che dovremmo ottenere, data quella particolare struttura dei marginali, nel caso le variabili fossero tra di loro indipendenti. Calcoliamo dunque le frequenza assolute teoriche [ 𝑛𝑖𝑗 = 𝑛𝑖. ∗𝑛.𝑗 𝑛 ]. Se l’ipotesi nulla è vera la statistica test si distribuisce asintoticamente come la v.a. 𝜒 2 . Poiché la distribuzione di 𝜒 2 dipende dai gradi di libertà, 𝜈, è necessario calcolare quanti sono i gradi di libertà in una tabella di contingenza semplice: i gradi di libertà sono rappresentati dal numero di celle indipendenti, una volta fissati i marginali. In una tabella di contingenza IxJ, per le prime (I-1) colonne è possibile scegliere il valore di tutte le celle meno una, cioè (J-1), il numero dei gradi di libertà è dunque : 𝑔𝑑𝑙 = 𝜈 = (𝐼 − 1)(𝐽 − 1) Nel caso in cui l’ipotesi nulla fosse vera e le variabili fossero quindi indipendenti , estraendo un numero molto ampio di campioni, otterremo una distribuzione simile a quella della v.a. 𝜒 2 con 𝜈 gradi di libertà. In caso di indipendenza tra le variabili non dobbiamo aspettarci un valore si 𝜒 2 nullo, essendo il valore 0 il limite sinistro della funzione, ma un valore non troppo distante dal valore attero, ossia dal numero di gradi di libertà della tabella analizzata. La regione di rifiuto è unidirezionale; rifiuteremo l’ipotesi nulla soltanto se il valore osservato della statistica è significativamente maggiore del valore critico. La statistica chi2 si distribuisce come la variabile aleatoria chi quadrato in modo approssimativo (tanto migliore tanto più il campione è ampio). Non è però possibile definire una numerosità del campione precisa, dal momento che vi sono diversi totali da prendere in considerazione. Come regola generale possiamo dire che più IxJ è grande più il campione deve essere numeroso. Se nella tabella di contingenza vi sono delle celle vuote la statistica non si distribuisce come una chi quadrato; dipende anche da come si distribuiscono le singole variabili. Empiricamente vanno guardate le frequenze teoriche (𝑛̂𝑖𝑗 ) minori di 5, se sono più del 20% non è possibile calcolare il chi quadrato. Test del coefficiente di correlazione Anche per le misure di connessione, concordanza e determinazione possiamo applicare i test di ipotesi statistica. È un test parametrico quindi sono necessari degli assunti sulla popolazione : distribuzione delle proprietà nella popolazione = normale bivariata (utilizzo variabili aleatorie multidimensionali). La distribuzione si comporta come una normale bivariata (distribuzione di densità di probabilità congiunta) Funzione di densità di probabilità congiunta: 𝑓(𝑥, 𝑦, 𝜇𝑥 , 𝜇𝑦 , 𝜎𝑥2 , 𝜎𝑦2 , 𝜌𝑥𝑦 ) = 1 2𝜋𝜎𝑥 𝜎𝑦 √1 − 𝜌2 ∗𝑒 − [( 2 𝑋−𝜇𝑥 2 𝑌−𝜇𝑦 𝑋−𝜇𝑥 𝑌−𝜇𝑦 ) +( ) −2𝜌( )( )]⁄2(1−𝜌2 ) 𝜎𝑥 𝜎𝑦 𝜎𝑥 𝜎𝑦 𝜌̂𝑥𝑦 = 𝑟𝑥𝑦 𝜇𝑥 , 𝜇𝑦 , 𝜎𝑥2 , 𝜎𝑦2 sono i parametri che governano le due distribuzioni (media e varianza di X e Y) 𝜌𝑥𝑦 (“rho”) è la controparte a livello della popolazione del coefficiente di correlazione 𝑟𝑥𝑦 se 𝜌𝑥𝑦 è uguale a 0 allora la funzione dipende solo da μ e σ delle due variabili 𝑋−𝜇𝑥 − [( ) 1 𝜎𝑥 2 2 𝑓(𝑥, 𝑦, 𝜇𝑥 , 𝜇𝑦 , 𝜎𝑥 , 𝜎𝑦 , ) = ∗𝑒 2𝜋𝜎𝑥 𝜎𝑦 2 𝑌−𝜇𝑦 2 +( ) ]⁄2 𝜎𝑦 𝐻0 ∶ 𝜌 = 0 𝐻1 : 𝜌 ≠ 0 La statistica test usata è f, ottenuta come rapporto tra le stime della varianza spiegata e la varianza non spiegata dalla relazione, confrontata con la distribuzione F di Fischer-Snedecor con 1 e n-2 gradi di libertà: 𝑓= 𝑟2 (𝑛 − 2) 1 − 𝑟2 Si può utilizzare anche una statistica test alternativa: 𝑡= 𝑟 √1 − 𝑟 2 √(𝑛 − 2) Se l’ipotesi nulla è vera la statistica test ha una distribuzione t di Student con n-2 gradi di libertà