STATISTICA La statistica è la disciplina che permette di elaborare i dati con l’obiettivo di estrarre informazione utile per prendere decisioni in condizioni di incertezza. Una popolazione è l’insieme di tutte le unità statistiche che fanno parte del fenomeno che si vuole studiare, denotiamo con N la numerosità totale delle osservazioni. Un campione è un sotto-insieme delle unità statistiche di una popolazione, denotiamo con n la numerosità campionaria. Una variabile è una caratteristica dell’unità statistica che viene rilevata, mentre i valori distinti assunti da una variabile viene detta modalità. Le tipologie delle variabili sono: ➢ Quantitative, se le modalità sono numeri reali. Una variabile quantitativa può essere: ▪ Discreta → se le modalità sono poste in corrispondenza con l’insieme dei numeri naturali (anni di età). ▪ Continua → se le modalità appartengono ad un intervallo reale (profitto di una azienda, temperatura). ➢ Qualitative, se la variabile assume attributi non numerici. Una variabile qualitativa può essere: ▪ Nominale → se le modalità non seguono alcun ordine (religione, professione). ▪ Ordinale → se le modalità che assume seguono un ordine pre-costituito (valutazioni scolastiche, gradi militari) Nell’analizzare dei dati è bene tenere presente il tipo di studio, la distinzione tra: - Studi sperimentali → dati sono stati raccolti in situazioni replicabili e controllate. - Studi osservazionali → lo studioso semplicemente rileva dei dati già esistenti. Olist è una startup brasiliana che opera nel campo dell’e-commerce, cioè concentra i prodotti di diversi venditori in un unico punto vendita visibile al consumatore finale. La Distribuzione di frequenza è una tabella che è costruita per organizzare dati, in cui nella prima colonna troviamo le modalità delle variabili osservate, mentre nella seconda troviamo le frequenze assolute o relative corrispondenti. Le frequenze assolute (𝑛𝑖 ) sono numeri interi non-negativi caratterizzati dalla proprietà: 𝑘 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘 = ∑ 𝑛𝑖 = 𝑛 0 ≤ 𝑛𝑖 ≤ 𝑛 ; 𝑖 = 1,2, … , 𝑘 𝑖=1 La somma delle frequenze assolute è uguale alla numerosità campionaria. Le frequenze assolute non chiariscono se l’importo totale sia effettivamente diverso tra le due categorie di prodotto. Le frequenze relative (𝑓𝑖 ) è il rapporto tra la frequenze assolute e le numerosità totali: 𝑛𝑖 𝑓𝑖 = 𝑖 = 1, … , 𝑘 𝑁 Sono numeri reali non-negativi caratterizzati dalle proprietà: 𝑘 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑘 = ∑ 𝑓𝑖 = 1 0 ≤ 𝑓𝑖 ≤ 1 ; 𝑖 = 1,2, … , 𝑘 𝑖=1 A volte le frequenze relative vengono moltiplicate per 100, in tal caso parleremo di frequenze percentuali ( 𝑝𝑖 ). Formula: 𝑝𝑖 = 𝑓𝑛 ∙ 100 Le differenze tra le distribuzioni di frequenza sono ancora più evidenti se rappresentate graficamente. Una possibilità è utilizzare un istogramma, utilizzato solo per le variabili quantitative. Una seconda rappresentazione grafica di uso frequente è la cosiddetta funzione di ripartizione empirica F(x), ovvero il rapporto tra il numero di osservazioni minori o uguali di x e la numerosità campionaria. 𝑛 1 𝐹(𝑥) = ∑ 1 (𝑥𝑖 ≤ 𝑥) 𝑛 𝑖=1 Dove 1 si chiama funzione indicatrice e vale 1 se 𝑥𝑖 ≤ 𝑥 e 0 se 𝑥𝑖 > 𝑥 La funzione di ripartizione è caratterizzata dalle seguenti proprietà: 0 ≤ 𝐹(𝑥) ≤ 1 lim 𝐹(𝑥) = 0 lim 𝐹(𝑥) = 1 𝑥→−∞ F(x) è non decrescente destra 𝑥→∞ F (x) è continua a Le frequenze cumulative (𝐹𝑖 ), si ottengono sommando progressivamente le frequenze e quindi conteggiano il numero (o la frazione) di dati minori di una certa soglia. Forniscono la proporzione di osservazioni minori o uguali di x. Il campione casuale è composto da n unità estratte dalla popolazione in maniera casuale. Dunque, ogni unità, all’interno del campione, ha la stessa probabilità di essere estratta. É necessario utilizzare dei metodi che permettano di sintetizzare tali dati ed estrapolare informazione. I due metodi sono: tabelle e grafici. I dati qualitativi raccolti nella tabella di frequenza possono essere rappresentati tramite: ❖ Grafico a torta → serve ad evidenziare le differenze in termini di proporzione rispetto al totale ❖ Diagramma a barre → è da preferirsi in presenza di variabili ordinali perché le modalità vengono riportate nell’asse delle ascisse secondo l’ordinamento previsto. L’ampiezza della fetta è proporzionale alla frequenza: ampiezza fetta = 360 · 𝑓𝑖 L’ampiezza delle classi (𝑎𝑖 ) è uguale a: 𝑎= Le ampiezze degli intervalli sono: max{𝑋} − min {𝑋} 𝑘 𝑎𝑖 = 𝑐𝑖 − 𝑐𝑖−1 Calcoliamo le densità di frequenza (ℎ𝑖 ), ovvero quante sono in media, le unità per ogni unità del carattere. ℎ𝑖 = 𝑓𝑖 𝑎𝑖 𝑖 = 1, … , 𝑘 N.B → 𝑓𝑖 non deve essere approssimato. Le classi con maggiore densità sono le classi dove le unità statistiche sono più concentrate. Indici di posizione ▪ ▪ ▪ ▪ Media aritmetica Mediana Quantili Moda o La media aritmetica dei dati è: 𝑁 1 𝜇 = 𝑋̅ = ∑ 𝑥𝑖 𝑁 𝑖=1 ➢ Proprietà della media: 1) Rappresentatività Se i dati sono tutti uguali ad un valore a 𝑥1 = 𝑥2 = ⋯ = 𝑥𝑛 = 𝑎 Allora, la media è uguale all’osservazione 𝑁 1 1 𝑛𝑎 𝜇 = 𝑋̅ = ∑ 𝑥𝑖 = (𝑎 + ⋯ + 𝑎) = =𝑎 𝑁 𝑛 𝑛 𝑖=1 2) Internalità La media è sempre compresa tra il più piccolo e il più grande dei valori osservati: 𝑥(1) ≤ 𝑋̅ ≤ 𝑥(𝑛) 3) Associatività La media rimane invariata se un sotto-insieme di dati 4) Trasformazione lineare La media di una trasformazione lineare dei dati coincide con la trasformazione lineare della media, dove: 𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖 𝑖 = 1, … , 𝑛 5) Baricentro La somma, e dunque la media, delle differenze dei dati dalla loro media, detti scarti, è sempre pari a 0: 𝑛 ∑(𝑥𝑖 − 𝜇) = (𝑥1 − 𝜇) + ⋯ (𝑥𝑛 − 𝜇) = 0 𝑖=1 La Media aritmetica ponderata è: 𝑘 ∑𝑘𝑖=1 𝑥𝑖 𝑤𝑖 ∑𝑘𝑖=1 𝑥𝑖 𝑛𝑖 𝑛𝑖 𝑋̅ = = = ∑ 𝑥𝑖 ∙ 𝑓𝑖 = 𝑘 𝑘 𝑘 ∑𝑖=1 𝑤𝑖 ∑𝑖=1 𝑛𝑖 ∑𝑖=1 𝑛𝑖 𝑖=1 ↑ =N 𝑤𝑖 = 𝑛𝑖 o La Mediana É il valore centrale dei dati ordinati se questi sono in numero dispari, mentre è la media dei due valori centrali quando i dati sono in numero pari. 𝑀𝑒 = {(𝑥 𝑛 ( ) 2 𝑥(𝑛+1) Se n è dispari + 𝑥(𝑛+1) )/2 Se n è pari 2 2 Ricordando la definizione della funzione di ripartizione empirica F(x), si nota che la mediana è un valore tale per cui: 1 𝐹(𝑀𝑒) ≈ 2 o I Quantili: L’idea alla base di un quantile-p, dove p ∈ (0, 1), è trovare quel numero che sia grande di circa il 100 x p% delle osservazioni e più piccolo della restante parte 𝑃𝑜𝑠𝑖𝑧𝑖𝑜𝑛𝑒 = 𝑝 ∙ (𝑁 + 1) 𝑝𝑜𝑠 = ⌊𝑃𝑜𝑠𝑖𝑧𝑖𝑜𝑛𝑒⌋ ES: N=9 Posizione = 0.25(9+1)=2.5 o La Moda La moda di una distribuzione di frequenza è la modalità cui corrisponde la massima frequenza (assoluta o relativa). La moda è sicuramente un valore osservato. Per variabili continue raggruppate in classi, si parla di classe modale. Indici di variabilità o Varianza La varianza ( 𝜎 2 o 𝑠 2 ) è quindi una misura di quanto i dati siano distanti dalla media aritmetica, tale distanza è valutata usando i quadrati delle differenze. La varianza dei dati è: 𝑛 1 2 𝜎 = ∑(𝑥𝑖 − 𝜇)2 𝑁 𝑖=1 Ulteriore definizione 𝑛 1 𝜎2 = ( ∑ 𝑥𝑖2 ) − 𝜇 2 𝑁 È la media del valore al quadrato meno la media al quadrato 𝑖=1 𝜇 = 𝑝𝑜𝑝𝑜𝑙𝑎𝑧𝑖𝑜𝑛𝑒 N.B → Prima di calcolare la varianza deve essere calcolata la media. { 𝑥̅ = 𝑐𝑎𝑚𝑝𝑖𝑜𝑛𝑒 - Varianza campionaria 𝑛 (𝑥𝑖 − 𝑥̅ )2 𝑆 =∑ 𝑛−1 2 𝑖=1 - Varianza popolazione 𝑛 (𝑥𝑖 − 𝑥̅ )2 𝜎 =∑ 𝑛 2 𝑖=1 ➢ Proprietà della varianza: 1. Positività La varianza è per costruzione sempre maggiore o uguale a zero, ovvero 𝜎2 ≥ 0 Inoltre, la varianza è esattamente pari a zero solo se i dati sono uguali tra loro 2. Trasformazione lineare 𝜎𝑦2 = 𝑏 2 𝜎𝑥2 𝑆2 ∙ (𝑛 − 1) = 𝜎2 𝑛 3. Scarto quadratico medio (DEVIAZIONE STANDARD) La radice quadrata della varianza è tipicamente chiamata scarto quadratico medio: 𝜎 = √𝜎 2 ➢ Misure di variabilità: ▪ Range È la differenza tra il massimo ed il minimo, ovvero: 𝑅𝑎𝑛𝑔𝑒(𝑥) = 𝑥(𝑛) − 𝑥(1) ▪ Differenza interquartile È la differenza tra il terzo ed il primo quartile, ovvero: 𝐼𝑄𝑅 = 𝑞0.75 − 𝑞0.25 ▪ Coefficiente di varianza 𝐶𝑉 = 𝜎 𝜇 Il CV è indipendente dall’unità di misura e aggiusta la variabilità tenendo conto anche del livello del fenomeno. o BOXPLOT ES: (si collega con quello del calcolo dei quantili) Indici di forma o Dati standardizzati I dati trasformati hanno media nulla e varianza unitaria 𝑧𝑖 = 𝜇𝑧 = 0 𝜎𝑧 = 1 𝑥𝑖 − 𝜇𝑥 𝜎𝑥 𝑖 = 1, … , 𝑛 Indici di asimmetria o Simmetria La simmetria è definita qualitativamente come la specularità della distribuzione rispetto ad un asse o Indice di asimmetria di Pearson É una misura di asimmetria l’indice: 𝜇 − 𝑀𝑒 𝛼1 = 𝜎 𝑛 𝑜 1 𝑥𝑖 − 𝜇 3 𝛼2 = ∑ ( ) 𝑛 𝜎 𝑖=1 Esso è nullo nel caso di simmetria; Tende ad assumere valori positivi se la distribuzione presenta asimmetria positiva e valori negativi nel caso di asimmetria negativa. o Indice di Curtosi di Pearson L’indice di curtosi è: 𝑛 1 𝑥𝑖 − 𝜇 4 𝑘 = ∑( ) −3 𝑛 𝜎 𝑖=1 Esso è nullo nel caso di normalità; tende ad assumere valori positivi se la distribuzione presenta code pesanti e valori negativi nel caso di code leggere Teoria della probabilità Con il termine probabilità solitamente si indicano due argomenti: ▪ il calcolo delle probabilità ▪ i modelli di variabili aleatorie o Spazio Campionario ed Eventi Il singolo risultato dell’esperimento casuale si chiama evento elementare. L’insieme degli eventi elementari viene comunemente chiamato spazio dei risultati o spazio campionario. Si chiama evento un qualsiasi insieme di eventi elementari, ossia un qualsiasi sottoinsieme dello spazio campionario Ω . ➢ Operazione sugli insiemi Si definisce P(·) funzione d’insieme in quanto il suo dominio non è costituito dai punti dell’asse reale bensì da una collezione di insiemi. ▪ Definizione classica: La probabilità del verificarsi di un evento è il rapporto tra i casi favorevoli al verificarsi dell’evento e tutti i casi egualmente possibili. 𝑃(𝐸) = ▪ 𝑁𝑐𝑎𝑠𝑖 𝑓𝑎𝑣𝑜𝑟𝑒𝑣𝑜𝑙𝑖 𝑁𝑐𝑎𝑠𝑖 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖 Definizione frequentista: Questa definizione si basa sulla legge empirica del caso. 𝑃(𝐸) = 𝑛𝑐𝑎𝑠𝑖 𝑣𝑒𝑟𝑖𝑓𝑖𝑐𝑎𝑡𝑖 = 𝑓(𝐸) 𝑛𝑐𝑎𝑠𝑖 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖 In una serie di prove di un dato esperimento, ripetuto un gran numero di volte in circostanze il più possibile simili, ciascuno degli eventi possibili si manifesta con una frequenza relativa che è pressappoco uguale alla sua probabilità. 𝑃(𝐸) = lim 𝑓(𝐸) ▪ 𝑛→∞ Definizione soggettivista: La probabilità del verificarsi di un evento è il grado di fiducia che un individuo coerente ripone nel verificarsi dell’evento. ➢ Calcolo combinatorio 1) Disposizioni Sono i raggruppamenti realizzati quando n > k e conta l’ordine con cui si dispongono 𝐷𝑛,𝑘 = 𝑛! (𝑛 − 𝑘)! 2) Permutazioni Sono i raggruppamenti realizzati quando n = k e conta l’ordine con cui si dispongono 𝑃𝑛 = 𝑛! 3) Combinazioni Sono i raggruppamenti realizzati quando n > k e non conta l’ordine con cui si dispongono 𝐶𝑛,𝑘 = 𝑛! 𝑛 =( ) 𝑘! (𝑛 − 𝑘)! 𝑘 𝐜𝐨𝐞𝐟𝐟𝐢𝐜𝐢𝐞𝐧𝐭𝐞 𝐛𝐢𝐧𝐨𝐦𝐢𝐚𝐥𝐞 ➢ Probabilità condizionata Se A e B sono due eventi dello spazio campionario Ω e P(A) > 0, allora il verificarsi di B, una volta che si è verificato A, comporta il verificarsi di entrambi, pertanto la probabilità di (B|A) è legata a quella di A ∩ B nel seguente modo: 𝑃(𝐵|𝐴) = 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐴) ➢ Indipendenza stocastica Gli eventi A e B si dicono stocasticamente indipendenti se la probabilità dell’evento intersezione può essere scritta come prodotto tra la probabilità di A e la probabilità di B: 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) 𝑃(𝐵) ➢ Regola di Bayes 𝑃(𝐶𝑖 |𝐴) = 𝑃(𝐶𝑖 ∩ 𝐴) 𝑃(𝐴|𝐶𝑖 ) ∙ 𝑃(𝐶𝑖 ) = 𝑘 𝑃(𝐴) ∑𝑖=1 𝑃(𝐴|𝐶𝑖 ) ∙ 𝑃(𝐶𝑖 ) Variabili Aleatorie L’espressione variabile aleatoria indica una quantità il cui valore dipende dall’esito di un esperimento casuale. Dizioni equivalenti a variabile aleatoria sono ▪ variabile casuale ▪ variabile stocastica. Definire una variabile aleatoria (v.a.) significa formulare una regola che fa corrispondere un numero reale ad ogni evento elementare di uno spazio campione. ➢ Variabile Aleatoria discreta → può assumere un insieme numerabile (non necessariamente finito) di valori. Per poter operare con una variabile casuale X discreta, è opportuno ordinare in senso crescente i suoi valori ed assegnare a ciascuno di essi la probabilità che gli compete. (ES: pag8) ➢ Variabile Aleatoria continua → può assumere qualsiasi valore in un intervallo di numeri reali. Per ogni valore x assegniamo la probabilità che la variabile casuale X assuma un valore minore o uguale ad x. Una variabile casuale X è detta continua se esiste una funzione f(x) tale che la funzione di ripartizione F(x) = P(X ≤ x) è data dall’area sottesa a f (x) a sinistra di x La probabilità che X assuma valori all’interno di un qualsiasi intervallo (a, b) è: 𝑏 𝑃(𝑎 < 𝑋 < 𝑏) = ∫ 𝑓(𝑥)𝑑𝑥 𝑎 La probabilità in questione come la differenza tra i valori assunti dalla funzione di ripartizione in b e in a: 𝑃(𝑎 < 𝑋 < 𝑏) = 𝑃(𝑋 < 𝑏) − 𝑃(𝑋 ≤ 𝑎) = 𝑃(𝑋 ≤ 𝑏) − 𝑃(𝑋 ≤ 𝑎) = 𝐹(𝑏) − 𝐹(𝑎) La funzione di densità rettangolare o uniforme è costante nell’intervallo di definizione della variabile casuale. (ES: pag14) La distribuzione di probabilità di una v.a. può essere descritta sinteticamente mediante: ➢ Media di una Variabile Aleatoria → ➢ Varianza di una Variabile Aleatoria → ➢ Media e Varianza di una combinazione lineare → Sia Y una combinazione lineare di una v.a. X: 𝑌 =𝑎+𝑏𝑋 dove a e b sono delle costanti. Siano 𝔼[𝑋] = 𝜇 e 𝕍[𝑋] = 𝜎 2 . Si possono allora dimostrare le seguenti proprietà: Ponendo 𝑎 = −𝜇 𝑒 𝑏 = 1 𝜎 otteniamo una variabile aleatoria standardizzata 𝑋−𝜇 Con valore atteso 𝔼[Y] = 0 𝑌= 𝜎 e varianza 𝕍[Y] = 1 ➢ Quantili di una Variabile Aleatorie → Consideriamo una variabile casuale continua X. Fissato un livello di probabilità p, si chiama quantile di livello p la quantità 𝑥𝑝 in corrispondenza della quale la funzione di ripartizione assume il valore p. In termini grafici, il quantile di livello p è il punto dell’asse delle ascisse alla cui sinistra l’area sottesa alla funzione di densità è uguale a p. (ES: pag19) ➢ Funzione Generatrice dei Momenti Sia X una variabile aleatoria e t una variabile reale ausiliaria. E’ detta funzione generatrice dei momenti di X la speranza matematica della funzione 𝑒 𝑡𝑋 : 𝑒 𝑡𝑥 𝑓(𝑥) 𝑠𝑒 𝑋 è 𝑢𝑛𝑎 𝑣. 𝑎. 𝑑𝑖𝑠𝑐𝑟𝑒𝑡𝑎 ∫ 𝑒 𝑡𝑥 𝑓(𝑥)𝑑𝑥 { −∞ 𝑠𝑒 𝑋 è 𝑢𝑛𝑎 𝑣. 𝑎. 𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑎 ∑ ΦX (𝑡) = 𝔼[𝑒 𝑡𝑋 ] = ∞ 𝑥∈𝑆 ➢ Funzione Caratteristica Sia X una variabile aleatoria e t una variabile reale ausiliaria, ed 𝑖 = √−1 l’unità immaginaria. È detta funzione caratteristica di X la speranza matematica della funzione 𝑒 𝑖𝑡𝑋 : 𝑒 𝑖𝑡𝑥 𝑓(𝑥) 𝑠𝑒 𝑋 è 𝑢𝑛𝑎 𝑣. 𝑎. 𝑑𝑖𝑠𝑐𝑟𝑒𝑡𝑎 ∫ 𝑒 𝑖𝑡𝑥 𝑓(𝑥)𝑑𝑥 { −∞ 𝑠𝑒 𝑋 è 𝑢𝑛𝑎 𝑣. 𝑎. 𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑎 ∑ 𝛹𝑋 (𝑡) = 𝔼[𝑒 𝑖𝑡𝑋 ]= Questa funzione esiste sempre. ∞ 𝑥∈𝑆 ➢ Variabile Aleatoria Bernoulli Tutte le prove che producono solo due possibili risultati generano v.c. di Bernoulli. (Controllare lab4 su R) ➢ Variabile Aleatoria Binomiale La v.a. Binomiale è una distribuzione che si utilizza quando si è in presenza di n prove indipendenti (es. n estrazioni con ripetizione o n estrazioni da una popolazione infinita), ciascuna prova ha solo due esiti possibili, indicati come successo e insuccesso (es. difettoso/non difettoso, aumento/decremento, acquisto/mancato acquisto), e la probabilità π (es. tasso di difettosità) di osservare un successo in una singola prova rimane costante per tutte le prove. (Controllare lab5 su R) Una v.a. Binomiale può essere ottenuta considerando la somma di v.c. di Bernoulli i.i.d. (indipendenti e identicamente distribuite): 𝑛 𝑋 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 = ∑ 𝑋𝑖 𝑖=1 dove 𝑋𝑖 ∼ Bernoulli(π), indipendentemente per ogni i ▪ Il valore atteso e la varianza crescono al crescere di n ▪ Per π = 0.5 la distribuzione è simmetrica rispetto al valor medio ▪ Per 𝑛 → ∞ la distribuzione tende ad essere simmetrica rispetto al valor medio ➢ Variabile Aleatoria Poisson La distribuzione di Poisson è adeguata per approssimare v.a. che rappresentano conteggi o il numero di volte che un certo evento aleatorio si realizzi in un dato intervallo (di tempo o di spazio). Se 𝑋𝑖 ∼ Poisson( 𝜆𝑖 ) indipendentemente per ogni i = 1, . . ., k, allora 𝑋 = 𝑋1 + ⋯ + 𝑋𝑘 ~ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆) 𝑐𝑜𝑛 𝜆 = 𝜆1 + ⋯ + 𝜆𝑘 Posto λ = n π, per 𝑛 → ∞ e per π piccolo, la distribuzione di Poisson può essere utilizzata per approssimare la distribuzione Binomiale di parametro π. La costante λ è proporzionale alla lunghezza dell’intervallo di tempo o della dimensione dello spazio considerato. ➢ Variabile Aleatoria Uniforme Continua La distribuzione continua uniforme è una distribuzione di probabilità continua che è uniforme su un insieme, ovvero che attribuisce la stessa probabilità a tutti i punti appartenenti ad un dato intervallo [a, b] contenuto nell’insieme. ➢ Variabile Aleatoria Esponenziale Consideriamo la probabilità di non osservare un guasto nel sistema, nell’intervallo [0, x] di ampiezza x. La probabilità 𝑃(𝑋 > 𝑥) = 1 − 𝐹(𝑥) = 𝑒 −𝜆𝑥 implica l’assenza di memoria: 𝑃(𝑋 > 𝑎 + 𝑏) = 𝑃(𝑋 > 𝑏) 𝑃(𝑋 > 𝑎) La mancanza di memoria esprime il fatto che la variabile non “ricorda il passato” ma si comporta come se fosse “nuova”. 𝑃(𝑋 > 𝑎 + 𝑏|𝑋 > 𝑎) = ➢ Variabile Aleatoria Gamma La distribuzione Gamma è la distribuzione di probabilità della variabile aleatoria definita come la somma di variabili aleatorie indipendenti e con distribuzione esponenziale. Viene scelta una parametrizzazione diversa tramite i parametri α e β. Le due parametrizzazioni sono legate dalle relazioni: 𝛼=𝛼 𝛽= 1 𝜃 ➢ Variabile Aleatoria Normale o Proprietà: ▪ È simmetrica, avendo come asse di simmetria la retta x = µ; ▪ È crescente nell’intervallo (-∞, µ) e decrescente nell’intervallo (µ, ∞) ; ▪ Ha due punti di flesso in x = µ − σ e x = µ + σ; ▪ La media individua la posizione della curva lungo l’asse delle ascisse. La varianza determina la concentrazione della curva attorno alla retta x = µ ➢ Variabile Aleatoria Normale Standardizzata Se X è una v.a. avente distribuzione 𝑁(𝜇, 𝜎 2 ), la variabile casuale standardizzata corrispondente, data da: 𝑋−𝜇 𝑍= ~ 𝑁(0,1) 𝜎 Ha distribuzione Normale con media 0 e varianza 1. Inoltre, vale l’identità: 𝑥−𝜇 𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = 𝑃 (𝑍 ≤ ) = 𝑃(𝑍 ≤ 𝑧) = Φ(z) 𝜎 Dove Φ(z) è la funzione di ripartizione della distribuzione Normale standard. o Proprietà: ▪ Dato un valore di Z positivo, vale la seguente relazione: Φ(z) = 1 − Φ(z) ▪ Ciò significa che, nella distribuzione normale standard, l’area sottesa alla curva a sinistra di -z è uguale all’area sottesa alla stessa curva a destra di z. ➢ Quantili della distribuzione Normale Standardizzata Il problema inverso consiste nella determinazione del valore z a cui corrisponde un livello di probabilità assegnato p della funzione di ripartizione (cioè dell’area sottesa alla curva a sinistra di z). (ES: pag19) 𝑃(𝑍 ≤ 𝑧) = Φ(z) = 𝑝 ➢ Dai quantili della N(0, 1) ai quantili della 𝑵(𝝁, 𝝈𝟐 ) 𝑥−𝜇 ⇒ 𝑥 =𝜇+𝜎∙𝑧 𝜎 La determinazione dei quantili di una distribuzione normale 𝑁(𝜇, 𝜎 2 ) si effettua in due fasi: ▪ Si determina, prima, il quantile 𝑧𝑝 per la distribuzione N(0, 1); ▪ Poi, il quantile voluto 𝑥𝑝 , riferito cioè alla distribuzione 𝑁(𝜇, 𝜎 2 ), utilizzando la seconda delle due equazioni precedenti. 𝑧= ➢ Distribuzione Chi quadro o Proprietà: ▪ La distribuzione 𝑥𝑣2 , viene definita come: 𝑥𝑣2 = ∑𝑣𝑖=1 𝑋𝑖2 = 𝑋21 + 𝑋22 + ⋯ + 𝑋2𝑣 Dove 𝑋𝑖2 sono variabili i sono variabili aleatorie indipendenti con distribuzione normale standard, N(0, 1). ▪ Il parametro ν è detto numero di gradi di libertà. ➢ Distribuzione T-student ➢ Proprietà: ▪ Data la v.a. T con distribuzione 𝑇𝑛−1 , essa viene definita come il rapporto tra due v.a. indipendenti. 𝑍 𝑇= 𝑉 (𝑛 − 1) √ 2 Dove Z~𝑁(0,1) e 𝑉~𝑥𝑛−1 ▪ La distribuzione T-student ha media uguale a 0 ed è simmetrica. Controllare la parte di RStudio da pag29 a pag33. Distribuzione Campionaria Per modello descrittivo della popolazione intendiamo la distribuzione di frequenze relative di un carattere all’interno di una popolazione finita, oppure un vero e proprio modello matematico che esprime la probabilità o la densità della variabile casuale che descrive l’esito della singola prova di un esperimento. In entrambi i casi, useremo il simbolo 𝑓𝑋 (𝑥). ➢ Campione Casuale → Per campione casuale di ampiezza n intendiamo la n-upla di variabili casuali. (𝑋1, 𝑋2 , … , 𝑋𝑛 ) indipendenti e identicamente distribuite come la variabile casuale X oggetto di studio. ➢ Spazio Campionario → Consideriamo: ▪ Il campione casuale (𝑋1, 𝑋2 , … , 𝑋𝑛 ) composto da n variabili casuali indipendenti e identicamente distribuite. ▪ Denominiamo campione osservabile una specifica realizzazione del campione casuale, ossia una n-upla di numeri che indichiamo con (𝑥1, 𝑥2 , … , 𝑥𝑛 ). ▪ Tutti i possibili campioni osservabili costituiscono lo spazio campionario. ➢ Distribuzione di probabilità del campione casuale ▪ Se la popolazione di riferimento è finita, l’insieme dei possibili campioni osservabili (spazio campionario) è costituito da un numero finito di campioni. ▪ A ciascuno di questi è possibile associare un livello di probabilità, 𝑓(𝑥1, 𝑥2 , … , 𝑥𝑛 ), dato da: 𝑓(𝑥1, 𝑥2 , … , 𝑥𝑛 ) = 𝑓𝑋 (𝑥1 ) ∙ 𝑓𝑋 (𝑥2 ) … 𝑓𝑋 (𝑥𝑛 ) dove 𝑓𝑋 (𝑥𝑖 ) = 𝑃(𝑋 = 𝑥𝑖 ) è la probabilità che, nell’estrazione i-esima, la variabile di interesse assuma il valore 𝑥𝑖 . ▪ L’espressione di 𝑓(𝑥1, 𝑥2 , … , 𝑥𝑛 ), si deduce dal fatto che le variabili casuali componenti il campione sono indipendenti e hanno tutte la stessa distribuzione di probabilità 𝑓𝑋 ( ∙ ). Statistiche Campionarie ↓ Si chiama statistica campionaria o variabile casuale campionaria una qualsiasi funzione delle variabili casuali 𝑋1, 𝑋2 , … , 𝑋𝑛 che compongono il campione casuale. Ogni statistica campionaria, quale funzione di variabili casuali, è una variabile casuale. Si chiama distribuzione campionaria di una statistica la distribuzione di probabilità della statistica. ➢ Media campionaria 𝑋1, + 𝑋2 + ⋯ + 𝑋𝑛 ∑𝑛𝑖=1 𝑋𝑖 ̅ 𝑋= = 𝑛 𝑛 ➢ Varianza campionaria 𝑆2 = (𝑋1 − 𝑋̅)2 + (𝑋2 − 𝑋̅)2 + ⋯ + (𝑋𝑛 − 𝑋̅)2 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 = 𝑛−1 𝑛−1 ➢ Distribuzione di probabilità delle statistiche campionarie Indicata con: 𝑇 = 𝑡(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) una generica statistica campionaria, la distribuzione di probabilità di T, espressa con la funzione di ripartizione, è data formalmente da: 𝐹(𝑡) = 𝑃(𝑇 ≤ 𝑡) = 𝑃(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ∈ 𝐼𝑡 dove 𝐼𝑡 è l’insieme dei campioni dello spazio campionario per i quali vale la disuguaglianza 𝑇 ≤ 𝑡. 𝐹(𝑡) è dunque la probabilità di osservare un campione in cui 𝑇 ≤ 𝑡. Quando la variabile d’interesse è continua, la distribuzione di probabilità di una statistica campionaria, espressa dalla funzione di ripartizione 𝐹(𝑡) = 𝑃(𝑇 ≤ 𝑡), è una somma nel continuo (fatta tramite gli integrali) delle densità di probabilità associate ai campioni appartenenti all’insieme 𝐼𝑡 , cioè ai campioni in cui la statistica campionaria assume un valore minore o uguale a t. ➢ Valore atteso e Varianza di una statistica campionaria ▪ Il valore atteso, 𝜇 𝑇 = 𝔼[𝑇], della statistica campionaria T è dato dalla somma (dall’integrale) dei prodotti tra i valori che T può assumere e le rispettive probabilità (densità di probabilità). ▪ La varianza di una statistica campionaria T è il valore atteso di (𝑇 − 𝜇 𝑇 )2 : 𝑉𝑎𝑟[𝑇] = 𝔼[(𝑇 − 𝜇 𝑇 )2 ] Si può dimostrare che il valore atteso e la varianza della media campionaria sono uguali a: 𝔼[𝑋̅] = 𝜇𝑋̅ = 𝜇 𝜎2 𝑛 Essendo μ e 𝜎 2 la media e la varianza della popolazione generatrice. 𝑉𝑎𝑟[𝑋̅] = 𝜎 2𝑋̅ = ➢ Media e Varianza della media campionaria ▪ Il valore atteso della media campionaria coincide con la media della popolazione. ▪ La varianza della media campionaria, interpretabile come la media delle oscillazioni (date dagli scarti al quadrato) che essa presenta rispetto alla sua media, è data dalla varianza della popolazione divisa per n. ➢ Media e Varianza della Media campionaria per una popolazione Bernoulliana Sia 𝑃̂ la statistica “proporzione campionaria di successi”, si può dimostrare che il valore atteso e la varianza 𝑃̂ sono dati da: 𝔼[𝑃̂] = 𝜇𝑝̂ = 𝑝 𝑉𝑎𝑟[𝑃̂] = 𝜎 2 𝑝̂ = 𝑝(1 − 𝑝) 𝑛 ➢ Distribuzione della Media campionaria per una popolazione Normale 𝜎2 Se 𝑋~𝑁(𝜇, 𝜎 2 ), si può dimostrare che 𝑋̅~𝑁(𝜇, ) 𝑛 ➢ Distribuzione campionaria della Varianza Il valore atteso e la varianza di 𝑆 2 sono dati, da: 𝔼[𝑆 2] =𝜎 2 𝕍[𝑆 2] 𝜎4 𝑛 = (𝛾 + 2 ) 𝑛 𝑛−1 Dove γ è un misura del grado di distanza tra la forma della popolazione generatrice e la normale, che è pari a 0 se la popolazione generatrice è normale. Consideriamo una popolazione generatrice normale con media μ e 𝜎 2 varianza. Sia 𝑆 2 la varianza di un campione casuale di ampiezza n proveniente da tale popolazione. Allora, il rapporto: (𝑛 − 1)𝑆 2 2 𝑉= ~ 𝑥𝑛−1 𝜎2 ➢ Distribuzione campionaria della Media ▪ Variazione Nota Se la popolazione generatrice è normale, la variabile casuale media campionaria 𝑋̅ ha distribuzione 𝑁(𝜇, 𝜎2 ). Pertanto, la variabile casuale standardizzata: 𝑋̅ − 𝜇 𝑍 = 𝜎 ~ 𝑁(0,1) √𝑛 Se la popolazione non è normale, la variabile casuale precedente si distribuisce in modo approssimato come una normale standard, purché n sia grande. √𝑛 ▪ Variazione NON nota Sia data una popolazione generatrice normale con media µ. Siano 𝑋̅ e 𝑆 2 la media e la varianza di un campione casuale di ampiezza n. Allora, il rapporto: 𝑋̅ − 𝜇 𝑇= ~ 𝑇𝑛−1 𝑆 √𝑛 ➢ Successione di variabili casuali La successione delle medie aritmetiche fatte sulle prime 1, 2, . . . variabili casuali: 𝑋̅𝑛 = { 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 }, 𝑛 𝑛 = 1,2, … Legge dei grandi numeri Sia {𝑋1 , 𝑋2 , … } una successione di variabili aleatorie indipendenti e aventi tutte la stessa distribuzione di probabilità con valore atteso 𝔼[𝑋𝑖 ] = 𝜇 e varianza 𝕍[𝑋𝑖 ] = 𝜎 2 , 𝑖 = 1,2, … ; Sia: ∑𝑛𝑖=1. ̅ {𝑋𝑛 = } 𝑛 = 1,2, … 𝑛 la successione delle medie aritmetiche fatte sulle prime 1, 2, . . . variabili casuali. Allora, per ogni ∈ > 0 piccolo a piacere, vale la relazione: lim 𝑃(|𝑋̅𝑛 − 𝜇| < 𝜖) = 1 𝑛→∞ La probabilità dell’evento |𝑋̅𝑛 − 𝜇| < 𝜖 può essere scritta nella forma → (𝜇 − 𝜖 < 𝑋̅𝑛 < 𝜇 + 𝜖) ➢ Formulazione di Bernoulli ▪ Quando la generica variabile casuale della successione {𝑋1 + 𝑋2 + ⋯ } è una Bernoulliana con media p, 𝑋𝑖 assume il valore 1 (successo) con probabilità p e 0 (insuccesso) con probabilità 1 − p. 𝑋 ▪ Il rapporto 𝑋̅𝑛 = ∑𝑛𝑖=1 𝑛𝑖 è interpretabile come frequenza relativa di successo in n prove indipendenti su un esperimento Bernoulliano, in cui la probabilità di successo è p. In questo caso: lim 𝑃(|𝑋̅𝑛 − 𝑝| < 𝜖) = 1 𝑛→∞ ▪ In questa formulazione, la legge dei grandi numeri ci dice che, all’aumentare del numero delle prove, la distribuzione di probabilità della frequenza relativa dei successi tende sempre più a concentrarsi intorno al valore di p, probabilità dell’evento successo nella singola prova. ➢ Teorema del Limite Centrale (TLC) Sia {𝑋1 , 𝑋2 , … } una successione di variabili casuali indipendenti e aventi tutte la stessa distribuzione con valore atteso 𝔼[𝑋𝑖 ] = 𝜇 e varianza 𝕍[𝑋𝑖 ] = 𝜎 2 , 𝑖 = 1,2, … ; Sia: ∑𝑛𝑖=1. {𝑋̅𝑛 = } 𝑛 = 1,2, … 𝑛 la successione delle medie aritmetiche fatte sulle prime 1, 2, . . . variabili casuali. Allora, , definita la variabile scarto standardizzato: 𝑋̅𝑛 − 𝜇 𝑍𝑛 = 𝜎 √𝑛 Per ogni z ϵ ℝ, si ha: lim 𝑃(𝑍𝑛 ≤ 𝑧) = lim 𝑃 ( 𝑛→∞ 𝑛→∞ 𝑧 𝑋̅𝑛 − 𝜇 1 −𝑢2 /2 ≤ 𝑧) = ∫ 𝑒 𝑑𝑢 = Φ(z) 𝜎 −∞ √2𝜋 √𝑛 Quando il campione ha un’ampiezza sufficientemente elevata, la distribuzione di probabilità di 𝑋̅ può essere approssimata con una normale, qualunque sia la forma della distribuzione della variabile casuale oggetto di studio. Il campione casuale è per definizione costituito da n variabili casuali indipendenti aventi tutte la stessa distribuzione, e ciò consente di fare ricorso al teorema del limite centrale. (ES: pag8) 𝑋̅ è assimilabile alla variabile casuale 𝑋̅𝑛 protagonista del teorema ➢ Approssimazione della Binomiale con la Normale ▪ Quando la generica variabile casuale 𝑋𝑖 della successione {𝑋1 , 𝑋2 , … } è una Bernoulliana con media p, 𝑛 𝑆𝑛 = ∑ 𝑋𝑖 𝑖=1 è il numero di successi in n prove indipendenti su un esperimento Bernoulliano. ▪ La distribuzione di probabilità di 𝑆𝑛 è allora una Binomiale 𝑆𝑛 ~𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙𝑒(𝑛, 𝑛𝑝) ▪ ▪ Se n è sufficientemente grande, 𝑛𝑝 > 5, 𝑛(1 − 𝑝) > 5, tale distribuzione può essere approssimata con una normale con media np e varianza np(1 − p). Ponendo 𝑋 = 𝑆𝑛 , ciò consente di scrivere: 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) ≈ Φ ( ▪ 𝑏 + 𝟎. 𝟓 − 𝑛𝑝 𝑏 − 𝟎. 𝟓 − 𝑛𝑝 ) − Φ( ) √𝑛𝑝(1 − 𝑝) √𝑛𝑝(1 − 𝑝) L’approssimazione migliora adottando la correzione per continuità. Statistica Inferenziale È l’insieme dei metodi e delle tecniche con cui “si fa luce” su uno o più parametri della popolazione generatrice, utilizzando i dati di un campione casuale. Attraverso la conoscenza del campione dobbiamo riuscire a determinare i parametri incogniti della popolazione. Tre sono le procedure tipiche dell’inferenza statistica: 1) La stima puntuale: si cerca di determinare valori puntuali dei parametri incogniti della popolazione mediante i valori del campione. 2) La stima intervallare: si cercano degli intervalli contenenti con una certa fiducia i parametri della popolazione. 3) La verifica (test) d’ipotesi: si usa il campione per controllare la validità di ipotesi riguardanti i parametri della popolazione. ➢ Stimatore Dato un campione casuale (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) per stimatore del parametro θ si intende la statistica campionaria 𝑇 = 𝑡(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) utilizzata per stimare il parametro θ. ❖ Si chiama, invece, stima la singola determinazione dello stimatore, il valore, 𝑡 = 𝑡(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) che esso assume nel campione osservato, (𝑥1 , 𝑥2 , … , 𝑥𝑛 ), inteso come una n-upla di numeri effettivamente osservati. ❖ Si parla di stima puntuale per distinguere questo problema dalla stima per intervallo, con cui ci si pone l’obiettivo di individuare un intervallo che contenga al suo interno il parametro θ. ➢ Proprietà degli stimatori: ▪ Dato un campione casuale (𝑋1 , 𝑋2 , … , 𝑋𝑛 ), sia 𝑇 = 𝑡(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) uno stimatore del parametro θ. ▪ Per stabilire se lo stimatore T è più o meno adeguato per la soluzione del nostro problema di stima è cruciale studiare la variabile casuale 𝑇−𝜃 Che denomineremo errore di stima. Due questioni sono basilari per emettere un giudizio sullo stimatore: • La media degli errori di stima 𝔼[𝑇 − 𝜃] è desiderabile che sia nulla; • La media dei quadrati degli errori di stima: 𝑀𝑆𝐸 (𝑇) = 𝔼[(𝑇 − 𝜃)2 ] denominata, errore quadratico medio, è desiderabile che sia “la più piccola possibile”. ➢ Distorsione Se il valore atteso dell’errore di stima è uguale a 0, cioè se 𝔼[𝑇 − 𝜃 ] = 0 ∀𝜃 lo stimatore è non distorto. L’equazione precedente può essere scritta in modo equivalente come: 𝔼[𝑇 ] = 0 ∀𝜃 La differenza 𝐷(𝑇) = 𝔼[𝑇] − 𝜃 è denominata distorsione. ➢ Stimatori non distorti per μ, p e con 𝝈𝟐 La media, la proporzione e la varianza nella popolazione, sappiamo che valgono le relazioni: 𝔼[𝑋̅ ] = 𝜇 𝔼[𝑃̂] = 𝑝 𝔼[𝑆 2 ] = 𝜎 2 La media campionaria, la proporzione campionaria e la varianza campionaria sono stimatori non distorti dei rispettivi parametri di riferimento. (ES: pag9) ➢ Errore Quadratico Medio L’errore quadratico medio dello stimatore T di θ: 𝑀𝑆𝐸 (𝑇) = 𝔼[(𝑇 − 𝜃)2 ] ▪ MSE(T) può essere interpretato come una misura della “distanza” media o, equivalentemente, della “vicinanza” media delle stime fornite da T e il valore reale di θ. ▪ L’errore quadratico medio dello stimatore T di θ può essere scritto nella forma: 𝑀𝑆𝐸 (𝑇) = 𝕍[𝑇] + (𝔼[𝑇] − 𝜃)2 Dove 𝕍[𝑇] = 𝔼[(𝑇 − 𝜃)2 ] è la varianza dello stimatore. ▪ Se lo stimatore è non distorto, l’errore quadratico medio coincide con la varianza: 𝑀𝑆𝐸 (𝑇) = 𝕍[𝑇] ➢ MSE degli stimatori non distorti per μ, p e con 𝝈𝟐 La media, la proporzione e la varianza nella popolazione, sappiamo che i corrispondenti stimatori sono non distorti, dunque: 𝜎2 𝑛 𝑝(1 − 𝑝) 𝑀𝑆𝐸(𝑃̂) = 𝕍[𝑃̂] = 𝑛 4 𝜎 𝑛 (𝛾 + 2 ) 𝑀𝑆𝐸 (𝑆 2 ) = 𝕍[𝑆 2 ] = 𝑛 𝑛−1 𝑀𝑆𝐸 (𝑋̅ ) = 𝕍[𝑋̅ ] = La distanza media dal parametro delle stime (𝑥̅ , 𝑝̂ , 𝜎 2 ) decresce con l’ampiezza del campione. o Proprietà: ➢ Efficienza L’efficienza è una proprietà che si manifesta nel confronto di due o più stimatori impiegabili per stimare uno stesso parametro. Dati due stimatori dello stesso parametro 𝜃, 𝑇1 e 𝑇2 si dice che 𝑇1 è più efficiente di 𝑇2 se: 𝑀𝑆𝐸 (𝑇1 ) = 𝔼[(𝑇1 − 𝜃)2 ] ≤ 𝑀𝑆𝐸 (𝑇2 ) = 𝔼[(𝑇2 − 𝜃)2 ] ∀𝜃 Utilizzare lo stimatore più efficiente, in quanto garantisce a priori una maggiore precisione delle stime. ➢ Margine di errore nella stima della media Supponendo che la popolazione sia normale, possiamo scrivere: 𝑃 (−𝑧1−𝛼/2 𝜎 √𝑛 < 𝑋̅ − 𝜇 < −𝑧1−𝛼/2 𝜎 √𝑛 )=1−𝛼 Ciò significa che con probabilità 1 − 𝛼 l’errore che si commette stimando μ con 𝑋̅ è minore, in valore assoluto, di: 𝜎 √𝑛 𝑑 = 𝑧1−𝛼/2 quantità denominata margine di errore. ↓ dipende da α, da σ e da n ➢ Margine di errore nella stima di una proporzione Il margine di errore dello stimatore 𝑃̂ della proporzione p di una popolazione Bernoulliana è dato da: 𝑝(1 − 𝑝) 𝑛 𝑑 = 𝑧1−𝛼/2 √ quantità che dipende dalla proporzione p non nota. Considerando che: max (𝑝(1 − 𝑝) = 0.5 ∙ 0.5 = 0.25 possiamo dire che il margine di errore è al massimo uguale a 0.25 𝑛 𝑑 = 𝑧1−𝛼/2 √ ➢ Dimensione del campione per un assegnato livello del margine di errore Dall’equazione: 𝑑 = 𝑧1−𝛼/2 𝜎 √𝑛 risolviamo rispetto ad n, ricavando: 𝑛≥ Quando la popolazione è Bernoulliana: 𝑛≥ 2 𝑧1−𝛼/2 𝜎2 𝑑2 2 𝑧1−𝛼/2 0.25 𝑑2 Stima Intervallare ➢ Statistica Ancillare Sia (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un campione casuale proveniente dalla popolazione generatrice della quale interessa stimare il parametro θ incognito. È detta statistica ancillare una funzione del campione 𝑡(𝑋1 , … , 𝑋𝑛 ; 𝜃) che include tra i suoi argomenti anche il parametro θ e ha una funzione di probabilità nota e non dipendente da θ Possiamo calcolare la probabilità: 𝑃(𝑞𝛼 < 𝑡(𝑋1 , … , 𝑋𝑛 ; 𝜃) < 𝑞1−𝛼 ) = 1 − 𝛼 2 2 ➢ Stima Intervallare Sia (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un campione casuale proveniente dalla popolazione generatrice della quale interessa stimare il parametro θ. Siano: 𝐿1 = 𝑙1 (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) e 𝐿2 = 𝑙2 (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) Con 𝐿1 < 𝐿2 , due statistiche campionarie tali che: 𝑃(𝐿1 < 𝜃 < 𝐿2 ) = 1 − 𝛼 dove α è un numero molto piccolo (solitamente 0.1, 0.05, 0.01, 0.001) che non dipende da θ. L’intervallo (𝐿1 , 𝐿2 ) si chiama stimatore intervallare del parametro θ. Sia (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) un campione casuale osservato e siano 𝑙1 ed 𝑙2 i valori assunti in esso dalle statistiche campionarie 𝐿1 ed 𝐿2 . Allora, l’intervallo (𝑙1, 𝑙2 ) è un intervallo di confidenza per θ con coefficiente di fiducia pari a 1 − α. Stima per intervallo della media di una popolazione normale con varianza nota ➢ Intervallo di confidenza per 𝛍 con 𝝈𝟐 nota Sia (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un campione casuale proveniente dalla popolazione normale 𝑁(𝜇, 𝜎 2 ). Allora, fissato un livello di probabilità 1 − α, si trova che uno stimatore per intervallo di µ ha estremi dati da: 𝜎 𝜎 𝐿1 = 𝑋̅ − 𝑧1−𝛼 𝐿2 = 𝑋̅ − 𝑧1−𝛼 2 √𝑛 2 √𝑛 dove 𝑧1−𝛼 è il quantile corrispondente alla probabilità 1 − 𝛼/2 della distribuzione Normale 2 standard. Pertanto un intervallo di confidenza di livello 1 − α, per il parametro µ è dato da: 𝜎 𝜎 𝑙1 = 𝑥̅ − 𝑧1−𝛼 𝑙2 = 𝑥̅ − 𝑧1−𝛼 2 √𝑛 2 √𝑛 essendo 𝑥̅ la media del campione osservato. ➢ Ampiezza dell’intervallo di confidenza L’ampiezza dell’intervallo di confidenza, differenza tra estremo destro ed estremo sinistro dello stimatore per intervallo, è data da: 𝜎 𝐴 = 𝐿2 − 𝐿1 = 2𝑧1−𝛼 2 √𝑛 Esso è funzione di α, di n e di σ: ▪ Cresce al diminuire di α ▪ Decresce all’aumentare di n ▪ Cresce all’aumentare di σ Stima per intervallo della media di una popolazione normale con varianza NON nota ➢ Intervallo di confidenza per 𝛍 con 𝝈𝟐 NON nota Sia (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un campione casuale proveniente dalla popolazione normale 𝑁(𝜇, 𝜎 2 ). Allora, fissato un livello di probabilità 1 − α, si trova che uno stimatore per intervallo di µ ha estremi dati da: 𝑆 𝑆 𝐿1 = 𝑋̅ − 𝑡1−𝛼 𝐿2 = 𝑋̅ − 𝑡1−𝛼 2 √𝑛 2 √𝑛 Dove 𝑡1−𝛼 è il quantile corrispondente alla probabilità 1 − α/2 della distribuzione T di student 2 con n − 1 gradi di libertà. Pertanto un intervallo di confidenza di livello 1 − α, per il parametro µ è dato da: 𝑠 𝑠 𝑙1 = 𝑥̅ − 𝑡1−𝛼 𝑙2 = 𝑥̅ − 𝑡1−𝛼 2 √𝑛 2 √𝑛 Essendo la media del campione osservato. ➢ Stima intervallare della media nel caso di grandi campioni Se la dimensione del campione è sufficientemente elevata, possiamo riferirci alla statistica: 𝑍= 𝑋̂ − 𝜇 𝑆 √𝑛 la cui distribuzione di probabilità è prossima alla normale standard qualunque sia la popolazione generatrice. Ne segue che: 𝑆 𝑆 𝐿1 = 𝑋̅ − 𝑧1−𝛼 𝐿2 = 𝑋̅ − 𝑧1−𝛼 2 √𝑛 2 √𝑛 Gli estremi dell’intervallo di confidenza sono dati da: 𝑙1 = 𝑥̅ − 𝑧1−𝛼 2 𝜎 √𝑛 𝑙2 = 𝑥̅ − 𝑧1−𝛼 2 𝜎 √𝑛 ➢ Stima intervallare della proporzione nel caso di grandi campioni La statistica da utilizzare è: 𝒁= 𝑃̂ − 𝑝 ̂ ̂ √𝑃(1 − 𝑃) 𝑛 Dove 𝑃̂, stimatore di p, è la v.a. proporzione o frequenza relativa dei successi nel campione. ➢ Intervallo di confidenza per p Sia (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un campione casuale proveniente da una popolazione Bernoulliana. Allora, fissato un livello di probabilità 1 − α, si trova che uno stimatore per intervallo di p ha estremi dati da: 𝐿1 = 𝑃̂ − 𝑧1−𝛼 √ 2 𝑃̂(1 − 𝑃̂) 𝑛 𝐿2 = 𝑃̂ − 𝑧1−𝛼 √ 2 𝑃̂(1 − 𝑃̂) 𝑛 dove 𝑧1−𝛼 è il quantile corrispondente alla probabilità 1 − α/2 della distribuzione Normale 2 standard. Pertanto un intervallo di confidenza di livello 1 − α, per il parametro p è dato da: 𝑙1 = 𝑝̂ − 𝑧1−𝛼 √ 2 𝑝̂ (1 − 𝑝̂ ) 𝑛 𝑙2 = 𝑝̂ − 𝑧1−𝛼 √ 2 𝑝̂ (1 − 𝑝̂ ) 𝑛 essendo pˆ la proporzione del campione osservato. ➢ Stima intervallare della varianza di una popolazione normale Se la popolazione è normale, sappiamo che la v.a. (𝑛 − 1)𝑆 2 𝑉= 𝜎2 ha distribuzione chi-quadrato χ 2 con 𝑛 − 1 gradi di libertà. ➢ Intervallo di confidenza per σ 2 Sia (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un campione casuale proveniente dalla popolazione normale 𝑁(𝜇, 𝜎 2 ). Allora, fissato un livello di probabilità 1 − α, si trova che uno stimatore per stimatore di 𝜎 2 ha estremi dati da: (𝑛 − 1)𝑆 2 (𝑛 − 1)𝑆 2 𝐿1 = 𝐿 = 2 2 χ1−𝛼/2 χ2𝛼/2 2 dove χ2𝛼/2 e χ1−𝛼/2 sono i quantili di livello α/2 e 1 − α/2 della Chi-quadrato con n − 1 gradi di libertà. Pertanto un intervallo di confidenza di livello 1 − α, per il parametro 𝜎 2 è dato da: 𝑙1 = (𝑛 − 1)𝑠 2 2 χ1−𝛼/2 𝑙2 = (𝑛 − 1)𝑠 2 χ2𝛼/2 essendo 𝑠 2 il valore della varianza 𝑆 2 nel campione osservato. Verifica delle ipotesi Un metodo alternativo agli intervalli di confidenza è la verifica d’ipotesi. La verifica d’ipotesi è un metodo analitico per verificare se i dati campionari sono compatibili con la nostra ipotesi ➢ Ipotesi statistica → è una affermazione o una congettura che riguarda il parametro θ. L’ipotesi sottoposta a verifica va sotto il nome di ipotesi nulla, essa può essere definita come: ▪ Ipotesi Semplice → se specifica completamente la distribuzione di probabilità della v.c. oggetto di studio, ad esempio: p = 0.6 (pop. Bernoulli) µ = 177 (pop. Normale con σ 2 nota) λ = 3.2 (pop. Poisson) ▪ Ipotesi Composta → se specifica, non una sola distribuzione di probabilità della v.c. oggetto di studio, ma una famiglia di possibili distribuzioni, ad esempio: p ≤ 0.5 µ > 175 ▪ Ipotesi Nulla 𝐻0 → in genere rappresenta lo stato attuale delle cose o l’attuale convinzione riguardo a una situazione. ▪ Ipotesi Alternativa 𝐻1 → rappresenta la conclusione inferenziale che si è interessati a dimostrare quando il campione osservato fornisce sufficiente evidenza del fatto che l’ipotesi nulla sia falsa. Si assume che le due ipotesi 𝐻0 e 𝐻1 siano esaustive (una delle due è necessariamente vera) e mutuamente esclusive (non possono essere vere contemporaneamente). I possibili sistemi di ipotesi sono: { 𝐻0 ∶ 𝜃 = 𝜃0 𝐻1 ∶ 𝜃 ≠ 𝜃0 { 𝐻0 ∶ 𝜃 = 𝜃0 𝐻1 ∶ 𝜃 < 𝜃0 { 𝐻0 ∶ 𝜃 = 𝜃0 𝐻1 ∶ 𝜃 > 𝜃0 { 𝐻0 ∶ 𝜃 ≤ 𝜃0 𝐻1 ∶ 𝜃 > 𝜃0 { 𝐻0 ∶ 𝜃 ≥ 𝜃0 𝐻1 ∶ 𝜃 < 𝜃0 I test di ipotesi possono essere classificati in due gruppi: o Test a una cosa (test unilaterale) → nell’ipotesi alternativa compare uno dei segni > oppure < o Test a due code (test bilaterale) → nell’ipotesi alternativa compare il segno ≠ ▪ ▪ ▪ ▪ La distribuzione campionaria della statistica test spesso è una distribuzione statistica nota, come la Normale o la T, e quindi possiamo ricorrere a queste distribuzioni per decidere se rifiutare o meno a un’ipotesi nulla. La distribuzione campionaria della statistica test viene divisa in due regioni: una regione di rifiuto (chiamata anche regione critica) e una regione di accettazione. Per prendere una decisione sull’ipotesi nulla, dobbiamo in primo luogo definire le regioni di rifiuto e di accettazione e questo viene fatto determinando il cosiddetto valore critico della statistica test. La determinazione di questo valore dipende dall’ampiezza della regione di rifiuto, che è legata al rischio comportato dal prendere una decisione sul parametro alla luce delle sole informazioni campionari. La teoria dei test consente di determinare una regola di decisione che limiti il più possibile il rischio di decisioni sbagliate. I Quando si applica un procedimento di verifica di ipotesi, dunque nel decidere se rifiutare o meno l’ipotesi nulla, si possono commettere due tipi di errori: ➢ L’errore di prima specie (detto anche livello di significatività) si verifica se si rifiuta l’ipotesi nulla quando è vera e quindi non dovrebbe essere rifiutata. P(errore I specie) = P(Rifiutare 𝐻0 | 𝐻0 vera) = 𝛼 ➢ L’errore di seconda specie si verifica se si accetta l’ipotesi nulla quando è falsa e quindi dovrebbe essere rifiutata. P(errore II specie) = P(Non Rifiutare 𝐻0 | 𝐻0 falsa) = 𝛽 In genere, si controlla l’errore di prima specie fissando il livello del rischio α che si è disposti a tollerare. La scelta di α dipende fondamentalmente dai costi che derivano dal commettere un errore di prima specie. ➢ Il livello di confidenza di un test di ipotesi è dato da (1 − α)% e rappresenta la probabilità che l’ipotesi nulla non sia rifiutata quando è vera (quindi non dovrebbe essere rifiutata). P(Non Rifiutare 𝐻0 | 𝐻0 vera) = 1 − 𝛼 ➢ La potenza del test, indicata con (1 − β) rappresenta la probabilità di rifiutare l’ipotesi nulla quando è falsa (e quindi dovrebbe essere rifiutata). P(Rifiutare 𝐻0 |𝐻0 falsa) = 1 − 𝛽 A differenza dell’errore di prima specie, che controlliamo fissando α, la probabilità di commettere un errore di seconda specie dipende dal campione osservato. ➢ Le fasi della verifica di ipotesi utilizzando l’approccio del valore critico 1. Specificare l’ipotesi nulla e l’ipotesi alternativa. 2. Scegliere il livello di significatività α e l’ampiezza campionaria n. Il livello di significatività viene fissato in base all’importanza relativa che si accorda ai rischi derivanti dal commettere un errore di prima specie e dal commettere un errore di seconda specie. 3. Individuare la tecnica statistica a cui fare riferimento e la corrispondente distribuzione campionaria. 4. Calcolare i valori critici che separano la regione di rifiuto da quella di accettazione. 5. Raccogliere i dati e calcolare il valore campionario della statistica test. 6. Prendere la decisione statistica. Se la statistica test cade nella regione di accettazione, l’ipotesi nulla 𝐻0 non può essere rifiutata. Se la statistica test cade nella regione di rifiuto, l’ipotesi nulla 𝐻0 viene rifiutata. Esprimere la decisione statistica con riferimento al problema che si sta affrontando. ➢ Verifica di ipotesi utilizzando l’approccio del P-value Il p-value → rappresenta la probabilità di osservare un valore della statistica test uguale o più estremo del valore che si calcola a partire dal campione, quando l’ipotesi 𝐻0 è vera. 𝛼𝑜𝑠𝑠 = 𝑃(Z assuma un valore più estremo rispetto a quello campionario | 𝐻0 ) Il p-value è anche chiamato livello di significatività osservato e viene indicato con 𝛼𝑜𝑠𝑠 . In base all’approccio del p-value, la regola decisionale per rifiutare H0 è la seguente: ▪ Se 𝛼𝑜𝑠𝑠 ≥ 𝛼, l’ipotesi nulla non è rifiutata. ▪ Se𝛼𝑜𝑠𝑠 < 𝛼, l’ipotesi nulla è rifiutata. 𝛼𝑜𝑠𝑠 = 𝑃(𝑍 > 𝑧𝑥̅ | 𝜇 = 𝜇0 ➢ Legame tra intervalli di confidenza e verifica di ipotesi o Gli intervalli di confidenza sono stati usati per stimare i parametri della popolazione. o La verifica di ipotesi viene impiegata per poter prendere delle decisioni che dipendono dai valori dei parametri. Ogni test a due code ha un intervallo di confidenza equivalente. Pertanto se si è già calcolato un IC per un parametro θ si può usare quell’intervallo per fare un test a due code su θ senza dover ripetere i calcoli { 𝐻0 ∶ 𝜃 = 𝜃0 𝐻1 ∶ 𝜃 ≠ 𝜃0 ⟺ 𝐼𝐶1−𝛼% (𝜃) ➢ Verifica di ipotesi sulla media di una popolazione normale con 𝝈𝟐 nota ▪ Sistemi di ipotesi: { ▪ 𝐻0 ∶ 𝜇 = 𝜇0 𝐻1 ∶ 𝜇 > 𝜇0 Regola di decisione: Si rifiuta l’ipotesi nulla se il valore assunto dalla statistica test nel campione osservato fa parte dell’insieme, detto regione di rifiuto: 𝑅 = {𝑧 ∶ 𝑧 > 𝑧1−𝛼 } Equivalente a: 𝑅𝑥 = {𝑥̅ ∶ 𝑥̅ > 𝜇0 + 𝑧1−𝛼 Ammesso che 𝐻0 sia vera, la probabilità che: 𝑋̅ > 𝜇0 + 𝑧1−𝛼 𝜎 √𝑛 } 𝜎 √𝑛 cioè la probabilità di rifiutare l’ipotesi nulla, è uguale al livello di significatività α. L’ipotesi nulla viene rifiutata quando 𝑋̅ assume un valore molto più grande di 𝜇0 , ovvero per valori che, sotto 𝐻0 , sono poco credibili di 𝜇0 . (ES: pag24) Espressioni equivalenti sono: - La media campionaria differisce significativamente da 𝜇0 ,; - La differenza 𝑥̅ − 𝜇0 , è significativamente diversa da 0; - Vi è sufficiente evidenza empirica contro l’ipotesi nulla. ▪ Sistemi di ipotesi: { ▪ Regola di decisione: Si rifiuta l’ipotesi nulla se il valore assunto dalla statistica test nel campione osservato fa parte dell’insieme, detto regione di rifiuto: 𝑅 = {𝑧 ∶ 𝑧 > 𝑧1−𝛼 } ▪ √𝑛 } 𝐻0 ∶ 𝜇 = 𝜇0 𝐻1 ∶ 𝜇 < 𝜇0 ⟺ 𝑅𝑥 = {𝑥̅ ∶ 𝑥̅ < 𝜇0 − 𝑧1−𝛼 𝜎 √𝑛 } Sistemi di ipotesi: { ▪ 𝜎 Regola di decisione: In questo caso, si rifiuta l’ipotesi nulla per valori di Z minori di −𝑧1−𝛼 , ossia: 𝑅 = {𝑧 ∶ 𝑧 < −𝑧1−𝛼 } ▪ ⟺ 𝑅𝑥 = {𝑥̅ ∶ 𝑥̅ > 𝜇0 + 𝑧1−𝛼 Sistemi di ipotesi: { ▪ 𝐻0 ∶ 𝜇 ≤ 𝜇0 𝐻1 ∶ 𝜇 > 𝜇0 𝐻0 ∶ 𝜇 = 𝜇0 𝐻1 ∶ 𝜇 ≠ 𝜇0 Regola di decisione: In questo caso, la regione di rifiuto è bidirezionale, ovvero considera entrambe le code della distribuzione: 𝑅 = {𝑧 ∶ |𝑧| > 𝑧1−𝛼/2 } ⟺ 𝑅𝑥 = {𝑥̅ ∶ |𝑥̅ | ∉ [𝜇0 − 𝑧1−𝛼 2 𝜎 √𝑛 ; 𝜇0 + 𝑧1−𝛼 ➢ Verifica di ipotesi sulla media di una popolazione normale con 𝝈𝟐 incognita 2 𝜎 √𝑛 ]} ➢ Verifica di ipotesi sulla media nel caso di grandi campioni ➢ Verifica di ipotesi sulla media nel caso di grandi campioni e popolazione Bernoulli ➢ Verifica di ipotesi sulla varianza di una popolazione normale Regressione Lineare ➢ Analisi delle distribuzioni doppie La distribuzione doppia di frequenza è il risultato di un processo di classificazione: 1. si individuano le I · J classi formate dalla coppia di modalità (𝑥𝑖 , 𝑦𝑗 ) 2. si attribuisce ciascuna delle N unità statistiche alla classe corrispondente alla coppia di modalità osservata su quella unità; 3. si contano le unità che sono state assegnate ad ogni classe (𝑛𝑖 , 𝑗). Distribuzione doppia → (𝑥𝑖 , 𝑦𝑗 , 𝑛𝑖 , j) con i = 1, … , I e j = 1, … , J Distribuzione marginale di X → (𝑥𝑖 , 𝑛𝑖 , . ) con i = 1, … , I Distribuzione marginale di Y → (𝑦𝑖 , 𝑛. , 𝑗) con j = 1, … , J { Distribuzione condizionale di Y dato X → (𝑦𝑖 , 𝑛𝑖,𝑗 )con j = 1, … , J con 𝑖 fissato ➢ Associazione tra variabili quantitative Lo scatterplot (grafico a dispersione) ci fa capire se esiste una associazione statistica fra due caratteri quantitativi. Quando: ▪ All’aumentare di una variabile, l’altra tende a diminuire si parla di associazione discordante. ▪ All’aumentare di una variabile, l’altra tende ad aumentare, si parla di associazione concordante. ▪ Al variare di una l’altra tende a non variare si parla di assenza di associazione. L’indice di variabilità per un variabile quantitativa è la varianza. 𝑁 𝜎𝑋2 1 = ∑(𝑥𝑖 − 𝜇𝑋 ) (𝑥𝑖 − 𝜇𝑋 ) 𝑁 𝑖=1 Per misurare l’associazione fra la variabile x e la variabile y si usa la Covarianza. 𝑁 𝜎𝑋𝑌 1 = ∑(𝑥𝑖 − 𝜇𝑋 ) (𝑦𝑖 − 𝜇𝑌 ) 𝑁 𝑖=1 ➢ Associazione tra caratteri quantitativi Data una distribuzione doppia in forma disaggregata, si dice che tra le due variabili X e Y vi è correlazione positiva o concordanza quando esse tendono a crescere (decrescere) insieme. Si ha correlazione negativa o discordanza quando al crescere di una variabile l’altra tende a decrescere. L’indice di correlazione lineare si calcola: 𝑁 ∑𝑁 1 𝑥𝑖 − 𝜇𝑋 𝑦𝑖 − 𝜇𝑌 𝑖=1(𝑥𝑖 − 𝜇𝑌 ) (𝑦𝑖 − 𝜇𝑌 ) )( )= 𝑁 𝑟 = ∑( 2 ∑𝑖=1(𝑥𝑖 − 𝜇𝑋 )2 ∑𝑁 𝑁 𝜎𝑋 𝜎𝑌 𝑖=1(𝑦𝑖 − 𝜇𝑌 ) 𝑖=1 ➢ Correlazione lineare Ne segue che i prodotti sono in prevalenza positivi nel primo caso e prevalentemente negativi nel secondo. 𝑥𝑖 − 𝜇𝑋 𝑦𝑖 − 𝜇𝑌 ( )( ) 𝜎𝑋 𝜎𝑌 La quantità sarà: 𝑁 1 𝑥𝑖 − 𝜇𝑋 𝑦𝑖 − 𝜇𝑌 )( ) 𝑟 = ∑( 𝑁 𝜎𝑋 𝜎𝑌 𝑖=1 è positiva nel primo caso e negativa nel secondo. o Caratteristiche: ▪ Varia nell’intervallo [−1, 1]. ▪ È pari a 1 quando tutti i punti osservati si trovano su una retta con coefficiente angolare positivo, al contrario è uguale a -1 quando tutti punti osservati si trovano su una retta con coefficiente angolare negativo. ▪ Non cambia se le modalità della singola variabile vengono moltiplicate per una costante o aumentate (diminuite) di una costante positiva. ▪ Non possono essere date regole fisse per l’interpretazione del coefficiente di correlazione, che dipende da una serie di considerazioni. Possiamo dire che in genere, nel settore biomedico ed in epidemiologia, vengono considerati “buoni” valori attorno a 0.7 (nel caso di una correlazione positiva) oppure a -0.7 (per una correlazione negativa). ➢ Massima concordanza e massima discordanza ▪ La massima concordanza è definita come la situazione in cui, ordinando le coppie (𝑥𝑖 , 𝑦𝑖 ) secondo l’ordine non decrescente delle modalità di X, si trova che anche le modalità di Y risultano ordinate in senso non decrescente. ▪ Si definisce come situazione di massima discordanza quella in cui, ordinando le coppie (𝑥𝑖 , 𝑦𝑖 ) secondo l’ordine non decrescente delle modalità di X, si trova che le modalità di Y risultano ordinate in senso non crescente. ▪ La correlazione è indice della relazione lineare tra due variabili. Tuttavia, lo sviluppo di due variabili in parallelo non significa necessariamente che una sia la causa dell’altra. Ecco perché si dice che la correlazione non è necessariamente indice di causalità. ➢ Dipendenza statistica Si dispone spesso di dati multivariati in cui si può individuare una variabile Y che può ritenersi dipendente da più variabili indipendenti, 𝑥1 , 𝑥2 , … , 𝑥𝑘 . Un problema consiste nel valutare la relazione tra tali variabili, ad esempio la forza di tale legame. ➢ Errore casuale Di solito si assume che ϵ sia una v.a. a media nulla e varianza costante: 𝔼[𝜖] = 0 𝕍[𝜖] = 𝜎 2 Spesso si ipotizza anche che la v.a. ϵ sia distribuita secondo un modello Gaussiano: 𝜖 ~ 𝑁(0, 𝜎 2 ) ➢ Modello statistico Un modello che contiene una componente deterministica ed una componente aleatoria viene detto modello statistico: 𝑌 = 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑘 ) + 𝜖 Dove 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑘 ) è la componente deterministica ed ϵ la componente aleatoria. Quando k > 1 parliamo di modello di regressione lineare multipla. Durante il corso tratteremo solo il caso con k = 1, ovvero la regressione lineare semplice. ➢ Regressione lineare (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑁 , 𝑦𝑁 ) sono le coppie di valori osservati su N unità statistiche, dette punti osservati o nuvola di punti. Il problema è quello di assegnare ai parametri 𝛽0 e 𝛽1 della retta 𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜖 i valori che consentano di approssimare nel miglior modo possibile la nuvola dei punti. In altri termini, dobbiamo determinare quella retta, tra le infinte del piano, che meglio si adatta alla nuvola di punti. ➢ Regressione lineare semplice Fissata la variabile deterministica ad un generico valore x, la risposta che ci aspettiamo in assenza di errore è: 𝑦 = 𝛽0 + 𝛽1 𝑥 Ma se l’errore casuale si manifesta, il valore osservato sarà: 𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜖 dove ϵ è la v.a. che descrive l’errore casuale in corrispondenza di x . ➢ Metodo dei minimi quadrati Il nostro obiettivo sarà stimare i parametri 𝛽0 e 𝛽1 dai dati disponibili, in modo da trovare la retta che si adatta meglio ad essi. La soluzione viene trovata utilizzando il metodo dei minimi quadrati e la retta identificata viene denominata retta di regressione. Indicati con 𝑏0 e 𝑏1 due particolari valori di 𝛽0 e 𝛽1, siano: 𝑦̂𝑖 = 𝑏0 + 𝑏1 𝑥𝑖 𝑖 = 1,2, … , 𝑁 i valori teorici o predizioni di Y. Con il metodo dei minimi quadrati si assegnano a 𝑏0 e 𝑏1 i valori che rendono minima la quantità S, data da: 𝑁 𝑆 = ∑(𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 )2 = (𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 )2 + (𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 )2 + ⋯ + (𝑦𝑁 − 𝑏0 − 𝑏1 𝑥𝑁 )2 𝑖=1 Si tratta della somma dei quadrati delle differenze tra i valori effettivi e i valori teorici di Y, una misura del grado di approssimazione dei valori osservati tramite le predizioni. ➢ Stima dei parametri In presenza di un valore anomalo, la retta di regressione stimata col metodo dei minimi quadrati ne viene influenzata. Per una funzione di una sola variabile possiamo trovare il minimo del problema precedente ponendo la sua derivata prima pari a zero. Inoltre, Ponendo le derivate prime parziali della funzione S rispetto a 𝛽0 e 𝛽1uguali a zero si ottengono gli stimatori dei minimi quadrati: 𝑏0 = 𝜇𝑌 − 𝑏1 𝜇𝑋 ∑𝑁 𝑖=1(𝑥𝑖 − 𝜇𝑋 ) (𝑦𝑖 − 𝜇𝑌 ) 𝑏1 = 2 ∑𝑁 𝑖=1(𝑥𝑖 − 𝜇𝑋 ) Dove 𝜇𝑋 e 𝜇𝑌 sono le medie delle distribuzioni di X e Y, rispettivamente. Nel termine 𝑏1 , denoteremo il numeratore come codevianza ed il denominatore come devianza. ➢ Retta di regressione Una volta calcolati 𝑏0 e 𝑏1 l’equazione che ne risulta: 𝑦̂𝑖 = 𝑏0 + 𝑏1 𝑥𝑖 rappresenta la retta di regressione stimata di Y su X. ▪ Il significato da attribuire al coefficiente angolare 𝑏1 è il seguente: poiché la retta rispecchia l’andamento medio dei dati osservati, 𝑏1 indica la variazione media che subisce Y quando X aumenta di una unità. ▪ La retta di regressione passa per il baricentro della distribuzione doppia, cioè per il punto (𝜇𝑋 + 𝜇𝑌 ). ▪ Le differenze tra i valori effettivi e i valori teorici di Y, sono dette residui: 𝑒𝑖 = 𝑦𝑖 − 𝑝̂𝑖 ▪ 𝑖 = 1,2, … , 𝑁 La somma dei residui sarà sempre uguale a zero, ∑𝑁 𝑖=1 𝑒𝑖 = 0 ➢ Adattamento della regressione ai dati Data una distribuzione doppia disaggregata, la devianza della variabile Y può essere scomposta: 𝑁 𝑁 2 𝑁 2 ̂𝑖 − 𝜇𝑌 ) + ∑( 𝑦𝑖 − 𝑦 ̂𝑖 ) ∑( 𝑦𝑖 − 𝜇𝑌 ) = ∑( 𝑦 𝑖=1 𝑖=1 2 𝑖=1 dove 𝑦̂𝑖 sono i valori teorici forniti dalla retta di regressione. Similmente, possiamo scrivere: 𝑆𝑆𝑇 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸 dove SST, SSR e SSE definiscono le somme dei quadrati degli scarti (Sum of Squares) totali, della regressione e degli errori, rispettivamente. Una misura dell’adattamento della retta ai punti osservati, denominata indice di determinazione, è rappresentata dal rapporto: 2 𝑅 = 2 ∑𝑁 ̂𝑖 − 𝜇𝑌 ) 𝑖=1(𝑝 ∑𝑁 𝑖=1(𝑦𝑖 − 𝜇𝑌 ) 2 = 𝑆𝑆𝑅 𝑆𝑆𝐸 =1− 𝑆𝑆𝑇 𝑆𝑆𝑇 tale misura 𝑅 2 𝜖 [0; 1], dove 𝑅 2 = 0 quando 𝑆𝑆𝑅 = 0, dunque se e solo se la retta di regressione è parallela all’asse delle ascisse, mentre 𝑅 2 = 1 quando 𝑆𝑆𝐸 = 0, quindi se e solo se i punti osservati giacciono su una retta.