8. STATISTICA INDUTTIVA 8.1 Regressione lineare In molto esperimenti al ricercatore interessa l’analisi delle variazioni di due o più variabili per evidenziare le eventuali relazioni esistenti tra di loro e predire valori interessanti delle variabili non note sperimentalmente. Noi ci occupiamo solo di esperimenti con due variabili. La relazione che viene presa in esame è la dipendenza di una variabile rispetto all’altra Il rapporto di dipendenza in matematica si indica con funzione, in statistica lo indicheremo con la parola regressione. Si indica come indipendente (π), una variabile per cui i livelli possono essere fissati o possono essere fissati sperimentalmente (es. le dosi di una sostanza), oppure possono essere semplicemente rilevati (es. la temperatura). Si indica come variabile dipendente (π), una variabile la cui variazione si assume essere la risposta alle variazioni della variabile indipendente. Esempio Nella seguente tabella sono riportate le età e le pressioni arteriose massime (in πππ»π millimetri di mercurio) di 6 soggetti maschili. ETÀ PRESSIONE 30 120 35 115 40 130 45 140 50 145 52 160 OBIETTIVO: cercare se esiste una dipendenza del valore della pressione massima dall’età maschile. Per capire questa dipendenza la prima cosa da fare è rappresentare i dati nel diagramma di dispersione: un grafico cartesiano in cui mettiamo in ascissa la variabile indipendente (in questo caso l’età) e in ordinata la variabile dipendente (in questo caso la pressione). I dati sperimentali sono quindi rappresentati da punti nel grafico di dispersione. Noi saremo interessati a quelle variabili che dipendono linearmente l’una dall’altra. (graficamente parlando saremo interessati a quei grafici a dispersione in cui i punti sembrano allinearsi su una retta). Nel nostro esempio: 1 I dati sembrano effettivamente disporsi su una retta. Esistono diversi tipi di regressione: uno lineare è quello di regressione basato sulla retta dei minimi quadrati (dal grafico sembra che questo possa essere un buon modello per rappresentare la dipendenza dei dati) Vedere il grafico non basta però a capire se effettivamente tra i dati esiste una relazione lineare (l’effetto visivo potrebbe confonderci), dobbiamo osservare matematicamente se esiste questa dipendenza. Per far questo introduciamo il coefficiente di correlazione π, che ci permette di capire se esiste o meno una buona relazione lineare tra le variabili. π= ∑ππ=1(π₯π − π₯)(π¦π − π¦) √∑ππ=1(π₯π − π₯)2 ∑ππ=1(π¦π − π¦)2 con π₯, π¦ medie dei dati π₯π , π¦π Il numeratore può essere espresso più semplicemente : π π π π π π ∑(π₯π − π₯)(π¦π − π¦) = ∑(π₯π π¦π − π₯π π¦ − π¦π π₯ + π₯ π¦) = ∑ π₯π π¦π − ∑ π₯π π¦ − ∑ π¦π π₯ + ∑ π₯ π¦ π=1 π=1 π=1 π π=1 π=1 π=1 π = ∑ π₯π π¦π − ππ₯ π¦ − ππ₯ π¦ + ππ₯ π¦ = ∑ π₯π π¦π − ππ₯ π¦ π=1 π=1 Perché: ∑ππ=1 π₯π ∑ππ=1 π¦π =π₯ π =π¦ π π Dunque: π= ∑ππ=1 π₯π π¦π − ππ₯ π¦ √∑ππ=1(π₯π − π₯)2 ∑ππ=1(π¦π − π¦)2 Il coefficiente di regressione: - È sempre −1 ≤ π ≤ 1, - Se π è vicino a 1 o − 1 c’è una buona correlazione lineare, - Se π = ±1 la correlazione è perfetta - Se π < 0 la corrispondenza è inversa, all’aumentare della variabile π₯ diminuisce la variabile π¦ - Se π = 0 o si avvicina a 0, significa che i dati non sono in relazione lineare, in questo caso non ha senso approssimare i dati con la retta dei minimi quadrati. Per i calcoli si può utilizzare la seguente tabella, nel nostro esempio: 2 ∑ππ=1 π₯π ∑ππ=1 π¦π = 42 π¦= = 135 π π (π₯π − π₯)2 π¦π π¦π − π¦ 144 120 −15 49 115 −20 4 135 −5 9 140 5 64 145 10 100 160 25 TOT: 370 π₯= π₯π 30 35 40 45 50 52 π₯π − π₯ −12 −7 2 3 8 10 Quindi abbiamo che π = (34695−6⋅42⋅135) √370⋅1400 (π¦π − π¦)2 225 400 25 25 100 625 TOT: 1400 π₯π π¦π 3600 4025 5200 6300 7250 8320 TOT: 34695 675 = 719.722 ≅ 0.938 Notiamo che π si avvicina ad 1 ne segue che esiste una buona correlazione lineare tra le variabili. I dati possono essere rappresentati dalla retta dei minimi quadrati: π¦ = ππ₯ + π dove: ∑ππ=1 π₯π π¦π − ππ₯ π¦ π= e π = π¦ − ππ₯ √∑ππ=1(π₯π − π₯)2 Nel nostro caso: π = 1.824 e π = 58.38 π¦ = 1.82π₯ + 58.38 La retta ci permette di fare delle previsioni, cioè - Dire, presumibilmente, qual è la pressione massima di un maschio di 47 anni: π¦ = 1.82 ⋅ 47 + 58.38 = 143.92 - Dire quale presunta età può avere un uomo con pressione massima pari a 150 πππ»π π¦ − 58.38 π₯= = 50.34 1.82 3 8.2 Distribuzioni di probabilità VARIABILI ALEATORIE DISCRETE Nell’ambito del calcolo delle probabilità si introduce un nuovo concetto di “variabile”, quello di variabile aleatoria, che è fondamentale in svariate applicazioni. Intuitivamente una variabile aleatoria è una variabile i cui valori sono numeri reali determinati dall’esito di un esperimento aleatorio. Per esempio sono varabili aleatorie: - π che rappresenta il numero di testa uscite nel lancio di 100 monete, - π» che rappresenta l’altezza di una persona scelta a caso nella popolazione, - π che rappresenta in numero di autovetture che giungono in un giorno ad un casello autostradale. Una variabile aleatoria si può anche interpretare come una funzione, per esempio se consideriamo la variabile aleatoria π “somma dei numeri ottenuti nel lancio dei due dadi”, essa si può interpretare come la funzione che associa ad ogni possibile esito del lancio la somma dei due numeri ottenuti. Questa osservazione consente di dare una definizione più formale di variabile aleatoria: Definizione Si chiama variabile aleatoria, una funzione che associa ad ogni possibile esito di un esperimento aleatorio un numero reale. Se Ω è lo spazio campione di un esperimento e π è una variabile aleatoria legata all’esperimento, allora π: Ω βΆ β Esempio Consideriamo l’esperimento che consiste nel lancio di tre monete eque, indichiamo con π il numero di “testa” che si ottiene. Rappresentiamo la variabile aleatoria π. π rappresenta il numero di teste uscite lanciando tre monete, quindi π può assumere solo i valori {0,1,2,3}, lo spazio campione Ω = {(πΆπΆπΆ), (πΆπΆπ), (πΆππΆ), (πΆππ), (ππΆπΆ), (ππΆπ), (πππΆ), (πππ)}, possiamo rappresentare π come segue: π: Ω βΆ {0,1,2,3} (πΆπΆπΆ) βΌ 0 (ππΆπΆ), (πΆππΆ), (πΆπΆπ) βΌ 1 (πππΆ), (πΆππ), (ππΆπ) βΌ 2 (πππ) βΌ 3 Una variabile aleatoria π, che assume un numero finito o numerabile di valori si dice discreta. L’evento: “π assume il valore π₯π ” (che rappresenta un evento essendo la controimmagine di π₯π e quindi un sottoinsieme di Ω), si rappresenta con il simbolo π = π₯π . Possiamo anche calcolare la probabilità di π = π₯π , essa è uguale alla somma delle probabilità degli eventi elementari la cui immagine tramite π è uguale ad π₯π . Esempio: Considerando l’esempio precedente, osserviamo che: 1 - La probabilità che π = 0 è uguale alla probabilità dell’evento elementare πΆπΆπΆ, quindi vale 8. - La probabilità che π = 1 è uguale alla somma delle probabilità degli eventi elementari 3 8 ππΆπΆ, πΆππΆ, πΆπΆπ, quindi vale . - La probabilità che π = 2 è uguale alla somma delle probabilità degli eventi elementari 3 πππΆ, πΆππ, ππΆπ, quindi vale 8. 4 - 1 8 La probabilità che π = 3 è uguale alla probabilità dell’evento elementare πππ, quindi vale . Formalmente scriviamo: 1 3 3 1 π(π = 0) = , π(π = 1) = , π(π = 2) = , π(π = 3) = 8 8 8 8 Supponendo ancora che π sia una variabile aleatoria discreta che assume i valori π₯1, π₯2 , … π₯π , possiamo associare a ciascuno degli eventi, π = π₯1 , … , π = π₯π , la rispettiva probabilità, si definisce così una nuova funzione: Definizione: Sia π una variabile aleatoria discreta che assume i valori π₯1 , π₯2 , … , π₯π rispettive probabilità π1 , π2 , … , ππ ; si chiama distribuzione di probabilità (o densità), della variabile aleatoria π, la funzione che associa a ciascun π₯π la rispettiva probabilità ππ . La distribuzione di probabilità di una variabile aleatoria discreta si rappresenta tramite una tabella: π₯π π₯1 π₯2 … π₯π π(π = π₯π ) π1 π2 … ππ Poiché gli eventi π = π₯π , sono disgiunti si ha che π1 + π2 + β― + ππ = 1. Esempio Riprendendo l’esempio precedente si ha che π₯π 0 1 1 3 π(π = π₯π ) 8 8 2 3 8 3 1 8 C’è una certa similitudine tra il concetto di distribuzione di probabilità e quello di distribuzione di frequenze relative in statistica, la similitudine continua anche nella definizione di concetti di media, varianza, scarto quadratico medio. Definizioni: Sia π una variabile aleatoria discreta che assume i valori π₯1 , π₯2 , … , π₯π , con probabilità rispettive π1 , π2 , … , ππ . a) Si chiama media (o valore atteso), della variabile aleatoria π, e si indica con πΈ(π), o con la lettera π, il numero: π = πΈ(π) = π₯1 π1 + β― + π₯π ππ b) Si definisce varianza di π, e si indica con il simbolo π(π) o con il simbolo π 2 , il numero così definito 2 2 π 2 = π(π) = (π₯1 − πΈ(π)) ⋅ π1 + β― + (π₯π − πΈ(π)) ⋅ ππ c) Si definisce scarto quadratico medio (o deviazione standard) di π, e si indica con il simbolo π, la radice quadrata della varianza, π = √π 2 . Esempio Calcola media, varianza, scarto quadratico medio dell’esempio precedentemente studiato. (quante teste lanciando tre monete). 5 VARIABILI ALEATORIE CONTINUE Esistono parecchi fenomeni reali per la cui descrizione le variabili aleatorie discrete non sono adatte. Per esempio è necessaria una variabile aleatoria continua (ovvero una variabile che può assumere tutti i valori reali in un dato intervallo), per descrivere il tempo di vita di un apparecchio soggetto a guasti casuali, o per descrivere il gioco del lancio delle freccette. Inoltre facendo ad esempio riferimento al lancio delle freccette, è inutile chiedersi la probabilità che la freccetta colpisca esattamente un punto sul disco, ma ha più senso cercare di capire la probabilità che la freccetta colpisca una zona ben definita del disco. Si è dunque interessati alla probabilità non di eventi rappresentati da singoli punti ma di eventi rappresentati da intervalli. Proprio per questo una variabile aleatoria π è definita assegnando una funzione che permette di calcolare la probabilità che π assumi valori in un qualsivoglia intervallo. Definizione Una variabile aleatoria continua π, viene definita assegnando una funzione π, detta densità (di probabilità) di π, che soddisfi le seguenti proprietà: - π(π₯) ≥ 0 per ogni π₯ ∈ β, +∞ ∫−∞ π(π₯)ππ₯ = 1 La probabilità che π assuma valori in un determinato intervallo πΌ è data dall’integrale della sua densità sull’intervallo πΌ. - Osservazioni: a) Se l’intervallo πΌ = [π, π] si riduce ad un punto, cioè se π = π, risulta che: π π π(π ∈ πΌ) = ∫ π(π₯)ππ₯ π π(π = π) = ∫ π(π₯)ππ₯ = 0 π π Perciò se π è una variabile aleatoria continua, la probabilità che essa assuma un qualsivoglia valore reale prefissato è sempre nulla. b) Data la densità di probabilità π di una variabile aleatoria continua π, il valore π(π) da essa assunto quando π₯ = π, NON ha (come accada nel caso discreto) il significato di probabilità dell’evento π = π, infatti questa probabilità è sempre uguale a zero, mentre il valore assunto da π in π, in generale è un numero positivo. Diamo ora alcune definizioni che riprendiamo dal caso discreto: Definizioni: Data una variabile aleatoria continua π, di densità π, - si dice media o valore atteso di π e si indica con il simbolo πΈ(π) (o con la lettera π), il numero se esiste, così definito +∞ π = πΈ(π) = ∫ π₯π(π₯)ππ₯ −∞ - si dice varianza di πe si indica con il simbolo π(π), o con π 2 , il numero, se esiste, così definito +∞ π 2 = π(π) = ∫ (π₯ − π)2 π(π₯)ππ₯ −∞ - si definisce deviazione standard di π (e si indica con il simbolo π) la radice quadrata della varianza π = √π(π₯) Definizione Sia una variabile aleatoria continua π, avente come densità la funzione π, si chiama funzione di ripartizione di π la funzione che, per ogni π₯ ∈ β, è così definita: π₯ πΉ(π₯) = π(π ≤ π₯) = ∫ π(π‘)ππ‘ −∞ 6 Esistono diverse funzioni notevoli di densità di probabilità : - uniforme, - binomiale - Poisson - Gauss, Concentreremo la nostra attenzione in modo particolare sull’ultima. 7 8.3 Distribuzione normale (o di Gauss) La funzione di densità di questa particolare distribuzione è data da: (π₯−π)2 1 − π(π₯) = π 2π2 ∀π₯ ∈β √2ππ Con π e π rispettivamente valor medio e deviazione standard di una variabile aleatoria continua (v.a.c.) π. Cerchiamo di capire l’andamento di π(π₯) e andiamo a studiarla. - Dominio π = β - Segno π(π₯) > 0 ∀ π₯ ∈ β, è simmetrica rispetto alla retta π₯ = π. - Limiti agli estremi del dominio: 2 lim π(π₯) = lim π −π‘ = 0 π₯⦱∞ π‘⦱∞ La retta π¦ = 0 è asintoto orizzontale. - Crescenza e decrescenza: π ′ (π₯) = (π₯−π)2 1 − π 2π2 √2ππ 2 ⋅ (− 2π2 (π₯ − π)) ≥ 0 ⇔ π₯ ≤ π Si ha che π₯ = π è punto di massimo, e il massimo vale π(π) = - Concavità e convessità: π Se e solo se (π₯−π)2 π2 ′′ (π₯) (π₯−π)2 = 1 − π 2π2 √2ππ 1 ⋅ (− π2 + 1 2ππ √ (π₯−π)2 π4 )≥0 − 1 ≥ 0 ⇔ (π₯ − π)2 ≥ π 2 ⇔ π₯ ≤ −π + π ∧ π₯ ≥ π + π π₯ = π − π e π₯ = π + π sono punti di flesso. Il flesso vale: π(π + π) = 1 1 − 2. π √2ππ Esempi di caratteristiche che si distribuiscono normalmente. i. Errori di misurazione di una grandezza fisica ii. Peso e altezza di una popolazione omogenea. iii. Dimensioni di oggetti prodotti in serie. π₯ La probabilità π(π ≤ π₯) = πΉ(π₯) = ∫−∞ (π₯−π)2 1 − π 2π2 √2ππ si calcola utilizzando varie tabelle dove è riportato il valore della DISTRIBUZIONI NORMALE STANDARD. Sia π una v.a.c. con media π e scarto quadratico π, allora diremo che π ∈ π©(π, π). 8 2 π₯ 1 π− 2 √2π Definizione Sia π una v.a.c. con π ∈ π©(0,1), funzione di densità π(π₯) = πΉ(π₯) = π(π ≤ π₯) = π₯ ∫−∞ π(π‘)ππ‘ , la funzione di partizione associata ad π è detta distribuzione normale standard. 2 π(π₯) è una funzione pari e solitamente si indica con π(π₯) = π(π ≤ π₯) = π‘ π₯ 1 − 2 ππ‘. π ∫ √2π −∞ REGOLE GENERALE: i. π(π ≤ π₯) = π(π₯) ii. π(π > π₯) = 1 − π(π₯) iii. π(π ≤ −π₯) = π(−π₯) = 1 − π(π₯) iv. π(−π₯ ≤ π ≤ π₯) = π(π₯) − π(−π₯) = π(π₯) − (1 − π(π₯)) = 2π(π₯) − 1 = 1 − 2π(−π₯) = 1 − 2(1 − π(π₯)) = 1 − 2 + 2π(π₯) = 2π(π₯) − 1 Dalle tavole si ottiene che : - 1 π(π ≤ 0) = 2 - π(−1 ≤ π ≤ 1) = 2π(1) − 1 ≅ 0.6827 - π(−2 ≤ π ≤ 2) ≅ 0.9545 - π(−3 ≤ π ≤ 3) ≅ 0.9973 Come facciamo però se π non è standard? Dobbiamo trovare un modo per renderla standard!!! STANDARIZZAZIONE DI UNA VARIABILE ALEATORIA CONTINUA Se π è una variabile aleatoria continua con π ∈ π©(π, π), allora π = π−π π è una v.a.c. con π ∈ π©(0,1) che si chiama standarizzazione di π. Dunque: π−π π₯−π π₯−π π₯−π π(π ≤ π₯) = π ( ≤ ) = π (π ≤ ) = π( ) π π π π Quindi qualsiasi sia la v.a.c. che considero, grazie alla standarizzazione riesco a leggere la probabilità che mi interessa. Da quanto detto precedentemente - π(π − π ≤ π ≤ π + π) = π(−1 ≤ π ≤ 1) ≅ 0.6827 - π(π − 2π ≤ π ≤ π + 2π) = π(−2 ≤ π ≤ 2) ≅ 0.9545 - π(π − 3π ≤ π ≤ π + 3π) = π(−3 ≤ π ≤ 3) ≅ 0.9973 Esercizio (uso della tabella) Il livello di glucosio a digiuno in un gruppo di pazienti non diabetici si distribuisce normalmente con π = 98 ππ/100 ππ e π = 8 ππ/100ππ. Determinare: a) π(π < 82 ππ/100 ππ) b) π(90 ≤ π ≤ 106 ππ/100ππ) c) π(π > 116 ππ/100 ππ) SVOLGIMENTO π ∈ π©(98,8) utilizzando la sua standardizzazione π otteniamo: a) π(π < 82ππ/100 ππ) = π (π < 82−98 ) 8 = π(π < −2) = π(−2) = 1 − π(2) = 1 − 0.9772 = 0.0228 = 2,28 % 90−98 106−98 ≤π≤ ) = π(−1 ≤ π ≤ 1) ≅ 8 8 116−98 ) = π(π > 2,25) = 1 − π(π < 2,25) 8 b) π(90 ≤ π ≤ 106) = π ( 68,26% c) π(π > 116) = π (π > = 1 − π(2,25) = 1 − 0,9878 9 ≅ 1,22%. Teorema (del limite centrale) Siano π1 , π2 , … , ππ variabili aleatorie indipendenti, aventi tutte la stessa distribuzione di probabilità, (quindi stessa media π e stessa varianza π 2 ). Allora lim π ( πβ¦+∞ π−π π ≤ π₯) = π(π©(0,1) ≤ π₯) √π Qual è il suo significato? In sostanza possiamo approssimare le media di π1 , π2 , … , ππ con una variabile normale avente la media comune π e la varianza π2 . π Questo teorema ci porta a formulare delle stime attraverso gli intervalli di confidenza. INTERVALLI DI CONFIDENZA. Sia π una caratteristica di una popolazione π che vogliamo studiare. Supponiamo che π sia normalmente distribuita con media π e varianza π 2 , di cui non siamo sempre a conoscenza. Estraiamo un campione casuale di π elementi di π, siano π₯1 , π₯2 , … , π₯π i valori di π per gli elementi del campione. Possiamo pensare di avere π1 , π2 , … , ππ v.a.c. del tipo π©(π, π 2 ) e che π₯1 , π₯2 , … , π₯π siano i valori assunti da π1 , π2 , … , ππ dopo aver svolto l’esperimento. Sia π = π1 +π2 +β―+ππ π la media campionaria. Per il teorema del limite centrale π−π π √π ossia per π β« 0 si ha che π ~ π©(π, → πβ¦+∞ π©(0,1), π2 ) π Possiamo usare queste informazioni per ottenere stime di tipo probabilistico per la media π: Scegliamo una probabilità π ∈ (0,1), possiamo costruire un intervallo (π1 , π2 ), detto intervallo di confidenza tale che π(π ∈ (π1 , π2 )) = π. Esempio Sia π una v.a.c con π©(π, π 2 ) con π 2 = 9. Da un campione casuale di 5 elementi della popolazione π si ottiene π₯ = 61. Determinare intervallo (π1 , π2 ) tale che la π(π ∈ (π1 , π2 )) = 95% Lo scopo è quindi quello di determinare un intervallo di confidenza al 95% per π. Sto quindi cercando π una v.a.c. del tipo π©(0,1) tale che π(−π§ ≤ π ≤ π§) = 0,95. Determinato π, finalmente posso trovare la media π sfruttando la relazione π = π−π π √π . Ora: π(−π§ ≤ π ≤ π§) = 0.95 ma π(−π§ ≤ π ≤ π§) = 2π(π < π§) − 1 quindi 2π(π < π§) − 1 = 0,95 ⇒ π(π < π§) = 0,95 + 1 = 0,9750 2 Cerco 0,9750 nella tabella e vedo che corrisponde a π§ = 1,96. Otteniamo dunque −1,96 < π§ < 1,96 ch3e per il teorema del limite centrale −1,96 < π−π π < 1,96 √π 10 Sviluppando i conti: −1,96 ⋅ π √π < π − π < 1,96 ⋅ π √π π −1,96 ⋅ − π < −π < 1,96 ⋅ −π √π √π π π π − 1,96 ⋅ < π < π + 1,96 ⋅ √π √π π Sostituiamo con i valori di cui siamo a conoscenza e otteniamo: 61 − 1,96 ⋅ 3 √5 < π < 61 + 1,96 ⋅ 3 √5 58,37 < π < 63,63 Si ha che al 95% π ∈ (58,37; 63,63). Osservazione: all’aumentare di π aumenta l’ampiezza dell’intervallo (π1 ; π2 ). Infatti considerando π(π ∈ (π1 , π2 )) = 0,98 si ha che: 0,98 + 1 π(−π§ ≤ π ≤ π§) = 0.98 ⇒ 2π(π < π§) − 1 = 0,98 ⇒ π(π < π§) = = 0,9898 2 π§ = 2,32 (valore cercato nella tabella) π − 2,32 ⋅ 61 − 2,32 ⋅ 3 √5 π √π < π < π + 2,32 ⋅ < π < 61 + 2,32 ⋅ 57,89 < π < 64,11 Quindi π ∈ (57,89; 64,11) al 98%. 11 3 √5 π √π