INTRODUZIONE STATISTICA: METODO DI INDAGINE SU FENOMENI COLLETTIVI O POPOLAZIONI OBIETTIVO OTTENERE DATI NUMERICI CHE, OPPORTUNAMENTE ELABORATI, PERMETTONO DI: - METTERE IN EVIDENZA REGOLARITÀ NASCOSTE -TRARNE DELLE CONCLUSIONI -PRENDERE DELLE DECISIONI 1 POPOLAZIONE 2 CAMPIONE Con il termine di popolazione lo statistico non si riferisce solo a popolazioni di persone ma si riferisce a qualsiasi collezione di dati relativi al fenomeno oggetto di studio. È un concetto generale per cui si può parlare di popolazioni di altezze, di malattie, di registri ecc. Finita: abitanti del comune di Roma o indefinita: infinita (come i possibili lanci di moneta) o non si è in grado di enumerare (i possibili malati di una certa malattia) 3 Spesso per esigenze varie (costi, tempo, strutture ecc.) o perché la popolazione è infinita si procede alla rilevazione di parte della popolazione detto campione. Il campione verrà scelto in modo tale che sia il più rappresentativo possibile della popolazione, con lo scopo di estendere all'intera collettività i risultati ottenuti dal campione (vedi inferenza e metodi di campionamento). 4 1 Studiando le caratteristiche della popolazione si possono formulare delle leggi che permettono di individuare un campione rappresentativo della popolazione stessa. STATISTICA DEDUTTIVA O DESCRITTIVA e STATISTICA INDUTTIVA O INFERENZA STATISTICA STATISTICA DESCRITTIVA Offre gli strumenti per la raccolta e la presentazione di dati numerici. POPOLAZIONE CAMPIONE Scopo della statistica descrittiva è quello di: - raccogliere le informazioni - ordinarle - sintetizzarle (per poterle riferire in forma sintetica).5 INFERENZA STATISTICA 6 STATISTICA Quando non si conoscono le caratteristiche della popolazione, attraverso l'inferenza statistica, si stimano i parametri della popolazione dal campione, in termini probabilistici, purché le stime ottenute dal campione differiscano dai parametri della popolazione solo per ragioni di casualità. DESCRITTIVA descrivere, sintetizzare, commentare, i dati rilevati: – della popolazione POPOLAZIONE CAMPIONE 7 – del campione: indagine esplorativa INFERENZIALE utilizzare i dati rilevati del campione per fare stime e previsioni sulla popolazione in termini probabilistici 8 2 Le basi della statistica sono: Variabilità La statistica in medicina Calcolo della probabilità I motivi per i quali è necessario uno studio della statistica sono essenzialmente 3. 1- La medicina diviene sempre più quantitativa. 2 - Fare ricerca: La programmazione, l'esecuzione e l'interpretazione di molte ricerche mediche si basano sempre più sulla metodologia statistica. 9 È importante un corretto approccio statistico in quanto, come riferito da una recente indagine americana, oltre il 70% delle ricerche sottoposte a prestigiose riviste presentavano errori metodologici e pertanto le conclusioni non potevano ritenersi valide. 3 - Interpretare la letteratura medica. 10 IPOTESI DI LAVORO Affermazione che, in particolari condizioni, si ottengono certi risultati. È necessario formularla prima di iniziare una indagine statistica. Per leggere gli articoli di una rivista scientifica in modo intelligente e valutare i risultati ottenuti, si deve avere una certa conoscenza della statistica. 11 12 3 CARATTERE PROGRAMMAZIONE Uno degli aspetti, tra più alternative, in base al quale le unità statistiche possono essere osservate. Si distinguono in: L'indagine deve essere dettagliatamente programmata, decidere il modello di rilevazione (anche se successivamente rivedibile), la codifica dei dati e soprattutto quali caratteri della collettività dovranno essere rilevati. Qualitativi - Mutabile: Attributo dell'oggetto di rilevazione che si può manifestare in varie modalità (Es. sesso due modalità: maschio e femmina; titolo di studio cinque modalità, etc.) Quantitativi -Variabile: Intensità di grandezza misurabile o numerabile (numero) continua o discreta (peso, altezza, numero dei figli etc.). 13 FASI DELL'INDAGINE STATISTICA 14 I dati rilevati sono dati grezzi. Devono essere successivamente controllati e catalogati. 1) RILEVAZIONE (o raccolta): Totale (censimento) o parziale (campione); 2) CONTROLLO -Dati mancanti, compatibilità, congruità, ecc.. 3) SPOGLIO (o classificazione) e successiva presentazione dei dati in tabelle e/o grafici; In fase di rilevazione accertarsi che i dati rilevati siano: - attendibili (precauzioni, giuste fonti); - rappresentativi (metodi di campionamento); 4) ELABORAZIONE: ottenimento di opportuni indici sintetici (medie, variabilità ecc.); - riproducibili (dettagliati). 5) INTERPRETAZIONE E VALUTAZIONE dei risultati. 15 16 4 Esempio di inserimento dati codificato nel calcolatore con il programma Excel. Record = l’insieme di notizie di ogni intervistato; Campo = ciascun gruppo di informazioni (n. figli). 17 Data base e classificazioni numero scheda 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 stato civile N S V V C N C C V N N N S C N C V S C C grado di numero di scolarità figli L 0 O 1 A 3 O 4 L 1 S 1 S 0 O 2 L 3 O 0 S 1 A 0 S 1 S 4 S 3 L 0 O 2 O 2 S 4 S 4 peso in Kg. 72.50 54.28 50.02 88.88 62.30 45.22 57.50 78.40 75.12 58.00 53.70 91.29 74.70 41.22 65.20 63.58 48.27 52.52 69.50 85.98 18 Stato civile Xi Yi C 7 N 6 S 3 V 4 Tabella a doppia entrata Frequency Table for stato civile by figli 0 Scolarità Xi A O S L C Yi 2 6 8 4 N S N. figli Xi 0 1 2 3 4 Yi 5 5 3 3 4 V tot. col. 19 1 2 3 4 Tot. righe 2 1 1 0 3 28.57% 14.29% 14.29% 0.00% 42.86% 40.00% 20.00% 33.33% 0.00% 75.00% 3 2 0 1 0 50.00% 33.33% 0.00% 16.67% 0.00% 60.00% 40.00% 0.00% 33.33% 0.00% 0 2 1 0.00% 66.67% 33.33% 0.00% 0.00% 0.00% 40.00% 33.33% 0.00%| 0 0.00% 0 0 0 1 2 1 0.00% 0.00% 25.00% 50.00% 25.00% 0.00% 0.00% 33.33% 66.67% 25.00% 5 5 3 3 4 25.00% 25.00% 15.00% 15.00% 20.00% 7 35.00% 6 figli 0 1 2 3 4 3 30.00% 2 3 15.00% 1 4 0 20.00% C N S V 20 100.00% 20 5 SERIE RAPPRESENTAZIONE DEI DATI Quando il carattere è qualitativo una tabella semplice ha a sinistra una mutabile, ossia un elenco di modalità (modi di essere) o attributi e a destra le frequenze (numero delle volte in cui si presenta l’attributo corrispondente). Tabelle e Grafici TABELLE Tabella 1 - Mortalità in Italia di maschi per grandi gruppi di cause - Anno 2002 Prospetti per la presentazione dei dati dopo il riordino eseguito attraverso lo spoglio. Schema Due tipi: Xi Yi modalità o frequenze attributo qualitativo SERIE SERIAZIONI Fonte ISTA 22T 21 I caratteri qualitativi si distinguono in Tabella 1 bis - Mortalità in Italia di femmine per grandi gruppi di cause - Anno 2002 SCONNESSI ORDINABILI I caratteri sono sconnessi (stato civile, religione, tempo libero) quando, come nell’esempio precedente, le modalità non hanno alcun ordine di successione. Sono ordinabili: (Reddito - basso, medio alto; Dolore – nessuno, lieve, forte), quando possono essere ordinati secondo una graduatoria. Fonte ISTA T 23 Forniscono informazioni su quali unità sono minori, uguali o maggiori, ma non di quanto (informazione delle variabili). 24 6 SERIAZIONE o DISTRIBUZIONE DI FREQUENZA SERIAZIONE Esempio di tabella con carattere quantitativo discreto: Quando il carattere è quantitativo una tabella semplice ha a sinistra le intensità di una variabile (dati numerici che rappresentano una grandezza misurabile o numerabile) e a destra le frequenze (numero delle volte in cui si presenta l’intensità corrispondente). Le osservazioni quantitative si distinguono in: DISCRETE: la variabile può assumere solo valori interi (n. figli, stanze, lesioni, etc.). CONTINUE: la variabile può assumere qualsiasi valore compreso entro un certo intervallo (es. pressione arteriosa, età, temperatura, etc.). Tab. 2 - Numero di maschi in famiglie di 8 figli. Schema Xi variabile ordinamento quantitativo Yi frequenze Numero di maschi 0 1 2 3 4 5 6 7 8 Totale Frequenze 161 1.152 3.951 7.603 10.263 8.498 4.984 1.165 264 38.041 25 CLASSI 26 Non ci sono regole precise; come regola generale si consideri che meno di 5 intervalli sono pochi e più di 20 sono troppi. Gli intervalli in cui è suddivisa una variabile di una distribuzione di frequenza. Nella rilevazione di variabile continua, in caso di incertezza, fare intervalli di classe abbastanza piccoli per riunirli successivamente nella maniera più opportuna. Nelle osservazioni discrete i dati si possono raggruppare in classi per esigenza di sintesi; Possibilmente ampiezza di classe sempre uguale con deroga di classi aperte all'inizio o alla fine (es. fino a 14 anni, oltre 70 anni); nelle osservazioni continue i dati si devono raggruppare in classi. La determinazione dell'ampiezza della classe e quindi del numero di intervalli dipende dal tipo di studio che si sta svolgendo. per successive valutazioni il dato, iniziale o finale mancante, deve comunque essere stimato. 27 28 7 Esempi di distribuzioni di frequenza con intervalli di classe Ta b. 3 VARIABILE DISCRETA N. le sioni da virus de l va iolo su m e m bra ne ovula ri N. le sioni 0 - 10 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 70 - 80 80 - 90 90 - 100 100 - 110 110 - 120 Tota le Fre que nze 1 6 14 14 17 8 9 3 6 1 0 1 80 GRAFICI Le rappresentazioni grafiche rappresentano un utilissimo strumento di sintesi con la visualizzazione globale del fenomeno. Consentono il confronto tra più distribuzioni tramite diversa colorazione o diverso tratteggio. aperta a destra aperta a sinistra Ta b. 4 VARIABILE CONTINUA Età di 1357 m a schi con tum ore a l polm one Età 25 - 35 35 - 45 45 - 55 55 - 65 65 - 75 Tota le Fre que nze 17 116 493 545 186 29 1357 Sono di molti tipi, previsti anche da appositi programmi di computer. La rappresentazione grafica deve essere: - adatta - di facile interpretazione. 30 Il grafico riportato (dalla tab. 1) è un diagramma a barre orizzontali (o a nastro). Utile quando si vogliono rappresentare dati qualitativi con descrizioni molto lunghe. Qualche esempio di Mortalità in Italia di maschi per grandi gruppi di cause - Anno 2002 Tumori (140-239) SERIE 94 139 Diabete mellito (250) 7 034 Malattie del sistema nervoso (320-389) 6 100 Malattie del sistema circolatorio (390-459) 106 615 Malattie dell'apparato respiratorio (460-519) 19 763 Malattie dell'apparato digerente (520-579) 12 611 Cause accidentali e violente (800-999) 15 406 Altre cause 31 16 460 0 20 000 40 000 60 000 80 000 100 000 120 000 32 8 Dalla tabella 1 bis. - Mortalità in Italia di femmine per Diagramma circolare grandi gruppi di cause - Anno 2002 Tumori (140-239) 70 696 Diabete mellito (250) 10 223 Malattie del sistema nervoso (320-389) 8 002 Malattie del sistema circolatorio (390-459) 129 916 Malattie dell'apparato respiratorio (460-519) 14 473 Malattie dell'apparato digerente (520-579) 12 119 Cause accidentali e violente (800-999) 10 827 Altre cause 21 554 0 20 000 40 000 60 000 80 000 100 000 120 000 140 000 33 Il Diagramma circolare è adatto quando non vi sono troppi settori. Si possono agevolmente evidenziare valori o percentuali. 35 Adatto insieme a tabella: troppi settori 34 Esempio di rappresentazione grafica di serie geografica 36 9 Rappresentazione grafica di una variabile quantitativa discreta con diagramma a barre verticali (dati della tab. 2) Qualche esempio di SERIAZIONE 37 ISTOGRAMMA Per disegnare un corretto istogramma, avendo una tabella con intervalli di classe diversi, si deve calcolare la densità di frequenza Lesioni da virus vaiolo Variabile discreta (tab. 3) 38 20 15 10 5 0 5 25 45 65 85 105 Maschi con tumore al polmone Variabile continua (tab. 4) 600 545 493 500 400 300 L’istogramma costruito con il programma Excel non è sempre soddisfacente. 186 200 100 116 17 0 30 40 50 60 70 39 La densità di frequenza (d. f.) è uguale alla frequenza diviso l’ampiezza di classe. 40 10 Tab. 3 VARIABILE DISCRETA N. lesioni da virus del vaiolo su membrane ovulari Diverso intervallo di classe: Tab. 3 VARIABILE DISCRETA N. lesioni da virus del vaiolo su membrane ovulari N. lesioni 0 - 10 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 90 90 - 100 100 - 110 110 - 120 Frequenze 1 6 14 14 17 8 18 1 0 1 NO O.K 41 N. lesioni 0 - 10 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 70 - 80 80 - 90 90 - 100 100 - 110 110 - 120 Totale Frequenze 1 6 14 14 17 8 9 3 6 1 0 1 80 Tab. 3a N. lesioni Frequenze 0 - 20 7 20 - 40 28 40 - 60 25 60 - 80 12 80 - 100 7 100 - 120 1 Totale 80 Lesioni da virus vaiolo 20 15 10 5 0 5 25 45 65 85 105 Tab. 3a 30 25 20 15 10 5 0 10 30 50 70 90 110 42 CONCETTO DI MEDIA Scelta di una media Quando si rilevano dati statistici, si dispone di un complesso di informazioni che dovranno essere elaborate per soddisfare l'esigenza di sintesi propria della statistica. La scelta di una media dipende dal tipo di dati dell’ indagine statistica e viene fatta in modo che si possa sostituire il valore medio ai singoli termini senza modificare la fisionomia del fenomeno di cui si tratta. La media sintetizza con un unico valore l'insieme dei dati tendendo ad assumerne il valore centrale. Si distinguono 2 tipi di medie: Per questo motivo le medie vengono definite anche con il termine di valore di tendenza centrale. - medie lasche o di posizione. - medie calcolate 43 44 11 MEDIE LASCHE O DI POSIZIONE MEDIE CALCOLATE Sono quelle medie per il cui calcolo si utilizzano tutti i valori rilevati Sono quelle medie il cui valore si ottiene da uno o al massimo due valori dell'insieme: - media aritmetica - mediana - media geometrica - moda - media armonica ecc. 45 MEDIA ARITMETICA È la media maggiormente utilizzata e conosciuta. È data dalla somma dei valori delle osservazioni diviso per il loro numero. Si usa la Ma quando, date n quantità xi, interessa avere quel valore che sostituito ai singoli valori rende invariata la somma: x1 + x2 + .... + x n = Ma + Ma + .... + Ma Esempio: calcolo di media delle pulsazioni cardiache di 3 pazienti: N. Pulsazioni 65 75 100 240 X1 + X2 + .... + X n = nMa ΣXi = nMa Per consuetudine viene usato il simbolo x per intendere la Ma del campione e con μ la Ma della popolazione. Xi n volte quindi : ΣXi da cui: Ma = --------n 46 47 x= 65 + 75 + 100 = 80 3 48 12 Qualora i valori osservati fossero comuni a più pazienti, sarebbe più opportuna la rappresentazione in tabella ed il calcolo sarebbe: Distribuzione di frequenza del n. di pulsazioni cardiache in 10 pazienti Classi di età Frequenza Valore centrale Xi N. Pulsazioni frequenze Xi Yi 65 75 100 Quando si ha una distribuzione di frequenza con intervalli di classe, per il calcolo della media occorre dapprima calcolare il valore centrale dell'intervallo, supponendo l’equidistribuzione dei valori all’interno di ogni classe. X iY i 2 6 2 Σ Yi = 10 130 450 200 Σ XiYi = 780 X= ∑ XY ∑Y i 20 30 40 50 60 i i - 30 40 50 60 70 Yi Xc i 10 30 30 20 10 Σ Yi = 100 250 1050 1350 1100 650 X= ∑X Y ∑Y ci i i Σ X iYi = 4400 4400 780 Media aritmetica = X i Yi 25 35 45 55 65 Media aritmetica = = 78 10 49 Proprietà della Media aritmetica 1) La somma delle differenze della media aritmetica dai singoli valori (scarti) è uguale a zero; 2) La somma dei quadrati degli scarti è uguale ad un minimo; 3) Per calcolare la media aritmetica di medie si deve tener conto della frequenza di ogni media (media ponderata); 4) Se ad ogni valore si somma (-) o si moltiplica (/) una costante (k), la x avrà il valore precedente + (-) o x (:) la costante (k). In particolare notare che: ΣkXi = kΣXi. = 44 100 50 I proprietà: notare che la somma delle differenze è uguale alla differenza delle somme II proprietà: A=M±d Σ((Xi - M) ± d)2 = = Σ(Xi - M)2 + nd2 17 = 14 + (3 x 12) 26 = 14 + (3 x 22) 51 52 13 IV proprietà della media aritmetica III proprietà della media aritmetica k=4 Uno studio in collaborazione tra due istituti sul colesterolo fornisce i seguenti risultati: Xi Xi - k 5 - 4 = 1 10 - 4 = 6 15 - 4 = 11 5 10 15 I istituto su 15 pazienti x = 150 Σ Xi = 30 M = 30/3 = 10 II istituto su 25 pazienti x = 200 Σ(Xi - k) = 18 M = 18/3 = 6 (6 = 10 - 4) Qual è la media complessiva del colesterolo? Sarebbe sbagliato fare (150 + 200)/2 = 175 Xi + k 5+ 4= 9 10 + 4 = 14 15 + 4 = 19 Si deve fare la media ponderata: (150 x 15) + (200 x 25) 25 + 15 = 2250 + 5000 = 181.25 40 Σ(Xi + k) = 42 53 MEDIA GEOMETRICA E' data dalla radice n-esima del prodotto dei valori delle osservazioni. In altri termini è quel valore che sostituito ai singoli valori rende invariato il prodotto: X1 x X2 x.... x X n = Mg x Mg x. ... x Mg Mg = n ∏ xi k x Xi 5 x 4 = 20 10 x 4 = 40 15 x 4 = 60 M = 42/3 = 14 (14 = 10 + 4) Σ kXi = 120 M = 120/3 = 40 = kΣ Xi (40 = 10 x 4) 54 Non può essere usata se uno dei valori è uguale a zero o è negativo. Si usa la media geometrica quando si hanno valori che seguono una distribuzione geometrica. Ad esempio la media aritmetica di 10, 100, 1000 è 1110/3 = 370, troppo spostata verso il valore maggiore; log Mg = (1+2+3)/3; (Mg = 102 = 100). n volte In casi simili la media geometrica è la più adatta ad assumere il valore centrale della distribuzione poiché il suo valore si ottiene dalla media aritmetica dei logaritmi i quali rendono costante l'incremento della progressione geometrica. Σ log X i Log Mg = ------------ da cui: Mg = base^ logMg n 55 56 14 Viene spesso usata nelle ricerche di microbiologia e di sierologia ove le grandezze biologiche sono ottenute dopo diluizioni costanti. È anche usata come media per gli indici relativi, in quanto la media aritmetica tende a dare maggior peso agli incrementi piuttosto che alle diminuizioni: Esempio: t0 = 100 t1 = 200 t2 = 250 200 − 100 ⋅ 100 = 100 100 250 − 200 II incremento% = ⋅ 100 = 25 200 I incremento% = Scala Scala decimale logaritmica x = (100 + 25) / 2 = 62.5 Mg = 100 ⋅ 25 = 50 57 MEDIA ARMONICA 58 Relazioni tra medie calcolate È data dal reciproco della media aritmetica dei reciproci dei valori Tra le medie aritmetica, geometrica e armonica, calcolate su una stessa serie di misure, esiste la relazione: Minimo ≤ M ar ≤ M g ≤ x ≤ Massimo Non può essere usata se uno dei valori è uguale a zero. Essendo basata sui reciproci, i valori maggiori incidono in misura minore. (principio di Cauchy) 59 60 15 MEDIANA Esempio di calcolo della mediana in distribuzione semplice: Se le osservazioni sono in ordine (crescente o decrescente), la mediana è il valore (o la modalità) che occupa la posizione centrale. Per i dati quantitativi: non risente dei valori di squilibrio in testa o in coda. N pari N dispari N N N+1 Posizioni: ---e ---+1 Posizione: --------2 2 2 Me = X (N + 1 ) /2 X N/2 + X (N/2) + 1 Me = -------------------2 Yi% Cum. 0.4232 3.4515 13.8377 33.8240 60.8028 83.1419 96.2435 99.3060 100.0000 2 5 18 24 4 9 12 18 24 1 7 8 9 2 3 12 4 2 5 5 6 18 24 4 9 3 13 9 12 13 18 24 3 N = 9 dispari Me = x 9 +1 = x 5 = 7 2 N = 10 pari x 10 + x 10 i dati ordinati: 2 3 Mediana 4 = 5 X 7 5+ X6 = 2 61 Tab. 2. Numero di maschi in famiglie di 8 figli. Yi/N Yi Cumulate 0.004232 161 0.030283 1313 0.103862 5264 0.199863 12867 0.269788 23130 0.223391 31628 0.131017 36612 0.030625 37777 0.006940 38041 1 12 Si ordinano i dati: 2 3 4 5 7 9 7 Frequenza relativa e Frequenza relativa percentuale cumulata Frequenza relativa La frequenza relativa è il rapporto tra la frequenza ed il totale delle osservazioni: Yi/N Numero di maschi Frequenze 0 161 1 1152 2 3951 3 7603 4 10263 5 8498 6 4984 7 1165 8 264 38041 7 Me = 2 2 2 +1 = 7+9 =8 2 7+ 9= 8 2 62 Esempio di calcolo della mediana in distribuzione di frequenza: Xi Yi 5 7 10 12 13 Y i Cum 7 3 4 5 1 20 7 10 14 19 20 Y i % Cum 35 50 70 95 100 N = 20 pari Me = x10 + x11 7 + 10 = = 8.5 2 2 Σ(Yi / N) = 1 La frequenza cumulata percentuale è la percentuale delle osservazioni che si hanno fino al valore considerato. 63 64 16 Mediana - Distribuzioni di frequenza in intervalli di classe Proprietà della mediana: Σ|Xi - Mediana| = minimo Classi di età Considerando le distanze dei seguenti ospedali, su un’unica strada, decidere a quale distanza media è opportuno fare un centro di raccolta sangue, utilizzabile da tutti i 5 ospedali, prevedendo che ognuno ricorra ad esso 1 volta al giorno. Ospedale A B C D E somma km. 32 68 10 130 90 330 Frequenza Freq. Cumulata Xi 20 30 40 50 60 - 30 - 40 - 50 - 60 - 70 Yi cum Yi 10 25 30 10 5 Freq. Cum % Yi % cum 10 35 65 75 80 12.5 43.75 81.25 93.75 100 80 Per calcolare un unico valore di mediana : La migliore distanza non è di 66 km. bensì 10 Li + 32 Amp.classe × (freq.50% − freq. cum. classe prec.) frequenza 68 Me = 40 + 90 130 10 × (40 − 35) = 41.67 30 La classe mediana è in corrispondenza alla posizione N/2. La classe che si trova in corrispondenza di N/2 = = 80/2 = 40 è: 40 - 50. Li = 40 Amp. Classe =50 - 40 =10 frequenza = 30 freq.50% = 40 freq. cum. classe prec. = 35 65 Grafico dell’istogramma delle frequenze cumulate con ogiva. Mediana in corrispondenza del 50% delle osservazioni. 66 I QUANTILI Il quantile, come la mediana, ripartisce la graduatoria in modo da lasciare una certa quantità di termini alla sua sinistra e la restante quantità alla sua destra: decili, percentili, quartili. Il 25°, il 50°, il 75° percentile è anche detto, rispettivamente: I, II, e III quartile. Il 50° percentile (II quartile) corrisponde alla mediana. Utili per descrivere la forma di una distribuzione asimmetrica (vedi diagrammi a scatola e baffi). 67 68 17 Box-and-Whisker Plot 80 TNF 60 40 20 0 1 2 INTERVENTO 69 PRETERMINO.-Todo recién nacido antes de la semana 37 de gestación. DE TERMINO.-Los recién nacidos entre las semanas 37 y 42 de gestación. POSTERMINO.-Recién nacido después de 42 semanas de gestación. CON RESPECTO A SU PESO AL NACER: PEQUEÑO.- Con peso por debajo de la percentila 10, correspondiente a su edad gestacional. APROPIADO O ADECUADO.-Cuyo peso sepeso se localiza entre las percentilas 10 y 90 correspondientes a su edad gestacional. . Adaptado de Battaglia y Lubchenco GRANDE - Con peso por arriba de la percentila 90 correspondiente a su edad gestacional. 71 70 MODA o NORMA Valore (o modalità) in corrispondenza della massima frequenza. Unico criterio di centralità per caratteri qualitativi nominali (carattere sconnesso). Se i dati sono rappresentati in una seriazione con classi di ampiezza diversa, vale quanto detto per la rappresentazione grafica su istogramma: la moda è il valore corrispondente alla massima densità di frequenza. 72 18 Tab. 2 - Numero di maschi in famiglie di 8 figli. Tumori (140-239) Numero di maschi 0 1 2 3 4 5 6 7 8 Totale 94 139 Diabete mellito (250) 7 034 Malattie del sistema nervoso (320-389) 6 100 Malattie del sistema circolatorio (390-459) 106 615 Malattie dell'apparato respiratorio (460-519) 19 763 Malattie dell'apparato digerente (520-579) 12 611 Cause accidentali e violente (800-999) (Dati non attuali - Fonte Armitage) 15 406 Altre cause Frequenze 161 1.152 3.951 7.603 10.263 8.498 4.984 1.165 264 38.495 16 460 0 20 000 40 000 60 000 80 000 100 000 120 000 Moda = 4. E’ il valore che corrisponde alla massima frequenza Moda = Malattie sistema circolatorio 73 74 75 76 Intervalli di classe diversi: N. lesioni 0 - 10 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 90 90 - 100 100 - 110 110 - 120 Frequenze amp. di classe 1 10 6 10 14 10 14 10 17 10 8 10 18 30 1 10 0 10 1 10 d. f. 0.1 0.6 1.4 1.4 1.7 0.8 0.6 0.1 0 0.1 La classe modale è 40 - 50 corrispondente alla massima densità di frequenza 19 Medie Totali e Parziali (o vincolate) in tabella a doppia entrata Domanda: quanti figli hanno avuto mediamente i 20 intervistati? Supponiamo di aver rilevato su N unità statistiche un carattere qualitativo ed un secondo carattere che può essere sia qualitativo che quantitativo 0 Frequency Table for stato civile by figli 0 C 1 2 2 3 1 1 4 0 C 6 7 0 3 3 3 9 V 0 0 1 2 1 4 4 4 16 tot. Col. 5 5 3 3 4 20 20 36 3 0 0 3 V 0 0 1 2 1 4 tot. Col. 5 5 3 3 4 20 36 Media aritmetica totale = ------ = 1.8 20 X i = n. Figli fi X ifi 0 0 0 1 0 0 2 1 N S 3 0 2 2 0 1 1 0 0 2 3 3 2 0 6 4 1 4 4 12 7 6 V 0 0 1 2 1 4 tot. Col. 5 5 3 3 4 20 78 Se i 2 caratteri sono entrambi quantitativi si possono calcolare le medie generali e parziali sia per l’una (X) che per l’altra (Y) variabile. Domanda: quanti figli hanno avuto mediamente i 4 V(edovi)? tot. righe 6 0 0 1 3 5 3 1 2 4 3 1 0 0 0 0 S 3 7 5 2 6 1 0 1 tot. righe 2 0 2 1 4 0 1 1 1 3 3 0 1 2 2 S 2 2 1 N 3 0 Xifi 5 tot. righe 77 C fi 0 2 N Frequency Table for stato civile by figli X i = n. Figli Frequency Table for stato civile by figli Se i valori sono in intervalli di classe, si considera il valore centrale. Peso in grammi e lunghezza in cm. di 969 neonati 12 Media aritmetica vincolata alla 4° riga = ------ = 3 4 79 80 20 Calcolare la media dei gr. di peso Calcolare la media dei cm. di lungh. Lunghezza fi X if i 30 2 60 36 4 124 42 222 9324 48 702 33696 54 39 2106 969 45310 45310 Media delle lunghezze = -------- = 46.76 969 Peso fi 2500 143 X ifi 2750 340 935000 3000 354 1062000 3250 109 354250 3500 21 73500 3750 2 7500 969 2789750 357500 2789750 Media dei gr. di peso = ------------ = 2879 969 81 82 Calcolare media dei pesi vincolata a lunghezza = 42 La media totale è uguale alla media ponderata delle medie parziali Peso fi 2500 101 252500 2750 112 308000 3000 9 27000 3250 0 0 3500 0 0 3750 587500 Media dei gr. di peso (l. = 42) = ------------ = 2646.4 222 X ifi 0 0 222 587500 Vincolo di Medie parz. Lunghezza di Peso freq. prodotti 30 2625.00 2 5250.00 36 3000.00 4 12000.00 42 2646.40 222 587500.80 48 2931.62 702 2057997.24 54 3256.41 39 126999.99 969 2789748.03 Mtot di peso = 2789748/969 = 2879 83 84 21 RAPPORTO STATISTICO La media totale è uguale alla media ponderata delle medie parziali Quoziente tra due fenomeni di cui almeno uno è un dato statistico (riferito ad un fenomeno collettivo). Vincolo di Medie parz. Peso di Peso freq. prodotti 2500 43.55 143 6227.65 2750 45.97 340 15629.80 3000 48.02 354 16999.08 3250 48.61 109 5298.49 3500 51.14 1073.94 3750 51.00 21 2 102.00 969 45330.96 Come tutti i rapporti, lo scopo è quello di mettere in evidenza la relazione che sussiste tra la grandezza al numeratore e quella al denominatore. Elaborazioni semplici ed efficaci che consentono di effettuare validi confronti nel tempo e nello spazio. Mtot di lunghezza = 45330.96/969 = 46.78 85 Così se si volessero confrontare il numero dei posti letto disponibili per regione, il solo valore assoluto potrebbe trarre in inganno se non messo in relazione alla numerosità degli abitanti le regioni considerate. 86 Onde evitare un improprio uso di termini, quando si ha a che fare con i rapporti, ecco di seguito un semplice schema, tratto dalla rivista Lancet Anche il solo rapporto senza riferimento ai valori assoluti può trarre in inganno. In un certo anno accademico, in una Università, un terzo delle studentesse al I anno di corso aveva sposato professori della stessa Università. Measure: Quell’anno le studentesse al I anno furono solo tre. 87 Rate (tasso) Proportion Ratio 88 22 A fini didattici si distinguono: RAPPORTI CHE SI SEMPLIFICANO RAPPORTI CHE SI SEMPLIFICANO Il cui valore finale esprime un concetto analogo a quello di uno dei due termini RAPPORTI MEDI DI COMPOSIZIONE RAPPORTI CHE SI RISOLVONO DI DERIVAZIONE Il cui valore finale esprime un concetto diverso di ognuno dei due termini DI COESISTENZA I NUMERI INDICE 89 RAPPORTI MEDI RAPPORTI CHE SI RISOLVONO RAPPORTI 90 Quoziente tra intensità o frequenza di un fenomeno e intensità o frequenza di un altro fenomeno. DI DURATA DI RIPETIZIONE Alcuni esempi: INDICE DI AFFOLLAMENTO: Nota 1: si rimanda ad altri testi l’approfondimento dei rapporti che si risolvono. Nota 2: l’elenco che segue non è esaustivo e, uno stesso rapporto può avere diversa classificazione, cambiando il quadro di riferimento e/o le finalità dell’indagine. 91 DENSITA’ DEMOGRAFICA: REDDITO PRO-CAPITE: N. occupanti abitazioni N.stanze adibite ad abitazione Popolazione residente Superficie Reddito nazionale Popolazione 92 23 RAPPORTI MEDI NELLA SANITÀ Il rapporto medio indica l’intensità o la frequenza (numeratore) che competerebbe a ciascuna unità statistica (denominatore) se tutte avessero la stessa intensità o frequenza. I rapporti statistici medi servono anche come indicatori di situazioni complesse qualora si siano fissati degli standards. POSTI LETTO OGNI 1000 ABITANTI: Spesso tale rapporto viene moltiplicato per una potenza di 10, cioè per 1, 10, 100,1000, ecc. per evitare valori decimali. NUMERO POSTI LETTO x 1000 POPOLAZIONE RESIDENTE A META' ANNO STANDARD = 6,5 ⎧ 5,5 malati acuti ⎨ ⎩ 1 riabilitazione posti letto pubblici contati per intero posti letto in case di cura convenzionate contati al 50% 93 TASSO DI SPEDALIZZAZIONE OGNI 1000 ABITANTI: NUMERO DEI RICOVERI x 1000 POPOLAZIONE RESIDENTE A META' ANNO RAPPORTI DI COMPOSIZIONE STANDARD Relazione tra la frequenza di una parte del fenomeno e la frequenza complessiva, quoziente tra una parte ed il tutto. 160 Se un fenomeno può scindersi nelle sue componenti C1 + C2 + ...... + Cn = C, i rapporti di composizione sono dati da: DEGENZA MEDIA TOT. GIORNATE DI DEGENZA ANNUE NUMERO DEI RICOVERI 11 R1 = TASSO DI UTILIZZAZIONE POSTI LETTO TOT. GIORNATE DI DEGENZA ANNUE NUMERO POSTI LETTO x 365 94 70 - 75 % 95 C1 C C ; R2 = 2 ;LL; Rn = n C C C Un esempio è dato dalle frequenze relative 96 24 Sono ben rappresentabili graficamente con i settori circolari (se n non è troppo elevato); tali rapporti sono normalmente moltiplicati per 100. Forniscono, in tal caso, la distribuzione percentuale dei singoli componenti il fenomeno considerato. RAPPORTI DI DERIVAZIONE In questi rapporti il fenomeno considerato (numeratore), deriva dal fenomeno posto al denominatore, senza il quale non potrebbe esistere. I rapporti di derivazione sono chiamati tassi o quozienti in quanto: - il numeratore è incluso nel denominatore (popolazione a metà anno) - è calcolato in un certo intervallo di tempo, salvo diversa indicazione, l’anno solare. esempi: M ricoverati in un reparto ospedaliero rapporto tra ------- ; -----------------------------------------M+F totale dei ricoverati 97 98 Alcuni quozienti generici Generalmente viene moltiplicato per una potenza di 10. M QM = ----- x 1000 P rapporto tra Morti (in un determinato anno) e Popolazione (residente a metà anno) Quoziente di mortalità I rapporti di derivazione possono essere distinti in: - generici: si riferiscono al complesso della popolazione - specifici: si riferiscono a parte della popolazione distinta per una certa struttura. Si potranno avere quozienti specifici per età, sesso, condizione lavorativa, ecc. 99 La Popolazione a metà anno si stima facendo la media tra residenti ad inizio e a fine anno (inizio anno successivo). Indica quanti sono stati (mediamente) i morti ogni 1000 persone. 100 25 M Quoziente di morbosità QM = ----- x 1000 P come il quoziente di mortalità: al numeratore i Malati (di una certa malattia) Come già detto i quozienti generici sono riferiti a tutta la popolazione, i quozienti specifici a parte della popolazione distinta per una certa struttura. Si potranno avere quozienti specifici per età, sesso, regione, condizione lavorativa, ecc... NM Quoziente di natimortalità QNM = ------------- x 1000 NM + NVIVI Morti per una malattia Quoziente di letalità Q L = --------------------- x 1000 Casi diagnosticati della malattia Quozienti specifici e generici di mortalità Esempio di quoziente specifico di mortalità distinto per classi di età: Morti (0 -10) QM(0 - 10) = ----------------------Popolazione (0 - 10) 101 102 Rapporti di coesistenza Il quoziente specifico di mortalità è confrontabile; Per confrontare il quoziente di mortalità generico di due popolazioni (o della stessa popolazione a distanza di tempo), si deve tener conto della struttura della popolazione, come verrà approfondito nell’ambito della epidemiologia clinica ove verrà anche chiarito il concetto di morbosità prevalente e morbosità incidente. 103 Relazione tra frequenze contrapposte dello stesso fenomeno, in luoghi diversi o nello stesso luogo che coesistono nello stesso intervallo di tempo. Spesso sono espressi in percentuale. 104 26 Tra i più usati: Numeri indice TROVANO VALIDA APPLICAZIONE NELLE SERIE TEMPORALI M ⋅ 100 ≅ 106% F Rapporto di Mascolinità alla nascita Si costruiscono mettendo al numeratore l’intensità di un fenomeno ed al denominatore l’intensità della stessa natura scelta come base e riferita ad un dato tempo, luogo o situazione. ≥ 60 anni Indice di senilità Popolazione Popolazione <15anni Indice di dipendenza degli anziani Popolazione ≥ 65 anni Popolazione15− 64 anni 105 Consentono di confrontare le intensità di uno stesso fenomeno in tempi diversi o in luoghi diversi o in situazioni diverse. 106 Numeri indice a base fissa e a base mobile Calcoli Anni 1961 Numeri Numeri indice a indice a Popolazione residente x 1000 base fissa base mobile 100.00 50624 100.00 1971 54137 106.94 106.94 1981 56557 111.72 104.47 1991 56778 112.16 100.39 2001 56996 112.59 100.38 Base fissa Base mobile 50624 ⋅ 100 50624 50624 ⋅ 100 50624 54137 ⋅ 100 50624 54137 ⋅ 100 50624 56557 ⋅ 100 50624 56557 ⋅ 100 54137 56778 ⋅ 100 50624 56778 ⋅ 100 56557 56996 ⋅ 100 50624 56996 ⋅ 100 56778 107 Si evidenzia l’incremento della popolazione rispetto all’anno di base 1961 108 27 VARIABILITÀ I dati di una rilevazione si presentano diversi l'uno dall'altro sia perché la natura dei fenomeni è diversa sia perché si possono commettere errori di rilevazione. Si evidenzia l’incremento della popolazione rispetto all’anno precedente. Nel 1971 si è avuto un incremento che è successivamente 109 diminuito. I dati possono addensarsi in modo più o meno accentuato intorno al valore centrale (media). 110 Per sintetizzare la distribuzione è insufficiente il solo valore medio. Si deve affiancare ad esso una misura di variabilità che indichi quanto la media sia rappresentativa della distribuzione. REQUISITI DEGLI INDICI DI VARIABILITÀ - NULLO se tutte le modalità sono uguali - NON SI MODIFICA se tutte le frequenze sono moltiplicate per una costante positiva - ESSERE POSITIVO se c’è variabilità - ESPRESSO dati con stessa media e diversa variabilità 111 nella stessa unità di misura delle osservazioni 112 28 DIFFERENZA SEMPLICE MEDIA: Alcune misure di variabilità Campo di variazione (o Range) R= XMax –XMin (differenza tra il massimo ed il minimo). Misura grossolana: non tiene conto dei valori intermedi. Differenza interquartilica = Q3 - Q1 (differenza tra il terzo ed il primo quartile). Migliora ma non elimina il difetto del range. È data dalla media aritmetica dei valori assoluti di tutte le possibili differenze tra ciascun dato e gli N (con ripetizione) o i rimanenti N-1 (senza ripetizione). Indice complicato e poco usato È preferibile sottrarre ad ogni valore un valore di riferimento (media) e calcolare la media. Le differenze tra ogni valore e la media sono chiamate scarti se la media è aritmetica, se altra media scostamenti. Complicazione: La I proprietà della Media aritmetica afferma che Σ(Xi - M) = 0 113 Quadrati delle differenze Valori assoluti delle differenze Un modo per evitare che la somma delle differenze sia zero, è quello di considerare i valori assoluti delle differenze. Sme = − Me| N Altro modo per evitare che la somma degli scarti sia uguale a zero è quello di elevare gli scarti al quadrato: Devianza = Poiché per una proprietà della mediana, Σ|Xi - Mediana| = minimo, a volte si considera lo scostamento semplice medio dalla mediana ∑|x 114 ∑ ( x − x) 2 i La devianza divisa per N Se il calcolo è su piccoli campioni la varianza è data da devianza/N - 1 prende il nome di: ∑ (xi − μ ) = 2 i Varianza = σ 115 2 N Varianza = s = 2 ∑ ( x − x) 2 i N−1 116 29 DEVIAZIONE STANDARD (o scarto quadratico medio) Esempio di calcolo di deviazione standard in distribuzione semplice: La radice quadrata della varianza è l’indice di variabilità più usato, dato che è utilizzato in successive applicazioni (curva di Gauss). È espresso nella stessa unità di misura dei valori della popolazione: del campione: ∑ (xi − μ) ∑ ( x − x) 2 σ= s= N 2 i N−1 117 n. progr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 n. figli 0 1 3 4 1 1 0 2 3 0 1 0 1 4 3 0 2 2 4 4 36 Calcolo della devianza con il metodo abbreviato Devianza = = = ∑x −2 2 i ∑x 2 i − ∑ ( x − x) = ∑ x 2 2 i i ∑x∑x i i N (∑ x ) +N (∑ x ) i N2 − 2 x ∑ xi + N x = 2 2 (∑ x ) + (∑ x ) 2 = ∑x 2 i −2 i N i N 2 = 2 i N L’utilizzo di questa formula permette di calcolare la devianza senza fare le differenze con la media aritmetica 119 Xi - M (Xi - M)2 -1.8 3.24 -0.8 0.64 1.2 1.44 2.2 4.84 -0.8 0.64 -0.8 0.64 -1.8 3.24 0.2 0.04 1.2 1.44 -1.8 3.24 -0.8 0.64 -1.8 3.24 -0.8 0.64 2.2 4.84 1.2 1.44 -1.8 3.24 0.2 0.04 0.2 0.04 2.2 4.84 2.2 4.84 0 n. progr. n. figli 1 0 2 1 3 3 4 4 5 1 6 1 7 0 8 2 9 3 10 0 11 1 12 0 13 1 14 4 15 3 16 0 17 2 18 2 19 4 20 4 36 x= 36 = 18 . 20 Devianza = ∑ ( x − x) i 2 = 43.20 nella popolazione: σ2= Devianza 4320 . = = 216 . N 20 σ = σ 2 = 147 . nel campione: s2 = Devianza 43.20 = = 2.27 N−1 19 s = s2 = 151 . 118 43.20 0 1 9 16 1 1 0 4 9 0 1 0 1 16 9 0 4 4 16 16 108 (∑ x ) − ∑x 2 i X i2 2 i N Esempio calcolo deviazione standard Σ Xi2 = 108 Σ (Xi)2 = 362 = 1296 N = 20 1296 : 20 = 64.8 Devianza = 108 - 64.8 = 43.2 s2 = s= Devianza 43.20 = = 2.27 N−1 19 s2 = 151 . 120 30 Naturalmente in presenza di una distribuzione di frequenza si dovrà tener conto delle frequenze. La formula sarà: ∑ (x − x ) Yi N−1 s= Xi 0 1 2 3 4 2 i Y 0 5 6 9 16 (X i - M) (X i - M)2 (X i - M)2 Y i -1.8 3.24 16.2 -0.8 0.64 3.2 0.2 0.04 0.12 1.2 1.44 4.32 2.2 4.84 19.36 s2 = 20 36 43.20 s= Xi Y i s= I calcoli occorrenti per media e d.s. saranno: 5 5 3 3 4 i Con la formula abbreviata: Xi 0 1 2 3 4 4320 . = 2.27 19 Devianza N−1 Yi Devianza = X i2 Xi Y i 5 5 3 3 4 0 5 6 9 16 20 36 362 = 1296 X i2Y i 0 1 4 9 16 ∑ (∑ x y ) x y − 2 i N Devianza = 108.00 - 0 5 12 27 64 64.80 = 43.20 108 1296/20 = i 2 i i s2 = 43.20 = 2.27 19 64.80 2.27 = 151 . s= Media = 36/20 = 1.8 2.27 = 151 . 121 Esercizio Coefficiente di variazione Date le seguenti osservazioni, calcolare: deviazione standard, mediana, coefficiente di variazione Indice percentuale di variabilità. C.V .= 122 s × 100 x È un numero puro, espresso in percentuale, che permette il confronto di variabilità tra distribuzioni con intensità media notevolmente diversa (es.: peso della madre e peso del neonato). 123 55 60 30 55 30 60 55 55 55 60 60 30 25 55 30 25 60 40 60 60 30 55 25 40 40 55 60 60 55 30 25 60 60 25 55 25 60 55 25 55 25 55 valori (Xi) 55 25 60 40 30 |||| |||| |||| |||| |||| 40 60 25 55 30 25 55 40 60 55 60 60 55 55 25 55 25 30 60 25 55 25 25 55 frequenze (Yi) |||| |||| |||| |||| |||| |||| |||| |||| |||| |||| |||| | |||| |||| || 55 30 30 40 25 30 55 55 60 25 60 55 55 60 40 40 55 30 25 40 25 55 60 55 124 31 valori (Xi) 25 30 40 55 60 freq. (Yi) 19 12 9 29 21 90 Xi * Yi 475 360 360 1595 1260 4050 Media = 4050/90 = 45 (Xi - M) -20 -15 -5 10 15 2 (Xi - M) 400 225 25 100 225 Devianza = Devianza = Σ(Xi -M)²Yi = 18150 Devianza s² = Varianza = ------------- = 203.93 ΣYi - 1 14.28 C.V. = ---------- x 100 = 31.73 45 Calcolo della mediana 2 (Xi - M) Yi 7600 2700 225 2900 4725 18150 valori (Xi) 25 30 40 55 60 N = 90 s = 14.28 freq. (Yi) 19 12 9 29 21 PARI Yi cum. Yi % cum. 19 21.11 31 34.44 40 44.44 69 76.67 90 100 2 posizioni centrali: n. 45 e n. 46 I 2 valori che corrispondono a tali posizioni sono uguali: (non occorre fare media) 125 Mediana = 55 126 DETERMINISTICO CONCETTO DI PROBABILITÀ Un evento può essere di tipo Spesso si ha incertezza circa il verificarsi di un determinato evento o di un fenomeno che si verifica in natura. Ad esempio si può avere incertezza sul sesso di un futuro neonato o sul tempo di durata della vita. EVENTO: Qualsiasi proposizione logica suscettibile di essere classificata vera o falsa. 127 CASUALE L’evento è deterministico quando, la conoscenza dello stato (posizione e velocità) iniziale del sistema ne consentirebbe la determinazione a qualsiasi istante. L’evento è casuale quando i fattori (o cause) che lo determinano sono molteplici e variabili secondo leggi ignote o di difficile calcolo 128 32 PROBABILITÀ CALCOLO DELLA PROBABILITÀ È la misura dell'incertezza sul verificarsi di un evento futuro ed incerto, ovvero casuale o aleatorio. Il calcolo delle probabilità interviene in tutte quelle situazioni in cui si devono prendere delle decisioni che riguardano eventi futuri ed incerti per rendere razionale il comportamento dell’uomo di fronte all’incertezza. Sono comuni, nel linguaggio quotidiano, frasi come: “È probabile che non ci sia traffico” oppure “Probabilmente non potrò venire” L'evento deve essere chiaramente definito in modo che vi sia una sola possibile conclusione: evento realizzato o evento non realizzato Se, dalle informazioni che si hanno, segue necessariamente il verificarsi dell’evento, si dice che l'evento è certo; al contrario se segue necessariamente che l’evento non si verifica, si dice che l'evento è impossibile. Quando non si può dedurre che l’evento necessariamente si verifichi o non si verifichi, allora l’evento è possibile. 129 Se l’evento è possibile, il grado di incertezza sarà diverso e dipenderà dalla valutazione dei vari fattori che si pensa influiranno sul verificarsi dell'evento. La probabilità, come grado di aspettativa sul verificarsi di un evento, viene espressa numericamente da un numero reale compreso tra 0 e 1 (estremi inclusi) dove: 130 DEFINIZIONI DI PROBABILITÀ In diverse situazioni la probabilità viene diversamente definita a seconda dell’orientamento dottrinario seguito: classica definizione oggettivista •p=1 evento certo •p=0 evento impossibile • 0 < p < 1 evento probabile se non è possibile dare una delle due conclusioni definitive. frequentista definizione soggettivista. 131 132 33 Esempio: qual è la probabilità che lanciando un dado esca la faccia con il numero 5? DEFINIZIONE CLASSICA La probabilità è data dal rapporto tra il numero dei casi favorevoli ed il numero dei casi possibili, purché tutti ugualmente possibili (probabilità a priori). Tale probabilità è uguale ad 1/6, in quanto gli eventi possibili sono 6 ed il numero dei casi favorevoli è 1. Critica - Circolo vizioso: ugualmente possibili equivale a ugualmente probabili. Risposta - Alcuni fenomeni (urna, lancio dado, ecc.), si basano su simmetrie. In questi casi si ha conoscenza a priori di casi ugualmente possibili senza ricorrere a determinazioni sperimentali. 133 DEFINIZIONE FREQUENTISTA (o STATISTICA o EMPIRICA) La probabilità è data dalla frequenza relativa dell'evento, cioè dal rapporto tra il numero dei casi favorevoli ed il numero delle prove effettuate, purché il numero delle prove sia abbastanza grande (probabilità a posteriori). Quando non esistono le condizioni per calcolare la probabilità a priori del verificarsi di un certo evento, essa viene stimata con la frequenza relativa del verificarsi dell'evento in un gran numero di casi. Esempio: se si estrae a caso una pallina da un’urna contenente 3 palline nere e 5 palline bianche, qual è la probabilità che la pallina estratta sia bianca? p (b) = 5/8. Osservazione: Non tutti gli eventi possono basarsi su simmetrie, ad esempio: come si fa a calcolare la probabilità di morte di un individuo tra l’età x e l’età x+y? Quale sarà l’efficacia di un farmaco? 134 L’applicazione della definizione frequentista di probabilità agli eventi regolati da simmetrie, non comporta una differente valutazione. Esempio: se si lancia in aria una moneta e si sceglie come evento verificato uno dei due possibili, ad es. testa, si può verificare sperimentalmente che la frequenza relativa si avvicina sempre più ad 1/2 all'aumentare del numero dei lanci. Questo risultato sperimentale va sotto il nome di legge empirica del caso. È necessario che le prove si svolgano nelle identiche condizioni. 135 136 34 Mediante questa definizione, la probabilità di morte di un individuo tra l’età x e l’età x+y sarà stimata dal rapporto tra il numero dei morti osservati tra le suddette età e tutti gli individui esposti al rischio di morte nell’ età x. Nell’esempio della moneta, la definizione classica presuppone che questa sia perfetta, la definizione frequentista, facendo ricorso alla frequenza relativa, valuta “a posteriori” tutti i fattori che infuiscono sull’evento, anche una possibile imperfezione. Limiti della teoria frequentista: - non sempre si conosce la frequenza relativa di un fenomeno; - non sempre l’esperimento è ripetibile nelle stesse condizioni; - spesso si devono prendere decisioni in base a valutazioni personali. 137 DEFINIZIONE SOGGETTIVISTA La probabilità è un giudizio soggettivo espresso coerentemente da un individuo intorno all'avverarsi di un evento incerto, mentre hanno significato oggettivo le circostanze prese in esame. Esempio: in una partita per un torneo qual'è la probabilità che vinca la squadra A? Ognuno esprimerà una opinione del tutto personale, avendo una personale fiducia sull'avverarsi della vittoria della squadra A. 139 138 Nota: Quando la quantità di informazioni è molto elevata, tale che sia possibile una schematizzazione del problema, la valutazione di probabilità, coincide nei diversi orientamenti dottrinari. In un gioco equo, quanto sarei disposto a scommettere sul verificarsi dell’evento? Se il gioco è schematizzabile (tipo gioco d’azzardo o esperimento stocastico), secondo questa definizione, la probabilità (p) è data dal rapporto tra quanto si rischia di perdere (R) e la somma di quanto si rischia di perdere più quanto si spera di vincere (S). 140 35 Odds Concetti essenziali di insiemistica Quanto si è disposti a rischiare, per unità di vincita, scommettendo su un certo esito. Dato che: p= R R+ S p= Si definisce spazio campionario o universo, tutti i possibili eventi di un esperimento; ad ogni evento elementare, è associato un numero non negativo detto probabilità, tale che la somma di tutti i numeri corrispondenti a tutti gli eventi è uguale a 1. Nell’esempio di lancio di un dado: 1 1+ 5 p= odds 1 + odds Probabilità dello spazio campionario: p(S) = 1 L’odds dell’evento favorevole è dato dal rapporto tra p e 1-p. Rappresenta il reciproco che un bookmaker è disposto a pagare nel caso evento verificato. Probabilità dello spazio vuoto: Probabilità dell’evento A: p(∅) = 0 0 < p(A) < 1 141 142 Esempi di spazio campionario Lancio di un dado (1) (2) (3) (4) (5) (6) E = A = faccia 5 1 p(A) = --6 Diagramma di Venn _ Lancio di due dadi Probabilità di A (1,1) (1,2) (1,3) (1,4) (1,5) (1,6) (2,1) (2,2) (2,3) (2,4) (2,5) (2,6) (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) (6,1) (6,2) (6,3) (6,4) (6,5) (6,6) E = A = somma facce = 7 p(A) = 6/36 E = B = somma facce = 11 143 p(B) = 2/36 A Probabilità di A (complemento di A) A _ p(A) = 1 - p(A) 144 36 Teorema delle probabilità totali per eventi mutuamente esclusivi Teoremi del calcolo delle probabilità Quando il verificarsi di un evento è dato dal verificarsi di più eventi, il calcolo delle probabilità viene effettuato tenendo presenti due importanti regole che sono: A E =A∪B si legge A unione B (A o B) proprietà additiva B S Teorema della probabilità totale Due eventi si dicono incompatibili o mutuamente esclusivi se non possono presentarsi contemporaneamente: p(A o B) = p(A) + p(B) Ad es. nel lancio del dado, la probabilità di uscita della faccia 1 oppure della faccia 3 è uguale a 1/3. Teorema della probabilità composta 145 Teorema delle probabilità composte per eventi indipendenti S 146 Esempio: se si lanciano 2 monete qual è la probabilità che compaia, nell’ordine, testa e croce? T E =A∩B si legge A intersezione B (A e B) proprietà moltiplicativa Eventi indipendenti: il verificarsi di un evento non influenza la probabilità del verificarsi dell’altro. La probabilità del verificarsi congiunto di più eventi è data dal prodotto delle probabilità dei singoli eventi p(A e B) = p(A) x p(B). 147 II lancio I lancio ½ TT, TC, CT, CC T ½ 4 casi possibili: C T 1 favorevole TC p(A e B) = p(A) x p(B) C p(T e C) = ½ x ½ = ¼ C p(T) ∩ p(C) = ½ x ½ = 0.25 148 37 Altro esempio: se si lanciano 2 monete qual è la probabilità che compaia una testa ed una croce? T ½ I lancio T C T II lancio ½ C 4 casi possibili: TT, TC, CT, CC 2 favorevoli TC, CT p(A e B) = p(A) x p(B) p(T e C) = ½ x ½ Eventi dipendenti Se gli eventi non sono indipendenti, le probabilità successive alla prima devono essere calcolate sotto l’ipotesi che gli eventi che li precedono si sono già verificati. p(A e B) = p(A) x p(B\A) che si legge: probabilità di A per probabilità B dato A (una volta che si è verificato l’evento A). Se gli eventi sono indipendenti p(B\A) = p(B). p(C e T) = ½ x ½ C Nota: p(B\A) è anche detta probabilità di B condizionata al verificarsi dell’evento A (p(T) ∩ p(C)) ∪ (p(C) ∩ p(T)) = 2(½ x ½) = ½ 149 Esempio Un'urna contiene 5 palline nere e 10 bianche. Estraendo contemporaneamente le due palline (o estraendone una alla volta senza reimbussolare la prima), qual è la probabilità di estrazione di due palline nere? La probabilità dell'estrazione di due palline nere sarà data da 5/15 x 4/14 = 2/21 = 0.095 in quanto il verificarsi del primo evento ha modificato la probabilità del secondo evento: se è uscita una pallina nera sono rimaste 4 palline nere su un totale di 14. 151 150 Teorema delle probabilità totali per eventi compatibili Qualora gli eventi non fossero mutuamente esclusivi: P(A o B) = P(A) + P(B) -P(A e B). Sommando le due probabilità si conteggia due volte la parte in comune Se gli eventi fossero mutuamente esclusivi: p(A e B) ovvero p(A∩B) = 0 152 38 Esempio: qual’ è la probabilità che in una classe di studenti universitari, sia estratto a caso uno studente che sia femmina oppure provenga dal liceo classico sapendo che: p(F) = 0.70; p(Lc) = 0.40 ? Seguendo il teorema della probabilità totale nella forma semplice si arriverebbe al calcolo assurdo p(E) = (p(F) o p(Lc) = p(F) + p(Lc) = p > 1 Si deve togliere la parte che costituisce l’intersezione degli eventi: p(A ∪ B) = p(A) + p(B) - (p(A) x p(B) ) 0.7 + 0.4 - (0.7 x 0.4) = = 1.10 - 0.28 = 0.82 153 Distribuzione di probabilità di una variabile casuale discreta Una variabile i cui valori seguono una distribuzione di probabilità si chiama variabile casuale o aleatoria Tab. 2 - Numero di maschi in famiglie di 8 figli. Numero di maschi 0 1 2 3 4 5 6 7 8 Totale pi 0.004232276 0.030283116 0.103861623 0.199863305 0.269787860 0.223390552 0.131016535 0.030624852 0.006939881 1 (Dati non attuali - Fonte Armitage) p i % Cum. 0.4232276 3.4515391 13.837701 33.824032 60.802818 83.141873 96.243527 99.306012 100 Distribuzione di frequenza di una variabile discreta Riprendendo un esempio di rilevazione di un collettivo abbastanza grande: Tab. 2 - Numero di maschi in famiglie di 8 figli. Numero di maschi 0 1 2 3 4 5 6 7 8 Totale Frequenze 161 1.152 3.951 7.603 10.263 8.498 4.984 1.165 264 38.041 (Dati non attuali - Fonte Armitage) f.r. = Y i / N 0.004232276 0.030283116 0.103861623 0.199863305 0.269787860 0.223390552 0.131016535 0.030624852 0.006939881 1 è stata calcolata la frequenza relativa che si riferisce ad un collettivo già eseguito di prove. In base alla definizione frequentista di probabilità la f.r. può essere vista come la probabilità che, estraendo a sorte una unità del collettivo, questa presenti la modalità X i (evento futuro e incerto). 154 DISTRIBUZIONE BINOMIALE o delle prove ripetute secondo lo schema di Bernoulli Si consideri una prova casuale che La probabilità di estrarre a caso, da questa popolazione, una famiglia con 2 maschi è 10.39 %. 1 - può dar luogo a 2 soli possibili risultati: E evento verificato con probabilità = p E evento non verificato con probabilità = q = 1 - p Se si vuole conoscere p (2M o 3M), si devono sommare le singole probabilità: p(2M o 3M) = Ad esempio da un’ urna composta da 3 palline bianche, 5 nere e 2 rosse, la probabilità di estrarre pallina bianca è p = 3/10; = 10.386 + 19.986 = 30.37 %155 la probabilità di non estrarre pallina bianca [p(E)] è = 1 - p = 7/10 q 156 39 Esempio di famiglie con 4 figli 2 - si ripete la prova n volte 3 - il risultato di una prova non influenza le altre, vale a dire che le prove sono indipendenti (p costante) Nell’esempio precedente dell’urna, le n estrazioni saranno con reimbussolamento. Si considerino solo famiglie con 4 (n) figli nati vivi; 4 - si vuole calcolare la probabilità che l’evento si presenti k volte per k che va da 0 a n si consideri inoltre la nascita dei figli come ripetizioni di eventi casuali indipendenti, eseguiti in condizioni costanti (p rimane invariata). si prenda come stima di p la proporzione dei M nati vivi alla nascita uguale a 0.52, quindi come stima della probabilità F: q = 0.48; In altre parole, l’evento potrebbe non verificarsi mai (0 volte) oppure 1 volta, 2 volte, fino al massimo di n volte. 157 158 Si calcolino le probabilità che, in una famiglia di 4 figli, il numero di maschi sia: k = Maschi 0 quindi 1 2 3 4 Femmine 4 3 2 1 0 I figli possono nascere nei seguenti modi: 0 Maschi In famiglie con 4 figli, la nascita di 0 maschi corrisponde alla nascita di 4 femmine, e così via Poiché p(F) = 0.48, per il teorema della probabilità composta, la probabilità che I figlio F e II figlio F e III figlio F e IV figlio F = 0.48 x 0.48 x 0.48 x 0.48 p(0M) = 0.484 = 0.0531. 1 Maschio e 3 Femmine 159 MFFF FMFF FFMF FFFM 4 modi possibili Ognuno di questi casi ha probabilità 0.52 x 0.483 p(1M e 3F) = 4 x 0.52 x 0.483 = 0.2300 160 40 3 Maschi e 1 Femmina 2 Maschi e 2 Femmine Modi di nascita possibili: Il numero di modi in cui si possono avere 3M e 1F è 4 cioè lo stesso di 1M e 3F MMFF FFMM (basta mettere M al posto di F e viceversa) MFMF FMFM MFFM FMMF P(3M e 1F) = 4 x 0.523 x 0.48 = 0.2700 6 modi possibili 4 Maschi e 0 Femmine Ognuno di questi casi ha probabilità P(2M e 2F) = 6 x 0.522 x 0.482 0.522 x 0.482 Anche il numero di modi per avere 4 M e 0 F è 1 solo (come per 0M e 4F) = 0.3738 161 RIEPILOGO p(4M) = 0.524 = 0.0731 162 CALCOLO COMBINATORIO Premessa: nel precedente esempio, di volta in volta si è trovato, per ogni k, il numero dei modi in cui si potevano avere i k Maschi (e quindi le n - k Femmine). Il calcolo combinatorio fornisce la regola generale per il calcolo di tale fattore moltiplicativo. Notare che: - la somma delle probabilità è uguale 1; - p è elevato a k e q è elevato a (n - k). Prima della formula generale, serve ricordare almeno alcune regole del calcolo combinatorio. 163 Dato un insieme di n elementi, determinare il numero di gruppi che si possono formare con k degli n elementi (k ≤ n), fissata una regola (o legge) per la formazione dei gruppi. 164 41 DISPOSIZIONI SEMPLICI (Dn, k) PERMUTAZIONI (Pn) Regola: un gruppo differisce dall’altro per almeno un elemento o l’ordine Regola: un gruppo differisce dall’altro solo per l’ordine. n = 4 elementi a b c d n, k D 4, 1 È un caso particolare di disposizione semplice dove k = n. a b c d ab ac ad ba bc bd ca cb cd da db dc D 4, 2 Num. dei gruppi n=4 n(n -1) = 4 x 3 = 12 In generale il numero di disposizioni si ottiene facendo il prodotto di k fattori naturali decrescenti iniziando da n: D 165 n, k = n (n -1) .....(n - k + 1) Anagrammi Se due diverse parole sono formate dalle stesse lettere alfabetiche (anche senza senso), si dice che l’una è l’anagramma dell’altra, ad es.: ROMA e RAMO. Quanti sono gli anagrammi che si possono formare con la parola ROMA? La risposta è P4 = 4! = 4 x 3 x 2 = 24 123456- AMOR AMRO AOMR AORM ARMO AROM 7- MAOR 8- MARO 9- MOAR 10- MORA 11- MRAO 12- MROA 131415161718- OAMR OARM OMAR OMRA ORAM ORMA 192021222324- RAMO RAOM RMAO RMOA ROAM ROMA Se però una stessa lettera appare più volte, il numero di anagrammi è inferiore a n!, in quanto si dovrà dividere per il numero delle permutazioni delle parole uguali: Pn/(Pk1Pk2…). 167 Ad es. ORO OOR ROO P3/P2 = 3!/2! = 6/2 = 3 Poiché i diversi gruppi sono formati da tutti gli elementi, questi possono differire solo per l’ordine. Pn = n! (n! si legge n fattoriale) Si ricordi che n! è uguale al prodotto degli interi da 1 a n e, per convenzione, 0! = 1 Es. 5! = 5 x 4 x 3 x 2 x 1 = 120 166 In particolare: Se, dati n elementi, vi sono 2 soli elementi distinti, per cui alla ripetizione di k volte dell’uno corrisponde la ripetizione di (n - k) volte dell’altro (esempio figli M e figli F in famiglie di 4 figli), il numero di anagrammi (permutazioni di 2 elementi distinti e ripetuti) sarà dato da: n! k !(n − k )! o nella forma compatta ⎛ n⎞ ⎜ ⎟ ⎝ k⎠ che si chiama coefficiente binomiale. È la stessa formula per il calcolo delle combinazioni. 168 42 Coefficiente binomiale COMBINAZIONI SEMPLICI (Cn,k) Cn ,k = Regola: un gruppo differisce dall’altro per almeno un elemento Moltiplicando numeratore e denominatore per (n - k)! si ha: Poiché le disposizioni (Dn,k) sono il numero dei gruppi che si possono formare differendo ogni gruppo per l’ordine o almeno un elemento, le combinazioni, che sono il numero dei gruppi che si possono formare se un gruppo differisce dall’altro per almeno un elemento, saranno date dalle Dn,k diviso le permutazioni dei k elementi (Pk) 169 Cn ,k = ⎛ 4⎞ ⎛ 4⎞ ⎛ 4⎞ ⎛ 4⎞ ⎛ n⎞ ⎛ n ⎞ ⎟ ad es. ⎜ ⎟ = ⎜ ⎟ = 1 ⎜ ⎟ = ⎜ ⎟ = 4 ⎜ ⎟ =⎜ ⎝ 0⎠ ⎝ 4⎠ ⎝ 1⎠ ⎝ 3⎠ ⎝ k⎠ ⎝ n − k⎠ I coefficienti binomiali, da 0 a n si trovano, per ogni n sulla riga del triangolo di Tartaglia 170 Nell’esempio precedente n = 4; Nell’ultima riga si leggono contemporaneamente i coefficienti binomiali per k da 0 a n (in questo caso n = 4) Maschi k 0 1 Calcolo della probabilità nella distribuzione binomiale n notare che: ⎛ n⎞ ∑ ⎜⎝ k ⎟⎠ p k Il coefficiente binomiale gode di alcune proprietà tra cui: ⎛ n⎞ n! = ⎜ ⎟ k !( n − k ) ! ⎝ k ⎠ Le informazioni necessarie per la distribuzione binomiale (parametri) sono n e p Triangolo di Tartaglia: per procedere allo sviluppo della potenza n-esima del binomio (a + b)n ⎛ n⎞ Pk = ⎜ ⎟ p k q n − k ⎝ k⎠ Dn ,k n( n − 1)( n − 2)K( n − k + 1) = Pk k! q (n− k ) = 1 k =0 171 p = 0.52 Femmine Distribuzione di probabilità c p q n -k 4 3 0 4 1 3 2 2 1 x 0,52 x 0.48 = 0.0531 4 x 0,52 x 0.48 = 0.2300 2 2 6 x 0,52 x 0.48 = 0.3738 3 1 4 x 0,52 x 0.48 = 0.2700 4 0 3 1 4 0 1 x 0,52 x 0.48 = 0.0731 1.0000 ⎛ n⎞ − Pk = ⎜ ⎟ p k q n k ⎝k⎠ Qual’è la probabilità che nascano 2 o 3 figlie femmine? È uguale alla probabilità che nasca 1 o 2 figli maschi = 0.23 + 0.3738 = 0.6038 172 43 µ e σ della distribuzione binomiale Grafico di una distribuzione binomiale Se N è abbastanza grande, ad es. una inchiesta condotta su N = 10000 famiglie, la media, come noto, è = Σx i y i /N. Poiché p i = y i /N quindi y i = p i N, si può evitare il prodotto p i N dato che: con i parametri: n = 4; p = 0.52 ∑xy i i = N ∑ xi pi quindi μ = N ∑ xi pi = N Calcolo della media in famiglie con 4 figli p = 0.52 ⎛ n⎞ − Pk = ⎜ ⎟ p k q n k Ricordare che: ⎝k⎠ ⎛n⎞ n! ⎜⎜ ⎟⎟ = ⎝ k ⎠ k!(n − k )! Xi 0 1 2 3 4 173 simmetria e asimmetria della distribuzione binomiale pi 0.0531 0.2300 0.3738 0.2700 0.0731 X i pi 0.0000 0.2300 0.7476 0.8100 0.2924 2.0800 i Senza dover fare questi calcoli, sinteticamente: μ = np nell’es. µ = 4 x 0.52 = 2.08 mentre σ2 = npq quindi σ = 174 npq La distribuzione è sempre simmetrica n = 4 pari: 1 moda n = 5 dispari: 2 mode k 0 1 2 3 4 5 i Simmetria: p = q = ½ La distribuzione binomiale è sempre simmetrica quando p=q=½ k ∑xp B(k,4;0.5) B(k,5;0.5) 1x 5x 10 x 10 x 5x 1x 1/ 32 1/ 32 1/ 32 1/ 32 1/ 32 1/ 32 = = = = = = 0 1 2 3 4 0.0313 0.1563 0.3125 0.3125 0.1563 0.0313 1 4 6 4 1 x x x x x 1/ 1/ 1/ 1/ 1/ 16 16 16 16 16 = = = = = 0.06250 0.25000 0.37500 0.25000 0.06250 pkq(n - k) = 0.54 = (½)4 = 1/16 pkq(n - k) = 0.5k x 0.5(n - k) = 0.5n = (½)5 = 1/32 175 176 44 Asimmetria della distribuzione binomiale: p≠q Asimmetria positiva: p < q Asimmetria della distribuzione binomiale: p≠q Asimmetria negativa: p > q Esempio p = 0.3 k k 0 1 2 3 4 5 k (n - k) pq c.b. 1 5 10 10 5 1 x x x x x x 0.16807= 0.07203= 0.03087= 0.01323= 0.00567= 0.00243= B(k,5;0.3) 0 1 2 3 4 5 0.16807 0.36015 0.30870 0.13230 0.02835 0.00243 k (n - k) pq c.b. 1 5 10 10 5 1 x x x x x x 0.00243= 0.00567= 0.01323= 0.03087= 0.07203= 0.16807= Esempio p = 0.7 B(k,5;0.3) 0.00243 0.02835 0.13230 0.30870 0.36015 0.16807 Tuttavia, all’aumentare di n, la distribuzione tende ad essere sempre simmetrica. 177 n = 20 n = 50 UTILITÀ della distribuzione binomiale Quando si considera la ripetizione per n prove indipendenti con probabilità p di verificarsi e probabilità q = 1 - p di non verificarsi, P = 0.3 n=5 178 P = 0.5 la distribuzione binomiale B[(n,p)] fornisce la probabilità teorica che l’evento si verifichi 0 volte, 1 volta ..... fino a n volte. P = 0.7 Nella realtà la distribuzione non sarà esattamente identica. Tuttavia, se la realtà si allontana molto dalla teoria, ci sono forti sospetti per dubitare della validità della probabilità assegnata. 179 180 45 DISTRIBUZIONE DI POISSON La distribuzione di Poisson ha anche grande importanza come distribuzione di eventi casuali indipendenti nel tempo o nello spazio, il cui numero è mediamente costante in intervalli regolari (per es. nel tempo T), ma in una frazione di esso (es. 1 decimo di secondo), se ne possono verificare spesso 0, occasionalmente 1, difficilmente più di 1. Anche la distribuzione di Poisson (come la binomiale), è una distribuzione di probabilità di una variabile discreta, detta anche degli eventi rari o dei piccoli numeri. Deriva dalla approssimazione della distribuzione binomiale quando la probabilità (p) è molto piccola, il numero delle prove (n) è molto grande (eventi rari) ed il prodotto np tende ad una costante λ quando n aumenta. Esempio λ1 = 3 T 0 poiché λ p = --n e λ3 = 2 T3 T2 λk −λ p( k ) = e k! λ q = 1- --n n(n − 1)(n − 2)K( n − k + 1) ⎛ λ ⎞ ⎛ λ ⎞ ⎜ ⎟ ⎜ 1− ⎟ = ⎝ n⎠ ⎝ n⎠ k! n p( k ) = n λ −λ λ −λ e = e k ! nk k! k k p(0) = e − λ ed ogni probabilità successiva: p( k +1) = pk 182 λ k+1 (n− k ) λ⎞ ⎛ tener presente che n è molto grande e che ⎜ 1− ⎟ tende a e − λ ⎝ n⎠ k λ λ p = --- q = 1- --n n Dall’esempio : se λ = 3, qual’è la probabilità di trovare, nell’intervallo di tempo T, 0 elementi? E più di 1? k Dalla binomiale p( k ) λ = np = 3 (esempio) λ=μ=σ2 T2 T1 181 Calcolo distribuzione di Poisson 1 λ2 = 4 Notare che la distribuzione dipende dal solo parametro λ che è anche μ e σ2 183 p (0) = e -λ =e -3 = 0,0498 p (1) = p (0) x 3/1 = 0,1494 fino ad 1 = p (0) + p (1) = 0,1992 più di 1 = 1 - (p (0) + p (1) ) = 0,8008 184 46 Esempio: Si è rilevato che lo 0.001 di un gruppo di individui si sia mostrato allergico ad un vaccino. Su 2000 unità, qual’è la probabilità di trovare 0, 1 o fino a 2 individui allergici ? p = 0.001; n = 2000; Simmetria: La distribuzione di Poisson è asimmetrica All’aumentare di n (in questo caso anche di λ), anche la distribuzione di Poisson tende ad essere simmetrica λ = np = 2 probabilità -λ = 0,1353 p (1) = p (0) x 2/1 = 0,2707 p (2) = p (1 ) x 2/2 = 0,2707 p (0-2) = 0,6767 p (0) = e 185 Distribuzioni di probabilità di una variabile casuale continua Una variabile continua, è rappresentata da un istogramma 150 160 170 180 190 - 160 170 180 190 200 % 10 30 41 15 4 Esempio di altezza maschi 41% 30% 10% 15% 4% In una variabile continua, come per la variabile discreta, la frequenza relativa (%) di un collettivo abbastanza grande può essere vista come la probabilità che, estraendo a sorte una unità dal collettivo, questa presenti un valore compreso nel generico intervallo a ├ b 187 186 Densità di frequenza A differenza della variabile discreta, la frequenza di un preciso valore x della variabile continua è nulla, mentre è frequenza non nulla se si considera un intervallo della variabile comunque piccolo. La frequenza relativa, e quindi la probabilità, è rappresentata dalla densità di frequenza ovvero dall’area compresa tra l’intervallo considerato e l’altezza nel punto centrale dell’intervallo. 188 47 Confronto di tabelle e istogrammi con stessi dati ma ampiezza di classe diversa Una distribuzione di probabilità molto frequente 150 160 170 180 190 Molti fenomeni naturali, tra cui quasi tutti i caratteri antropometrici, hanno la caratteristica distribuzione di probabilità per cui, in corrispondenza dei valori più piccoli, si hanno piccole frequenze e, man mano che i valori aumentano, aumentano anche le frequenze, fino a raggiungere un massimo, dopo del quale, in corrispondenza di valori sempre maggiori, si hanno frequenze sempre minori. - 160 170 180 190 200 % 10 30 41 15 4 150 155 160 165 170 175 180 185 190 195 - 155 160 165 170 175 180 185 190 195 200 % 4 6 12 18 25 16 10 5 2 2 Inoltre, diminuendo l’ampiezza degli intervalli si ha un aggiustamento pressoché simmetrico della distribuzione 189 190 CURVA DI GAUSS O NORMALE Approssimazione di distribuzioni empiriche con la curva di Gauss o normale CARATTERISTICHE: Ipotizzando intervalli di classe piccolissimi, si può sostituire all’istogramma un modello teorico rappresentato da una funzione − 1 yi = e σ 2π µ = Media ( x− μ ) è asintotica rispetto all’asse delle ascisse - è crescente nell’intervallo (- ∞, µ) e decrescente in (µ, + ∞) - in corrispondenza dei punti di flesso (inversione del ritmo crescente da - ∞ a µ, e decrescente da µ a + ∞) si hanno i valori di µ ± σ 192 - σ = deviazione standard − 1 e σ 2π 2σ 2 media = moda = mediana è unimodale e simmetrica i cui parametri sono: yi = ( x− μ )2 2 2σ 2 191 48 Traslazione della curva di Gauss Variazioni della forma della curva di Gauss Al variare di µ la forma rimane inalterata, si ha solo una traslazione lungo l’asse delle ascisse La forma si modifica al variare di σ σ1 < σ σ μ1 < μ < σ2 > σ μ2 193 Non sono curve di Gauss asimmetria positiva DEVIATA STANDARDIZZATA Z asimmetria negativa Indici di asimmetria Leptocurtica o ipernormale Platicurtica o iponormale Gli indici valgono zero nella distribuzione normale 194 Data la funzione della curva di Gauss, per trovare l’area compresa tra due valori x, si dovrebbe calcolare l’integrale della funzione definito da punto a punto. Fortunatamente si può evitare tale noioso calcolo ricorrendo ad un modello standard di curva normale effettuando la seguente trasformazione di variabile: Indici di curtosi 195 z= x- μ σ 196 49 Il valore della deviata standardizzata (z) significa che, un qualsiasi valore (x), dista dalla media (µ) z deviazioni standard (σ). In corrispondenza di: x=µ z =0 Tabella delle aree sottese alla curva normale Nelle appendici dei testi si trovano le tavole con i valori dell’area compresa nell’intervallo tra 0 e z. Data la simmetria della curva: p(-z) = p(z) x=µ+σ z =1 x=µ-σ z =-1 197 z 68.26% 95% 99.73% 0,00 0,01 0,02 …. …. …. …. …. …. …. …. 198 Alcuni esempi di calcolo mediante curva normale standardizzata Alcuni valori caratteristici della p(z) 0,0 …. …. …. …. …. …. …. …. 1,0 0,34134 …. …. …. …. …. …. …. 1,9 …. …. …. …. …. 3,0 0,49865 I valori di z sono letti con un intero ed un decimale sulla I colonna ed un secondo decimale sulla riga di testata. …. 0,06 …. …. …. …. …. …. …. …. …. …. …. …. …. 0,47500 …. …. Vedi tavola completa nell’ultima pagina Notare che l’area tra la µ ± 3σ comprende quasi l’intera distribuzione 199 Sapendo che in una popolazione di 2500 unità l’altezza si distribuisce normalmente con media di cm. 172 e scarto quadratico medio pari a cm. 10, determinare quante unità ci si aspetta di trovare tra 175 e 180 cm. Per la soluzione, si deve trovare l’area evidenziata e moltiplicarla per 2500 200 50 Poiché le tavole forniscono la probabilità della variabile compresa tra 0 e z, si procederà in due tempi, ricordando che µ = 172 e σ = 10: z1 = Dal precedente esercizio: qual’è la percentuale di popolazione che misura oltre 180 cm.? 180 - 172 = 0.80 10 dalle tavole p(z = 0.8) = 0.2881 z2 = 175 - 172 = 0.30 10 dalle tavole p(z = 0.3) = 0.1179 sottraendo: p(0.30 < z < 0.80) = 0.1702 Ci si aspetta ci siano 0.1702 x 2500, 425 o 426 unità 201 Un’indagine epidemiologica ha evidenziato che la pressione arteriosa minima in maschi di età compresa tra 40 e 60 anni si distribuisce normalmente con media 85 e deviazione standard 5. Quali saranno i valori che, senza contare i casi simmetrici estremi, avrà l’80 % della popolazione? 80 ? 85 90 ? In questo caso, si dovrà cercare all’interno della tavola la probabilità 0.40 e vedere qual’è la z corrispondente 203 Poiché la distribuzione è simmetrica, il 50 % della popolazione avrà un valore tra la media ed oltre. Avendo calcolato che tra media e 180 cm. c’è il 28.81 %, la risposta è 0.50 - 0.2881 = 0.2119. Il 21.19 % z 0,00 0,01 0,0 …. …. …. …. …. …. …. …. 1,0 0,34134 …. …. …. …. 1,2 …. …. …. …. …. …. …. …. 3,0 0,49865 µ = 85 …. 0.08 0,09 …. …. …. …. …. …. …. …. …. …. …. …. …. …. …. …. 0,39973 0,40147 …. …. …. …. …. …. 202 La probabilità più vicina a 0.40 è quella per z = 1.28 I limiti dei valori cercati, entro i quali è compresa l’80 % della popolazione saranno dati da µ ± 1.28σ , quindi: σ=5 x1 = 85 - (1.28 x 5) = 78.6 x2 = 85 + (1.28 x 5) = 91.4 204 51 205 206 207 208 52