L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 LA STATISTICA PREREQUISITI. Insiemi, numeri, funzioni, sistemi lineari, grafica. SCOPI. Presentare nozioni di base della statistica. PR E MESS A. Il contenuto di queste pagine riporta, con alcune risistemazioni e qualche integrazione e correzione, il contenuto delle lezioni di Statistica tenute nell’anno accademico 2011/12 come modulo di 2 crediti dell’insegnamento di Matematica, Statistica ed Informatica del I anno della laurea triennale in Scienze Naturali. Lo stesso modulo è stato mutuato una tantum dagli allievi del II anno, come modulo di 3 crediti dell’insegnamento di Genetica e Statistica. Negli anni passati, infatti, questo modulo non era collegato all’insegnamento di Matematica e Statistica, ma a quello di Genetica. L’averlo caricato per motivi di riassetto dovuto alla legge Gelmini, sul mio insegnamento di Matematica mi ha costretto ad organizzare in tre mesi una disciplina largamente estranea ai miei interessi e sulla quale non avevo alcuna competenza né preparazione universitaria, ma solo un uso occasionale di nozioni di base. Questo è il motivo delle lacune anche importanti (il test t di Student, le distribuzioni bimodali, ecc.) e la presenza di alcune dimostrazioni di formule mediante integrazioni dei contenuti matematici, forse non necessarie e comunque non assimilate dagli allievi. Manca inoltre l’attività di laboratorio, eliminata anche a causa dello spropositato numero di allievi (circa 400 tra I e II anno), ben superiore alle medie di 60 allievi al massimo negli anni precedenti. INDICE: Introduzione: che cos’è Statistica? p. 2 §1 Le rappresentazioni grafiche dei dati p. 4 §2 Medie e indici di dispersione p. 13 §3 Correlazione fra serie di dati p. 21 §4 Probabilità e Statistica: il caso discreto p. 35 §5 Probabilità e Statistica: il caso continuo p. 50 §6 Esercizi p. 55 Bibliografia p. 72 1 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 INT ROD UZIONE: CHE C OS’È L A STATIST ICA ? Secondo il poeta romano Trilussa, la Statistica è quella cosa per cui se tu mangi due polli ed io nessuno, abbiamo mangiato un pollo a testa. Un po’ di ragione Trilussa l’aveva: la Statistica non si occupa dei casi singoli, ma cerca di descrivere che cosa succeda in generale. In quasi ogni attività umana si tratta di: • raccogliere dati o informazioni, • cercare di organizzarli, per capire come funziona ciò che stiamo esaminando, • al fine di servircene per formulare leggi, fare previsioni, e poter acquisire più conoscenza, guadagnare più denaro o spenderne di meno, ottenere più benessere , salute o potere. Ogni Scienza può essere usata per fini positivi, di progresso globale, ma anche per fini negativi, subdoli. La Statistica non fa eccezione. Spesso le statistiche sono manipolate per fini propagandistici, elettorali, o per far compiere ai cittadini azioni che normalmente non si sognerebbero di fare. Chi raccoglie i dati e li organizza può influenzare, consapevolmente o no, i risultati ottenuti. Vediamo due esempi per chiarire questo punto delicato: a) In Fisica si riflette su come si possano misurare certe grandezze, e come sia necessario ripetere più volte una misura, per ovviare agli errori casuali. In qualche caso, l’atto del misurare può modificare il fenomeno: una barretta di metallo afferrata per confrontarla col metro un po’ si allunga a causa del calore della nostra mano, o si incurva, ecc. b) Il nostro Corso di Laurea invia un questionario ai suoi laureati, chiedendo loro se sono stati soddisfatti degli studi e del loro esito. Risponde un certo numero di ex allievi, l’80% dei quali afferma di essere soddisfatto. Si può essere contenti? La quasi totalità delle risposte è positiva! O no? Non è che hanno risposto soprattutto quelli soddisfatti? Il campione è davvero significativo? 2 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Scopo di questo corso non è l’analisi del modo con cui i dati sono raccolti. Qui i dati sono arrivati, ed ora che ce ne facciamo? Come li organizziamo? Come li rappresentiamo? Neppure questa è un’attività “neutra”, oggettiva: il modo di rappresentare i dati può essere usato per fuorviare il giudizio dei destinatari delle informazioni. ES E MPI O 1. Nei due grafici qui sotto, quale delle due rette è più “ripida”? In realtà, si tratta della stessa retta, di equazione y = x , ma nel primo caso l’unità di misura nei due assi è la stessa, mentre nel secondo caso l’unità di misura sull’asse x è doppia di quella sull’asse y e la retta sembra avere ! una pendenza inferiore. L’effetto visivo è ben diverso nei due grafici. ES E MPI O 2 : rappresentazione a istogramma della tabella: x 0 1 2 3 4 5 6 7 8 y 100 102 100 98 96 94 96 100 98 ! Potrebbe essere il valore di una quota di un’obbligazione nei vari mesi dopo l’acquisto. • Nel primo grafico, la scala sull’asse verticale va da 0 a 110; • Nel secondo, il tratto continuo va da 93 a 104, ossia è mostrata solo la parte alta delle colonne. L’impressione nel primo caso è di lievi fluttuazioni, mentre nel secondo è di grande instabilità. 3 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 §1. LE RAPPR ESE NTAZIONI GR AFICHE DE I D ATI. Ce ne sono di vario tipo, e basta aprire un giornale economico o un atlante per rendersene conto. A) I diagrammi a canne d’organo e istogrammi. Sono grafici in cui compaiono rettangoli appoggiati sulla stessa retta e con altezze differenti. • Nel primo caso, le basi sono tutte uguali e sono le altezze a rappresentare i dati. • Nel secondo, le basi possono essere diverse e i dati sono rappresentati dalle aree. Esempio di diagramma a canne d’organo separate: I 35 anni dal 1975 al 2010 sono qui indicati col loro numero progressivo. In ordinata i metri cubi consumati. L’asse delle x può riferirsi anche ad insiemi di dati non numerici, quindi collocati in ordine arbitrario. ESEMPIO tratto da un bilancio preventivo condominiale: Spese Spese Spese Spese Spese Spese Spese amministrative di manutenzione comuni di riscaldamento per gli ascensori individuali straordinarie 3.000,00 14.600,00 39.200,00 203.000,00 14.000,00 3.040,00 79.000,00 4 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 NOTA. Quando le grandezze x cui si riferiscono i dati y sono di tipo numerico, l’uso di istogrammi in cui i rettangoli hanno basi diverse può servire per conglobare lunghe serie di dati x con valori molto bassi della y. In tal caso, i dati y sono espressi dalle aree e non dalle altezze. B) Diagrammi a settori o “a torta”. Si usano soprattutto per evidenziare i rapporti percentuali fra un numero limitato di dati positivi rispetto al totale. L’esempio del preventivo condominiale si presta bene allo scopo: • Le percentuali sono qui arrotondate agli interi. • La loro somma è 100 (o dovrebbe esserlo). • Il vantaggio di questo diagramma è evidenziare i dati con l’incidenza maggiore, ossia, in questo caso, le voci “riscaldamento” e “straordinarie”. 5 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 C) Diagrammi cartesiani. Si usano quando i dati x ed y sono numerici. Rispetto ai diagrammi a colonna, è possibile interpolare i punti (x,y) congiungendoli con segmenti, ammesso che ciò abbia qualche senso. Es e mp io: andamento del costo al metro cubo dell’acqua dagli anni 1975 al 2010 (con costi tradotti in euro). Gli anni sono numerati da 1 a 35, ed il costo unitario medio annuo (ottenuto dividendo la spesa per il consumo) è rappresentato dai rombi. La variazione da un anno all’altro è mostrata dai segmenti che uniscono punti consecutivi. Alcuni software, tra cui Excel, mettono a disposizione altri tipi di grafici, anche personalizzati. Es e mp io: un istogramma 3D rappresenta due serie di dati, riferiti ad una fattoria che negli anni ha variato il numero di tipi di animali in suo possesso. 1975 1976 1977 1978 1979 1980 1981 1982 cavalli 2 3 4 2 3 3 2 1 mucche 8 10 8 12 10 9 8 6 pecore 20 23 25 22 26 20 22 15 6 conigli 26 20 26 24 25 20 22 15 galline 30 28 32 35 30 24 24 20 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 C’è il rischio di non vedere dati nascosti da altri più alti. D) Ideogrammi. Un modo più buffo di rappresentare dati è usare degli ideogrammi, uno per ogni unità. Ma se i dati non sono interi, come si fa a rappresentarli? Inoltre, poiché ad occhio si distinguono solo tre o quattro oggetti, se non si va a contarli una valutazione quantitativa può essere difficoltosa. Es e mp io: ecco un ideogramma, che mostra il numero di aerei posseduti da una compagnia negli anni indicati. 1990 11 ✈ 1995 14 ✈✈ 2000 15 ✈✈ 2005 8 Senza la tabella della seconda colonna, il diagramma suggerirebbe un andamento di massima del numero di aerei. 7 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Dal 2009 al 2010 un allevamento ha raddoppiato la sua produzione di conigli e lo mostra col seguente ideogramma. Lo fa correttamente? NO. Le dimensioni del coniglio sono raddoppiate, ma l’area è quadruplicata e l’impressione visiva è falsata. ESERCIZIO: La seguente tabella riporta il saldo medio del conto corrente di un condominio, alla fine di ogni mese: mese avanzo Gen. mese avanzo 63.000 Feb. 39.000 Mar. 11.000 Apr. 34.000 Mag. 2.000 Giu. -20.000 Lu. 34.000 Ago. 21.000 Sett. 7.000 Ott. 69.000 Nov. 56.000 Dic. 19.000 Quale tipo di rappresentazione grafica scegliereste per rappresentare questa tabella di dati? Risposta: tipo Istogramma risposta cSÌc Torta cNOc Grafico cartesiano Con ideogrammi Perché no? Alcuni dati negativi e dati non simultanei cSÌc cNOc I dati non sono oggetti concreti Ecco due possibili rappresentazioni: un diagramma a canne d’organo separate e un grafico cartesiano coi punti congiunti da segmenti. 8 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 PR OB LE MA: consideriamo tutti i numeri decimali compresi tra 0 ed 1, con un numero prefissato n di cifre decimali (zeri compresi). Di questi, quanti ne possiamo scrivere senza usare la cifra 1? Quasi tutti? La maggior parte? Con una cifra decimale abbiamo 10 numeri: 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Di questi, ben nove su dieci si scrivono senza la cifra 1, il 90% del totale. Con due cifre decimali, da 0,00 a 0,99 ci sono 100 numeri: esclusa la cifra 1, abbiamo nove cifre disponibili per i decimi e altrettante per i centesimi: perciò 9 " 9 = 81 numeri senza la cifra 1. Elenchiamo gli altri 19: 0,01 0,10 0,11 0,12 0,13 0,14 0,15 ! 0,16 0,17 0,10 0,21 0,31 0,41 0,51 0,61 0,71 0,81 0,91 0,18 Poiché abbiamo 81 numeri su cento senza l’1, la percentuale è 81%. Con tre cifre decimali: 1000 numeri, di cui 9 " 9 " 9 = 93 = 729 senza la cifra 1. Dunque, siamo scesi al 72,9% senza la cifra 1. Per una formula generale, ragioniamo ! così: • 9 casi su 10 sono rappresentabili con la frazione " 9 %2 81 = $$ '' ; 100 #10 & ! " 9 %3 729 = $$ '' . • 729 casi su 1000 con la frazione 1000 #10 & ! 9 10 ; • 81 casi su 100 con la frazione " 9 %n Si può intuire che i numeri con n ≥ 1 cifre decimali senza nessun 1 siano $$ '' = 0, 9n . #10 & ! La tabella seguente ne illustra alcuni valori in percentuale n % 1 90,0% 2 81,0% 3 72,9% 4 65,6% 5 59,0% 6 53,1% 7 47,8% 8 ! 43,0% 9 38,7% 10 34,9% I valor i so no arroto nda t i a lla prima cifr a d ecimale. Co n se tte cifre dec imali i n u mer i s enza la c ifra 1 sono g ià meno de lla me tà. 9 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Dal diagramma a colonne al grafico di una funzione. Per rappresentare più convenientemente i dati è utile descriverli mediante una funzione “matematica” scelta opportunamente. Un passaggio intermedio è l’uso di un diagramma cartesiano per rappresentare gli stessi dati. Vediamo l’esempio precedente: " 9 %x Di qui si può passare al grafico della funzione esponenziale y = $$ '' , che collega i dati in #10 & modo “naturale”. !Il grafico è qui eseguito con la calcolatrice TI-92 Plus, ed è dimetrico per comodità, con 0 " x " 40 . Esso suggerisce che il numero di numeri decimali senza ! la cifra 1 tende a zero al tendere all’infinito del numero x delle cifre decimali. Vediamo un altro esempio, di carattere combinatorio: il trian golo arit me t ico (o di Tart ag lia ) "n % n! • Contiene i coefficienti binomiali $$ '' = , che sono tutti numeri naturali. #k & k!( n ) k ! ( ) • La prima colonna (k = 0) è sempre 1. • Se k > n viene sempre 0. ! "n % • Ogni termine con n, k > 0 è somma dei due che lo sovrastano: $$ '' = #k & • La somma di ogni riga è una potenza di 2. • Fornisce i coefficienti dello sviluppo delle potenze di a+b. ! 10 "n - 1% "n - 1% $$ '' + $$ '' . #k - 1& # k & L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 n\k 0 1 2 3 4 5 6 7 8 0 1 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 2 1 2 1 0 0 0 0 0 0 3 1 3 3 1 0 0 0 0 0 4 1 4 6 4 1 0 0 0 0 5 1 5 10 10 5 1 0 0 0 6 1 6 15 20 15 6 1 0 0 7 1 7 21 35 35 21 7 1 0 8 1 8 28 56 70 56 28 8 1 (gli zeri non li ho messi per comodità). Per n = 5 si ha: 5 (a + b) = a5 + 5a 4 b + 10a3b2 + 10a 2b3 + 5ab4 + b5 Ecco una traduzione visiva del triangolo di Tartaglia al variare dell’esponente da 0 a 6, con ! grafici 3D e cartesiano: 11 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Sovrapponiamo ora i grafici per n = 6, eseguiti con la TI−92 Plus, insieme con un modello di quei dati: Istogramma a canne unite Diagramma cartesiano, ottenuto unendo i punti medi delle basi superiori rettangoli La funzione interpolante: ( ) #3" x#3 y = 20 " e è una campana di Gauss. ! Qualcosa di simile accade per le altre righe del triangolo di Tartaglia. Che significato hanno i numeri 20, 3, -3/10 che compaiono in questa funzione? 12 2 10 dei L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 §2. MED IE E INDIC I D I DISPE RSIONE 1 Dati n numeri reali x1, x2, ...., xn , si chiama media aritmetica il numero: µ = n n " xi . i=1 Esempio II.1. Siano date le tre liste seguenti: (1) 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9 (2) 4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9, 10, 10, 11, 11, 12 (3) 32, 0, 0, 0, 0, 15, 0, 15, 17, 0, 17, 0, 0, 32, 0, 0 ! In tutti e tre i casi si ha n = 16 e µ = 8. Spesso degli n dati solo r sono distinti e molti compaiono più volte. Se il dato xi compare fi volte, il numero fi si chiama frequenza assoluta (o peso) del dato xi. Il rapporto fi n si chiama frequenza relativa del dato xi. r La somma delle frequenze assolute è i=1 ! La media µ = " fi = n . 1 n r r $ ' # (f i " x i ) = # && fn " x i )) i=1 i=1!% i è detta media ponderata dei dati. ( Esempio II.1 (seguito). Determiniamo le frequenze dei dati nelle tre liste e fabbrichiamo tre ! tabelle con due righe: nella prima mettiamo i dati distinti e nella seconda le loro frequenze. Poi rappresentiamo con istogrammi le tre situazioni: dati 7 8 9 frequenze 5 6 5 5 + 6 + 5 = 16 ! ! µ= 7 "5 + 8 " 6 + 9 "5 =8 5+ 6 +5 ! 13 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 4 5 6 7 8 freq. 1 2 2 2 2 dati 9 10 11 12 freq. 2 dati 2 dati 0 freq. 10 2 1 15 17 32 2 2 2 Esempio II.2. In Geometria Analitica ed in Fisica la media aritmetica e la media ponderata hanno interpretazioni in termini di baricentro di un insieme di punti. A) ( Siano A = x1, y1 ) ( ) e B = x2, y2 . Il punto medio dei "x + x y + y % 2, 1 2 ' , che ha la media due punti è D = $$ 1 ' 2 2 # & ! ! aritmetica delle coordinate di A e B. ! Sia ( ) C = x3, y3 un altro punto. baricentro Il del triangolo ABC è "x + x + x y + y + y % 2 3, 1 2 3 ' , che ha per coordinate la media aritmetica delle coordinate G = $$ 1 ' 3 3 # & ! dei tre punti A, B, C. ! B) ( ) Dati r punti distinti A i = x i , y i , 1 " i " r , se in A i è collocata una massa m i , il ( ) baricentro del sistema di punti ha coordinate G = x, y , dove x ed y sono le medie ponderate delle!coordinate degli r punti: r x= # m i " xi # m i , i=1 ! r ! i=1 ! ! r y= 14 r ! # m i " yi # m i i=1 ! ! i=1 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 APRIAMO UNA PARENTESI. I punti nel piano cartesiano si rappresentano come coppie ordinate (ossia liste di lunghezza 2) di numeri reali: per questo il piano cartesiano si indica anche con R×R, o meglio con R2 . Nello spazio ordinario, per individuare un punto occorrono tre numeri. Ossia, ogni punto P dello spazio si rappresenta come una terna ordinata (ossia una lista di lunghezza 3): ! P = x, y, z . Lo spazio cartesiano si indica allora con R3. ( ! ) Nulla vieta di considerare più in generale l’insieme Rn delle liste di lunghezza n o n-uple ! ordinate. I suoi elementi sono detti anche punti o vettori ed hanno la forma ( ) A = a1, a 2, K, a n . ! Su questi punti possiamo eseguire delle operazioni: ! ( ) Somma di punti: se B = b1, b2, K, bn , allora: A + B = a1 + b1, a 2 + b2, K, a n + bn " Rn ( ) Prodotto di un ! numero k per un punto: k " A = k " a1, k " a 2, K, k " a n # Rn ( ! ) Prodotto scalare di punti: ( ) A " B = a1 # b1 + a 2 # b2 + K + a n # bn $ R ! Il prodotto scalare di due punti è un numero e non un punto ! Perché i punti di Rn li chiamiamo vettori? ( ) Per cominciare, il punto O = 0, 0, K, 0 lo chiameremo origine o vettore nullo. ! Il punto A = a1, a 2, K, a n ≠ O lo identificheremo col ! " ( ) vettore OA ! ! D = A+B corrisponde alla somma " " " OD = OA + OB con la legge del parallelogramma: ! 15 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 E = k⋅A corrisponde al prodotto " " OE = k # OA : E è sulla retta OA; ! OE = k " OA . ! Il teorema del coseno assicura che il numero A " B è proprio il prodotto scalare: " " OA#OB = OA $OB $cos(AÔB) ! ! Che ce ne facciamo di questi vettori di Rn ? Queste operazioni consentono di estendere la Geometria anche a dimensioni maggiori di 3, che non riusciamo ad immaginare. ! L’idea risolutiva è che, aumentando il numero di coordinate, basta allungare le formule. ( ) ( ) Siano A = a1, a 2, K, a n , B = b1, b2, K, bn . Vediamo la distanza AB tra di essi per n = 1, 2, 3, … ! a) n = 1: AB = a1 " b1 = ! (a1 " b1) 2 ! 2 2 2 2 b) n = 2: AB = ! (a1 " b1) + (a 2 " b2) c) n = 3: AB = ! (a1 " b1) + (a 2 " b2) + (a3 " b3) n d) n ≥ 1: AB = ! # (a i " b i ) 2 2 i=1 ES E MPI O I I.3 Dati A = 5, 4, "1, 0 , B = -5,1, "3, 4 # R4 , si ha: ( ! A + B = 0, 5, "4, 4 ; ( ! ! ) ( ) ) ( ) 3 " A = 15,12, #3, 0 ; ! ! A " B = 5 # $5 + 4 #1 + $1 # $3 + 0 # 4 = $18 ; AB = ! ( ) 2 2 2 (5 + 5) + (4 " 1) + ("1 + 3) + (0 " 4) ( )( ) 2 = 129 ! Ciò posto, possiamo reinterpretare in modo diverso alcuni fatti già visti: 1 " A +B 2 ( ) a) Il punto medio di AB è D = b) Il baricentro di ABC è G = c) ! La media ponderata è il prodotto scalare X×F del vettore X = x1, x2, K, x r 1 " A +B+C 3 ( ) ( ! "f f f % dati distinti per il vettore F = $$ 1 , 2 , K, r '' delle loro frequenze relative. n& #n n ! 16 ! ) dei L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Che vantaggio c’è? • Il vedere un concetto da diversi punti di vista aumenta la difficoltà, ma anche la sua comprensione. • Certi concetti appaiono oscuri se visti in un modo, ma chiari se visti in modo diverso. • Per qualcuno di noi un concetto è più facile da capire se visto in un certo modo; per un altro di noi è preferibile una strada diversa. • In realtà, lo scopo di introdurre i vettori in questo corso si vedrà nel capitolo sui modelli statistici, perché mediante semplici considerazioni geometriche, note dallo spazio ordinario, ma trasferite in ambiente n-dimensionale, si potranno giustificare certe formule. :Altr i ind ic i di med ia: : - La mediana di dati ordinati in senso non decrescente, è il dato che occupa il posto centrale (se n è dispari) o la media aritmetica dei due centrali (se n è pari).c Non è influenzata da un dato troppo piccolo o troppo grande rispetto agli altri. - La media geometrica di n dati positivi è la radice n− esima del prodotto dei dati: n x " x " L x . Rispetto alla media aritmetica, è talora preferibile se i dati crescono in 1 2 n modo esponenziale. ! - La moda è ogni dato con la frequenza maggiore. Si usa anche per dati non numerici. Questo termine è di uso corrente anche nella vita quotidiana. - La media armonica di n dati positivi è il reciproco h del numero 1 1 = " h n n # x1k , ossia della k=1 media aritmetica dei reciproci dei dati. Si usa raramente; esempi si trovano in Elettrotecnica. ! ES E MPI O I I.4. Immaginiamo di voler determinare lo stipendio medio annuo netto dei dipendenti di un maglificio.Il direttore guadagna 150.000 l’anno; i tre impiegati 20.000 , i trenta operai 15.000 , i quattro fattorini solo 10.000 . La media aritmetica (ponderata) è: 1 "150.000 + 3 "20.000 + 30 "15.000 + 4 "10.000 # 18.421 1 + 3 + 30 + 4 17 ! L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 La moda e la mediana sono invece uguali a 15.000 . Rispetto alla media aritmetica, forse quest’ultima media rappresenta meglio la situazione degli stipendi. ES E MPI O I I.5 . Per dati a crescita rapida, il dato più alto sposta la media aritmetica troppo verso l’alto. Vediamo un esempio con i seguenti 7 dati a crescita esponenziale. dati Log 6 0,77815 12 1,07918 24 1,38021 48 1,68124 96 1,98227 192 2,28330 384 2,58433 La media aritmetica è circa 108,85, la mediana e la media geometrica valgono 48. NOTA. In mancanza di strumenti di calcolo, si preferiva un tempo calcolare i Logaritmi dei dati, farne la media aritmetica m = 1,68124 e poi calcolare 10m = 48 . ! .INDI CI DI DIS P ERS I ONE. Nelle tre liste dell’Esempio II.1 i dati sono disposti in modo diverso intorno alla loro media aritmetica: nel primo caso sono più “uniformi”, nel terzo sono molto “sparpagliati”. Ci sono vari modi per misurare la loro dispersione. Il primo che viene in mente è l'intervallo di variazione d, cioè la differenza fra il massimo ed il minimo dei dati. Spesso non è significativo, perché influenzato da un eventuale dato troppo grande o troppo piccolo rispetto agli altri. Si usa quando interessa l'ampiezza massima assoluta di oscillazione dei dati. ES E MPI O I I.6. Nel 1975 un metro cubo di acqua costava a Bologna 98,56 lire ( 0,0509); nel 2007 è costato 1,6048 (3.107,32 lire). La variazione è stata di 1,5539 in più in 32 anni; un aumento, quindi di oltre 30 volte (il 3052,85% in più) in 32 anni. In generale, però non è questo l’indice che interessa, ma serve sapere come i dati si distribuiscano rispetto alla loro media. Se calcoliamo semplicemente la somma delle differenze x i " µ troviamo come risultato 0 (basta fare il conto). ! 18 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Potremmo in alternativa calcolare 1 n n # x i " µ , media dei valori assoluti delle differenze dei i=1 dati rispetto alla media aritmetica. Questo è un indice ragionevole, ma poco usato. n ! $ (x i # µ) L’indice di dispersione usato di solito è lo scarto quadratico medio " = i=1 n 2 , chiamato anche deviazione standard. Spesso il n # (x i " µ) 2 quadrato di viene σ varianza chiamata ! (globale), ed il numeratore = n $ % 2 è detto talora devianza. i=1 ! ( NOTE : a) Sia X = x1, x2, K, xn ) il vettore dei dati e sia M = (µ, µ,K, µ) = µ " (1,1,K,1) il vettore con le n coordinate uguali alla media aritmetica µ. Allora " = ! ! 1 n # XM . Ossia, σ misura la distanza geometrica dei dati rispetto alla media, resa indipendente dal numero dei dati mediante la divisione per n. ! b) Lo scarto quadratico medio si calcola anche in un altro modo: sviluppiamo i quadrati, ! 1 ricordiamo che µ = n ottiene: " = ! 1 n n " x i e che i=1 1 n n " µ2 = n1 # n # µ2 = µ2 . Allora, con qualche passaggio si i=1 n # x i 2 $ µ2 . ! i=1 c) Quando si ha solo un campione dei dati e a partire da quello si vogliono fare delle stime sull'insieme di tutti i dati, come indice di dispersione si usa la varianza stimata, ossia la ! n # (x i " µ) devianza divisa per n-1: v = k=1 n "1 2 . Riprendiamo i tre ! esempi iniziali, ossia: (1) 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9 (2) 4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9, 10, 10, 11, 11, 12 (3) 32, 0, 0, 0, 0, 15, 0, 15, 17, 0, 17, 0, 0, 32, 0, 0 Riassumiamo nella tabella seguente i parametri principali: medie e indici di dispersione. 19 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 tipo n µ d σ v (1) 16 8 2 0,79 0,666 (2) 16 8 8 2,345 5,866 (3) 16 8 32 11,325 136,8 OSSERVAZIONE. A) In molte situazioni che interessano la biometria, si trovano liste di dati (per esempio i pesi di maschi adulti di una specie animale, o le lunghezze dei loro femori), nelle quali la media aritmetica, la mediana e la moda approssimativamente sono uguali. In questo caso, il modello matematico che descrive le frequenze rappresentate negli istogrammi è una curva a campana detta “gaussiana”, che ritroveremo più oltre. La media corrisponde al punto di massimo del suo grafico, mentre σ indica quanto sia “bassa e larga” oppure “alta e stretta” la curva: ne riparleremo. In altri casi, che interessano soprattutto il campo medico, ma anche quello ecologico, si confrontano la media aritmetica e la varianza, per valutare se sono circa uguali, ossia se il loro rapporto è prossimo ad 1 oppure no. Anche di questo riparleremo più oltre. B) Alcuni software, per esempio il Data/Matrix Editor della calcolatrice TI-92 Plus, forniscono per una lista di dati numerici: il minimo e il massimo (ossia l’intervallo di variazione), la media aritmetica, la varianza stimata (o la deviazione standard), la somma dei dati, la somma dei loro quadrati, la mediana, il primo ed il terzo quartile, ossia le mediane dei dati minori o rispettivamente maggiori della mediana. Anche questi ultimi sono utili per comprendere la dispersione, soprattutto quando i dati sono tanti. In compenso, di solito non è agevole avere la lista delle frequenze assolute o relative dei dati. Nelle figure qui accanto vediamo la lista n° 2 dell’esempio precedente, memorizzata nella colonna c1 di un documento sulla TI-92 Plus. L’apposita funzione fornisce la media aritmetica x , la somma dei dati, la somma dei loro quadrati, il numero Sx = v , il numero totale dei dati, il minimo, il primo quartile, la mediana o secondo quartile, il ! terzo quartile, il massimo dei dati. ! Osserviamo che dal dato Sx, per ricavare σ occorre moltiplicare per ! 20 n "1 15 = # 0, 968. n 16 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 §3. CORRELAZIONI FRA SERIE DI DATI Spesso accade di confrontare fra di loro due o più serie di dati, al fine di stabilire se vi sia una qualche correlazione fra di essi. Ma attenzione ad interpretare correttamente il risultato del confronto! Per esempio, se si esaminano dal 1950 al 1970: A) l’andamento delle vendite di lavatrici B) l’immatricolazione di automobili, C) il numero delle vittime in incidenti stradali, si nota che tutti e tre i dati aumentano. Ossa, il legame fra le grandezze A e B è una funzione crescente; lo stesso fra A e C; lo stesso fra B e C. Possiamo concludere che vi sia un qualche legame di causa-effetto? Ossia, Più lavatrici causano più automobili? O viceversa? Più lavatrici causano più vittime della strada? O viceversa? Più automobili causano più vittime della strada? O viceversa? Sembra poco ragionevole soprattutto la seconda implicazione, in entrambi i versi. La terza sì che potrebbe mostrare un legame causa – effetto. Qui non studiamo come interpretare i dati di due grandezze variabili x ed y, ma come determinare una funzione y = f(x) che descriva al meglio la loro compresenza, ossia fornisca un modello matematico semplice per le coppie (x, y) di dati. Sia dato un certo fenomeno, che coinvolge due grandezze variabili x ed y o l'una in dipendenza dell'altra o misurate contemporaneamente. Eseguendo n esperimenti con le modalità opportune, ( si ottengono ) ( n coppie ) ordinate x1, y1 ,K, xn , yn . Ordiniamo le coppie in modo che sia x1 ! " x2 " K " xn . ! x x1 x2 L xn y y1 y2 L yn Ciascuna di esse corrisponde ad un punto del piano cartesiano, ed è quindi possibile ! visualizzare graficamente i dati ottenuti. 21 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Quando i dati x sono tutti diversi, è utile e spesso necessario, cercare di rappresentare i punti (x, y) con una formula del tipo y = f(x), cioè con una funzione definita in un intervallo contenente tutti i dati x1, x2,K, xn e tale che per ogni i, 1 " i " n , si abbia f(xi ) ≈ yi. ! sarà un polinomio. Il Si cerca cioè un modello matematico dei dati, che, quando possibile, ! criterio che si segue è quello della semplicità, per cui raramente si usa il "polinomio interpolatore", ossia il polinomio di grado minimo p x = a 0 + a1x + a 2x2 + K + a n"1xn"1, tale () ( ) che p x i = y i per ogni i, a causa del suo grado elevato. ! i ) per poter usare polinomi di grado assai più Si rinuncia quindi all'uguaglianza tra yi ed f(x ! basso. Ecco un esempio eseguito con x y 0 1 1 2 2 3 4 5 6 la calcolatrice TI-92 Plus. 2 3 5 5 7 Qui sotto polinomio interpolatore, assai poco ma- 7 6 neggevole, ! Come il nell’esempio, può accadere che gli n punti si dispongano vamente approssimatisecondo retta. Può quindi una essere utile trovare “la retta che approssima meglio i dati”. Si va quindi a cercare un modello lineare y = m "x+q y = 0, 845 " x + 0, 9167 del fenomeno in esame. ! Come si fa? ! 22 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 In generale si ha n > 2, per cui gli n punti non sono allineati e quindi il sistema seguente è impossibile: #m "x +q = y 1 1 % % m " x 2 + q = y2 $ L % %&m " x + q = y n n Si cercheranno allora n nuovi valori (1) y'1 , y'2 , ..., y'n, tali che, sostituiti al posto degli yi, ( ) rendano possibile il sistema! allineando i punti x i , y"i . Si cercherà inoltre commettere di l'errore "minimo possibile", cioè i nuovi valori dovranno qualche di y essere modo in " più i vicini possibile" ai vecchi x y" 0 0, 917 1 1,762 2 3 4 5 6 ! 2, 607 3, 452 4,298 5,143 5, 988 7 6,833 Inoltre dovremo avere, insieme con i valori di m e q, un indice che ci permetta di valutare ! se il nostro modello lineare sia adeguato oppure no a descrivere il fenomeno in esame. La retta che troveremo sarà detta retta di regressione, e l'indice che valuta l'adeguatezza del modello lineare sarà chiamato coefficiente di correlazione. Come trovare la retta di regressione Data la nostra tabella con i valori di x ed y, siano: x= 1 n n " xi , i=1 y= 1 n n " yi i=1 le medie aritmetiche dei dati x e dei dati y. Siano " x = 1 n n # xi 2 $ x2 ! e "y = i=1 1 n n ! # y i2 $ y2 le deviazioni standard dei dati x ed y. i=1 n ! Poniamo poi c xy = 1 xi yi # x $ y . n! " i=1 Indichiamo ora con X il vettore di Rn avente per coordinate x1, x2,K, xn , con Y il ! degli y1, y2,K, yn e con U il vettore avente tutte le coordinate uguali ad 1. vettore 23 ! ! L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Li scriveremo tutti come colonne, anziché come righe, per comodità, ma non cambia nulla. Il sistema (1) si riscrive, in forma vettoriale, mX+qU = Y ed è di solito impossibile. NOTA. Al variare dei coefficienti m e q, il vettore mX+qU, detto combinazione lineare di X ed U, riempie il piano Π passante per i tre punti O, X, U. Infatti, vettori su quel OX determinano piano, i e OU gli assi cartesiani; le lunghezze dei ! ! due vettori sono le unità di misura; le coordinate di un punto di quel piano sono allora i coefficienti m e q Siamo abituati a coordinate cartesiane con assi perpendicolari, ma non è sempre possibile. Basta che i due assi non siano paralleli, ma si incontrino in un punto, che sarà l’origine O. Da ogni punto del piano si mandano le parallele agli assi, per trovarne le coordinate. Sia Y' il vettore di Rn avente per coordinate i numeri y'1 , y'2 , ..., y'n cercati. Allora il sistema: mX + qU = Y' (2) deve avere soluzione, cioè il punto Y' deve appartenere al piano Π di Rn costituito da tutte le combinazioni lineari di X ed U. Il punto Y invece non appartiene a tale piano, perché il sistema (1) è impossibile. Occorre dunque scegliere un punto Y'∈Π, e sceglierlo in modo che si discosti il meno possibile dal punto Y, per commettere l'errore minimo possibile. A tal fine, come suggerisce Geometria, la scegliamo come Y' il piede della perpendicolare condotta da Y a Π. 24 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Si tratta ora di tradurre algebricamente il procedimento. Il vettore Y-Y' è perpendicolare a Π, quindi lo è ad ogni vettore di Π, ed in particolare è perpendicolare ad X e ad U, che appartengono a Π. Pertanto i prodotti scalari devono essere nulli: % X " Y # Y$ = 0 ' ) & '( U " Y # Y$ = 0 ( ( ) ) % X " Y = X " Y$ . & ( U " Y = U " Y$ Sostituiamo ad Y' la sua espressione mX+qU. Con qualche passaggio!si ottiene: # X " Y = X " mX + qU #m X " X + q X " U = X " Y % % '$ $ %& U " Y = U " mX + qU %&m X " U + q U " U = U " Y ( ( ) ) ( ( ) ( ) ( ) ) Questo è un sistema di due equazioni nelle incognite m, q. n ! Ricordiamo che: X"X = # yi = n $ y X"Y = i=1 ! n 2 X"U= i=1 n n Y"U= # xi Allora il sistema diventa: i=1 # xi yi U"U = n i=1 ! # xi = n $ x ! ! * $n ' n , 2) & xi ) + q " n " x = xi yi ,m " & + & ) i=1 % i=1 ( , , m " n " x + q " n = n "y - ! ( # ( ) # ) Per determinare le incognite m e q, semplifichiamo la seconda equazione per n e ricaviamo: q = y " m # x. ! Sostituiamo nella prima equazione, ed otteniamo: n m" n 2 # x i + ( y $ m " x) " n " x = # i=1 ! i=1 ! xi yi % m %n ( n 2 ' * 2 "' xi $ n " x * = xi yi $ n " x " y + ' * & i=1 ) i=1 # # % n ( n 2 2 '1 * 1 2 m "' xi $ x * = x i y i $ x " y + m " , x = c xy . Pertanto: 'n * n ! i=1 & i=1 ) # # % 2 ' c &m = c xy " x '( q = y # m $ x ! (3) Le formule (3) possono essere ! applicate direttamente ai dati e forniscono la retta di regressione y = mx + q. Il guaio è che se i dati sono molti, i calcoli (3) sono complessi, ma per fortuna ci sono i computer. 25 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 ( ) Notiamo che la retta di regressione passa per il punto di coordinate x, y , “baricentro” dei ( ) dati x i , y i . ! ! La retta l’abbiamo, ma sarà significativa? Determiniamo per questo ora il coefficiente di correlazione. La distanza di Y da Π, ossia la distanza YY" di Y da Y' è un primo indice della “bontà” del nostro modello lineare: più è piccola e meglio è. Tuttavia questo numero dipende!dalle unità di misura, e dalle dimensioni delle grandezze in gioco. Come sempre, è preferibile usare un rapporto. Sia Y = y " U il vettore con tutte le coordinate uguali ad y . Si ha Y ∈Π, poiché è un vettore multiplo di U ed appartiene alla retta OU. ! Pertanto Y'- Y è perpendicolare ad Y'-Y, cioè il triangolo di vertici Y, Y', Y è rettangolo in Y'. ! ! Sia α l'angolo tra l'ipotenusa Y Y' e il cateto Y' Y . ! ! YY# Il numero R = cos " = si chiama coefficiente di correlazione assoluto. Il punto Y è tanto YY# ! più vicino a Π quanto più α è prossimo all'angolo nullo, e quindi R è prossimo ad 1. () Il calcolo di R è però complicato dalla necessità di trovare prima il vettore Y', le cui ! coordinate si calcolano con la formula: y'i = m⋅xi + q , 1 ≤ i ≤ n Percorriamo allora un’altra strada. Il prodotto scalare di due vettori non nulli P,Q∈Rn si trova mediante la formula ˆQ . P " Q = OP # OQ # cos $ , dove " = PO () Allora, posto P = Y -Y' e Q = Y -Y, da questa formula ricaviamo il coefficiente di correlazione ! P!# Q , il cui valore assoluto è R. OP $OQ ! ! Con qualche passaggio, si ricava per r la seguente espressione: relativo r = cos(") = ! cr = c xy "x #"y c (5) Ricordiamo che comunque r è un coseno, quindi -1 ≤ r ≤ 1. Il modello lineare sarà tanto più accettabile quanto più r sarà prossimo ad 1 o a -1. ! Si ritiene accettabile se 0,75 ≤ r ≤ 1 oppure -1 ≤ r ≤ -0,75, (ossia 0,75 ≤ ⏐r⏐≤ 1) 26 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 RI ASS UNTO: data una lista di n dati ( x i , y i ) , riportati come punti del piano cartesiano, la retta che mediamente passa più vicino a tutti i punti, detta retta di regressione, ha equazione y = m " x + q , dove: m!= c xy " x 2 , q = y " m # x c xy Il coefficiente di correlazione relativo è r = , con "1 # r # 1 "x #"y ! ! ! ! ! Gli esempi che seguono presentano alcuni casi in cui si può applicare il metodo dei minimi quadrati o direttamente o con alcune varianti preliminari. Distinguiamo alcuni casi: a) Abbiamo già il modello teorico che descrive il fenomeno, e dobbiamo solo trovarne i coefficienti m e q. In questo caso, il coefficiente di correlazione R sarà prossimo ad 1 e il modello sarà adeguato anche per fare interpolazioni, ossia per trovare valori y corrispondenti a degli x intermedi ai dati x i , oppure previsioni, cioè valori y corrispondenti a degli x maggiori o minori di tutti gli x i . b) Non abbiamo un modello teorico, forse perché non può esistere, ma cerchiamo ! comunque una funzione che approssimi i dati ! al meglio, per fare interpolazioni o previsioni. In questo caso, però, più modelli anche molto diversi potrebbero essere discretamente adeguati (ossia con R ≈1), quindi le previsioni potrebbero non essere attendibili. c) Non abbiamo un modello teorico, ma lo stiamo cercando, ossia vogliamo determinare una eventuale legge che colleghi i dati x agli y. In tal caso, dobbiamo cercare quale sia il modello preferibile: retta, parabola, cubica, esponenziale, logaritmo, potenza, funzioni circolari, e poi cercare di spiegare teoricamente perché il modello è adeguato, se lo è. OSSERVAZIONE. Capita spesso di cercare modelli non lineari. In tal caso, si manipolano i dati in modo adeguato per ricondursi al caso lineare. Per esempio, nel caso del modello del tipo esponenziale y = b "a x , con a, b > 0, applichiamo dapprima i logaritmi ad entrambi i membri: ln( y) = ln( b) + x !"ln(a ) Poniamo ora y" = ln y , q = ln b , m = ln a . () () () ! Otteniamo il diagramma semilogaritmico y" = m # x + q . ! retta, ! ! A questo, che è una possiamo applicare il metodo dei minimi quadrati per trovare m m e q. Otterremo infine b = eq , a = e! . 27 ! ! L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 ES ER CI ZI O 3.1. – Il censimento periodico di una cittadina ha fornito i seguenti valori: anno 1950 1960 1970 1980 1990 abitanti 5.220 7.832 11.834 17.021 30.517 Vogliamo stimare l'anno in cui essa raggiungerà i 50.000 abitanti. Sappiamo che l'accrescimento di una popolazione ha un modello esponenziale del tipo y = b⋅er⋅t, con b > 0. Poniamo y* = ln(y), m = r, q = ln(b), x = t " 1940 . 10 Si ottiene la retta y* = m⋅x + q (diagramma semilogaritmico). Per trovare m e q si può ora ! usare il metodo dei minimi quadrati, previa sostituzione dei dati y con i loro logaritmi. x y* ≈ ln(y) 1 8,560 2 8,966 3 9,379 4 9,742 5 10,326 Si ha allora: x = 3, y = 9,395, " x = 1, 414 , " y = 0, 606 , c xy = 0,860 Applichiamo le formule del metodo dei minimi quadrati: ! ! m = c xy " x 2 # ! 0,86 0,1, 4142 # 0, 430 ! !q = y " m # x $ 8,102 R = 0,9965… Si ha così la ragionevole retta: y* = 0,43!x + 8,102. ! Per rispondere al problema, non serve trovare il modello esponenziale. Basta risolvere l’equazione di I grado: ln(50.000) = 0,43 x + 8,102 e ricavare x = 6,308.... Di qui, t = 10x + 1940 " 2003. Pertanto, l'anno in cui presumibilmente la cittadina raggiungerà i 50.000 abitanti sarà il 2003. Per confronto, vediamo i diagrammi esponenziale e semilogaritmico del modello eseguiti con la calcolatrice ! TI-Voyage 200, che in automatico sceglie la finestra ottimale del grafico: in entrambi i casi, l’unità di misura sull’asse y è assai minore di quella dell’asse x, ed inoltre si vede di ogni asse solo il tratto corrispondente all’intervallo dei dati corrispondenti. Altrimenti, i grafici non sarebbero stati visibili. y = 3302 "1,538x y* = 0,43 x + 8,102 28 ! L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Ora per finire confrontiamo la tabella dei valori anno reali y con i valori calcolati con la funzione 1950 1960 1970 1980 1990 1 2 3 4 5 abitanti 5.220 7.832 11.834 17.021 30.517 f(x) 5.080 7.815 12.024 18.498 28.458 x esponenziale: In molti casi che interessano per esempio la Biometria e la Fisica, si hanno modelli matematici di tipo gaussiano. Matematicamente, una funzione gaussiana è una funzione esponenziale che ha all’esponente un polinomio di secondo grado: 2 y = ea"x +b"x+c , con a < 0. La funzione y = a " x2 + b " x + c , con a < 0, ha per grafico una parabola il cui vertice ! # & b 4ac " b2 ( b V = %" , corrisponde al punto di massimo assoluto, e la retta x = " è asse di % ! ( 4a 2a $ 2a ' simmetria. Notiamo che, con qualche passaggio, si ottiene: ! ! 2 # b& 4ac ) b2 y = a " x2 + b " x + c = a " %% x + (( + 2a ' $ 4a Poiché la funzione esponenziale y = ex è crescente, la funzione gaussiana rispecchia lo ! b stesso andamento: la retta x = " 2a ! # & %4ac"b2 ( 4a $ ' è asse di simmetria, il massimo è e , ma è ( ) positiva e per x →±∞ ha limite 0. Pertanto, ha la forma di una campana. ! ! # & %4ac"b2 ( 4a a" x#x b $ ' Se poniamo h = e , x=" , allora la funzione diventa: y = h " e ( ) ( 2a Nel caso ! della figura si ottiene: ! ( ) y = e"e # x#2 2 . ! 29 ! ) 2 , con a < 0. L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 In molti casi, il numero x è noto, perché è la media aritmetica dei dati x. Allora, applicando i logaritmi si ottiene: ! () () ( ln y = ln h + a " x # x ) 2 Possiamo allora porre: 2 y!" = ln y , q = ln h , m = a , x" = x # x () ( () ) e ottenere la retta y" = m # x" + q , i cui coefficienti si possono trovare col metodo dei minimi ! ! ! ! quadrati. ! ES ER CI ZI O 3.2. Consideriamo i coefficienti dello sviluppo della sesta potenza del binomio a+b. Dal triangolo di Tartaglia (o dalla formula di Newton) sappiamo che il coefficiente di "6 % a k b6-k è il coefficiente binomiale $$ '' , 0 ≤ k ≤ 6. #k & Allora abbiamo la tabella seguente: ! x=k "6 % y = $$ '' #k & ! ! 0 1 ! 2 3 4 5 6 1 6 15 20 15 6 1 La media dei dati k è x = 21 7 = 3 . I dati x ed y sono simmetrici rispetto alla media aritmetica, pertanto sarà sufficiente supporre x ≥ 3. 2 Ora calcoliamo! i numeri x" = x # 3 e i numeri y" = ln y : ( x* y* 0 2,996 ! 1 2,708 () ) 4 1,792 ! 9 0,000 Col metodo dei minimi quadrati si ricava ora la retta: y = −0,336⋅x + 3,058, r = -0,999 (ottimo!) Si ha h " e3,058 " 21, 2849 , quindi la funzione finale è: ( ) #0,336" x#3 y = 21, 28 " e 2 , ! frutto di approssimazioni. Confrontiamo i valori reali e quelli calcolati con la gaussiana: k 0 y f(k) 1 1,03 !1 6 5,55 2 3 4 5 6 15 15,21 20 21,28 15 15,21 6 5,55 1 1,03 NOTA. Alla fine del cap. I, il calcolo è stato eseguito in modo semplificato, ponendo h " e3 " 20 , ( ) #3" x#3 a = m = -0, 3 = -3 10 . La funzione gaussiana ottenuta è stata quindi semplificata in y = 20 " e ! ! 30 ! 2 10 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Nei due casi precedenti era noto il modello matematico teorico e si dovevano solo trovare i coefficienti. Ora vedremo un esempio in cui il modello teorico non è noto, perciò potremo confrontare due diversi modelli e la loro adeguatezza. OS SE R VAZI ONE . Con un metodo simile a quello visto per la retta di regressione, anche per dati y dipendenti da più variabili t1, ... , tr si possono cercare modelli della forma y = a 0 + a1t1 + K + a r t r . Occorre allora considerare gli r+1 vettori U, T1, K , Tr . Insieme al vettore nullo O, essi individuano uno spazio Σ a r+1 dimensioni, a cui Y non appartiene. ! In forma vettoriale il sistema (impossibile) è: ! Y = a 0 U + a1T1 + K + a r Tr Il vettore Y’ dei dati modificati sarà scelto in Σ in modo che il vettore Y-Y’ sia perpendicolare agli r+1 vettori U, T1, K , Tr : si otterrà allora un sistema lineare in r+1 ! equazioni ed r+1 incognite a0, a1, ... ar, che ci fornirà il modello cercato. Infine, per dati y dipendenti da una variabile x ma per i quali è adeguato un modello ! polinomiale del tipo p x = a 0 + a1x + a 2x2 + K + a r x r () ci si riconduce al caso precedente ponendo: ti = xi per ogni i = 1, ..., r. ! Il problema è che i calcoli sono ancora più complicati, ed è più difficile scegliere un coefficiente di correlazione. ES E MPI O 3. 3. Sia data la x y "3 "3 "1 "2 tabella seguente: Cerchiamo dapprima un modello lineare, ossia la retta 0 "1 1 0 3 3 di regressione: ! x= ! ! ( 2 2 "3 " 1 + 0 + 1 + 3 "3 " 2 " 1 + 0 + 3 3 1 % = 0, y = = " , "x = # '' $3 + $1 + 02 + 12 + 32 ** $ 02 = 2, 5 5 5 5 & ) "y = c xy = ( ) ( ) ( % 3 (2 2 2 2 1 % # '' $3 +! $2 + $1 + 02 + 32 ** $ ''$ ** = 5 & ) & !5 ) 23 9 106 $ = 5 25 5 ( ) ( ) ( ) ("3) # ("3) + ("1) # ("2) + 0 # ("1) + 1 # 0 + 3 #3 " 0 # $&" 3 ') = 4 5 & ) % 5( 31 ! L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Allora: m = c xy "x c xy r= = 2 = 4 22 = 1, q=" 3 50 3 " # 0 = " = "0, 6 , 5 53 5 4 10 10 = $ $ 0, 97, buono. 2 # 106 5! 106 10, 295 "x # "y ! La retta è quindi: c y = x " 0, 6 . ! Ecco il confronto tra i valori reali e quelli calcolati sulla retta di regressione: x -3 -1 0 1 3 ! y -3 -2 -1 0 3 y' -3,6 -1,6 -0,6 0,4 2,4 Ora per confronto, con l’uso di un software della TI-92 Plus, calcoliamo la regressione quadratica, ossia la parabola “migliore possibile”. Risulta: y = 0,12 " x2 + x # 1 . Si ha poi un coefficiente di correlazione ≈ 0,999, ottimo, migliore del precedente! x -3 -1 0 1 3 y -3 -2 -1 0 3 y' -3,1 -1,9 -1,0 0,1 2,9 ! Il modello quadratico sembra assai migliore dell’altro per rappresentare questi 5 punti. Nell’esempio precedente, poco significativo perché i dati sono solo cinque ed i calcoli per la retta di regressione sono eseguiti a mano, manca un modello teorico e si è proceduto a caso a cercare di descrivere matematicamente i dati. Perciò nel caso si usi la funzione matematica trovata per interpolare i dati, per esempio per sapere che cosa potrebbe valere y per x = 2, il modello lineare dà 1,4, mentre quello quadratico dà 1,48, con poca differenza, solo il 4% della x. Invece, per le previsioni, per esempio per x = 4, si ha rispettivamente 3,4 e 4,92, con una differenza elevata, il 38% della x. Il dato di previsione non è attendibile. 32 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Infine, un esempio del terzo tipo: cerchiamo un modello matematico per la tabella seguente, contenente i risultati di una complessa ricerca sulle funzioni tra un insieme e se stesso, raggruppate in classi secondo certi criteri: x è il numero di elementi dell’insieme ed y il numero di questi raggruppamenti. Il diagramma mostra un andamento di tipo esponenziale, pertanto calcoliamo il logaritmo dei dati y e cerchiamo la retta di regressione: y y ln(y) 1 1 0 2 3 1,099 3 7 1,946 4 19 2,944 5 47 3,850 6 130 4,868 7 343 5,838 8 951 6,858 9 2616 7,869 10 7319 8,898 11 20589 9,933 12 57280 10,956 Ecco il grafico semilogaritmico: i lati superiori dei rettangoli sembrano delineare una retta. Applicando il metodo dei minimi quadrati si ottiene la retta di regressione y = 0,99… x – 1,017…, con r = 0,999… Allora si ricava la funzione esponenziale y = 0, 3616 " e0,99"x . ! Notiamo tuttavia che per x = 12 si ha f(x) ≈ 52.553, un po’ inferiore al dato reale 57.280. La congettura è che il modello migliore sia y = ex-1, almeno per gli x “grandi”. ! 33 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 ES ER CI ZI O 3.5: a) Si riportino sul grafico cartesiano qui a lato i sei punti (x, y) indicati qui sotto: x 0 1 2 3 4 5 y 0 5 9 12 14 18 ! b) Si calcolino la retta di regressione ed il coefficiente di ! correlazione relative a quei sei punti. Si tracci anche la retta sul grafico. c) Il modello lineare è adeguato? Risposta: Media degli x: x " 2,5 Media degli y: y " 9, 67 Scarto degli x: " x # 1,71 ! Scarto degli y: " y # 5, 91 ! Inoltre:!c xy = 10 . Allora: ! , q " 1,1 m " 3, 43 Infine, r = 0, 991 ! ! Il modello lineare è adeguato. Si vede anche ! !dal grafico. Ecco i grafici realizzati con la TI-92 (o con la TI-Voyage200): 34 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 §4. PROBABILITÀ E STATISTICA In questa sezione colleghiamo una teoria matematica, ossia il Calcolo delle Probabilità, con la Statistica. Un punto di collegamento è il concetto di frequenza. La Teoria della Probabilità si può pensare inizialmente come una reinterpretazione della teoria degli insiemi con una terminologia diversa. Si esegue un esperimento, che può avere un certo insieme di esiti, detto spazio campionario Ω. Probabilità Insiemistica Spazio campionario Ω Insieme Ω Esito x Elemento x∈Ω Evento E Sottoinsieme E⊆Ω Evento impossibile Sottoinsieme vuoto ∅ Evento certo L’insieme Ω Evento elementare {x}, x∈Ω Eventi incompatibili A e B A∩B = ∅ L’evento A implica l’evento B A⊆B Si verifica almeno uno dei due eventi A o B A∪B La probabilità è una funzione p che associa ad ogni evento E un numero reale p(E)∈R, con le proprietà seguenti: a) p(Ω) = 1, p(∅) = 0, b) Se l’evento A implica l’evento B allora p(A) ≤ p(B) c) Se gli eventi A e B sono incompatibili, p(A∪B) = p(A)+p(B). Come conseguenza, per ogni evento E si ha 0 ≤ p(E) ≤ 1. NOTA. Si può anche moltiplicare per 100 ed esprimere la probabilità in percentuale. La trattazione è diversa nel caso di spazi campionari finiti o infiniti. Ne l ca so fin ito, in cui lo spazio campionario è costituito da n ≥ 1 esiti, posto { } " = x i 1 # i # n , basta assegnare ad ogni evento elementare {x i } ( ) un numero p x i " 0 , in n modo che risulti ! " p(x i ) = 1, i=1 e allora la probabilità di un evento E è la somma delle ! ! probabilità degli eventi elementari contenuti in E. ! 35 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 ES E MPI O 4.1. Nel lancio di un dado non truccato, la probabilità di uscita di ogni numero è la stessa, quindi una su sei. Ossia, ogni evento elementare ha probabilità 1/6. La probabilità dell’evento: “esce un numero di tre lettere”, ossia dell’evento E = 1, 2, 3, 6 è quindi di 4/6, { } ossia 2/3. ! L’esempio precedente è un caso di equiprobabilità, ossia ogni evento elementare ha la stessa probabilità degli altri. { Ne segue che se " = x i } 1 . n ( ) 1 # i # n , si ha p x i = k Se l’evento E ha k esiti, si ha p E = . n ! ! () ES E MPI O 4. 2. Nel lancio di due dadi (non truccati) si sommano i punteggi. Gli esiti sono i ! numeri da 2 a 12. Poiché i dadi sono due, e ciascuno mostra una di sei facce, ci sono 36 coppie (x,y) di numeri. Sommiamo: s = x+y. Ora, s = 2 si ottiene solo dalla coppia (1, 1), mentre s = 3 si ottiene da (1, 2) e da (2, 1), ecc. Riassumendo: s p(s) 2 1 3 2 4 3 5 4 6 5 7 6 8 5 9 4 10 3 11 2 12 1 36 36 36 36 36 36 36 36 36 36 36 Pertanto, l’evento E = “esce un numero primo”, ossia E = 2, 3, 5, 7,11 ha probabilità: ! ! ! ! ! ! ! ! ! ! ! { () () () () () ( ) p E = p 2 + p 3 + p 5 + p 7 + p 11 = ! } 1 + 2 + 4 + 6 + 2 15 5 = = 36 36 12 L’evento complementare E’ di E è costituito dagli esiti non in E, quindi è incompatibile con ! E ed ogni esito di Ω è o in E o in E’. Ne segue p(E)+p(E’) = p(Ω) = 1. Ossia, p( E’) = 1 -p( E). Nell’esempio precedente, l’evento complementare “ esce un numero composto” ha probabilità 1-5/12 = 7/12. La teoria della probabilità nasce storicamente dalla passione per i giochi d’azzardo. Sembra naturale allora fare un esercizio tratto dal gioco del lotto: ES ER CI ZI O 4.3. Nel gioco del lotto in ogni “ruota” (ossia in ciascuna delle 10 sedi italiane) sono estratti 5 numeri su 90. Giocare un terno secco significa indicare tre numeri 36 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 sui 90 di una ruota fissata, nella speranza che facciano parte della cinquina estratta. Sperando che il gioco non sia truccato, qual è la probabilità di vincere? "90% Rispo sta. Lo spazio campionario è costituito dalle $$ '' cinquine distinte, che possono #5& essere estratte. Si vince se i nostri tre numeri fanno parte della cinquina estratta. Quante sono le cinquine che li contengono? Oltre ai nostri tre numeri, contengono due degli altri ! "87% 87 numeri, quindi sono $$ '' . La probabilità di vincere è allora: #2& "87% $$ '' 2 !# & "90% 87 (86 1 (2 (3 ( 4 (5 3 ( 4 (5 1 ( = = $$ '' = 1 (2 90 (89 (88 (87 (86 90 (89 (88 11.748 #5& NOTA. In caso di vincita, la Società che gestisce il gioco del lotto paga poco più di 4.000 volte la cifra che abbiamo giocato. Chi vince realmente? ! La Teoria della Probabilità si applica spesso in situazioni nelle quali in prove ripetute ci sono sempre solo due alternative, ossia un evento A ed il suo complementare. Posto ( ) ( ) p = p A si ha q = p A " = 1 # p . Il problema è allora il seguente: che probabilità c’è che in n prove indipendenti l’evento A ! si sia verificato k volte? ! Prove indipendenti significa intuitivamente che l’esito di una prova non ha influenza sull’esito delle altre. ES E MPI O 4. 4. In una famiglia ci sono cinque figli. Qual è la probabilità che tre siano maschi e due siano femmine? Presupponiamo che la probabilità della nascita di un maschio o di una femmina sia la stessa ogni volta: p=q= 1 (ossia il 50%). 2 Inoltre, ipotizziamo che la nascita di un bimbo di un dato sesso non influenzi il sesso dei successivi. ! Possiamo assimilare la fila dei cinque figli ad una parola con tre M e due F. In ciascuna parola ci sono cinque lettere: ogni lettera ha due alternative, quindi 25 = 32 “parole” distinte. Quelle che ci servono hanno tre M e due F, che si ottengono anagrammando la parola MMMFF in tutti i modi possibili. Otteniamo #5& ! #5& 5 " 4 5! = %% (( = %% (( = = 10 di questi 3!"2! $3' $2' 1 "2 anagrammi. Ne segue che la probabilità di avere tre maschi e ! due femmine (o viceversa) è: 10/32 = 5/16, pari al 31,25%. 37 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Possiamo indicare con E l’evento: tre maschi e due femmine. Allora abbiamo trovato. "5% p E = $$ '' ( p3 ( q 2. Più in generale vale la seguente for mu la di Bernou lli: #3& () "n % p E = $$ '' ( p k ( q n -k #k & () ! NOT A. Così come in Geometria si fa ricorso al disegno delle figure per illustrare la teoria, ! in Probabilità si fa spesso ricorso al modello dell’urna che contiene palline di vari colori. La probabilità di estrarre una pallina di dato colore è il rapporto tra il numero k di palline di quel colore ed il numero totale di palline nell’urna. ES ER CI ZI O 4.5. Supponiamo che nella famiglia precedente la nascita di una femmina abbia probabilità doppia della nascita di un maschio. Quale sarebbe la probabilità di avere tre maschi e due femmine? Possiamo assimilare ogni nascita all’estrazione di una pallina di colore Marrone o Fuscsia da un’urna in cui ci sono il doppio di palline fucsia rispetto alle marrone. Detto h il numero delle palline marrone, le fucsia sono 2h, quindi in tutto 3h palline. Ci sono cinque urne, tutte con la stessa situazione. Allora p = 1 3 , q= 2 3 . Gli anagrammi di MMMFF sono sempre 10, ma stavolta ogni M vale 1/3 ed ogni F vale 2/3, quindi la probabilità del nostro evento è: "5% "1 %3 " 2 %2 40 p E = $$ '' ( p3 ( q 2 = 10 ( $$ '' ( $$ '' = ) 16, 46% 243 #3& #3 & #3 & ! () ! Che re laz io ne c’ è tra S tat ist ica e Proba bilità? • Nella realtà non sappiamo a priori se il dado che lanciamo sia regolare o no: l’usura o il dolo potrebbero avere modificato la probabilità di uscita dei sei numeri. • Può accadere che la pallina di una roulette contenga del ferro e una calamita posta sotto il piatto in corrispondenza di uno dei 37 numeri (da 0 a 36) aumenti la probabilità che quel numero esca (si veda il film “I quattro dell’Ave Maria”). • Un gestore disonesto potrebbe rendere ruvide o gelide o più pesanti alcune palline dell’urna, in modo che la mano della persona bendata che le sceglie le possa comunque riconoscere ed estrarre (è successo a Milano, nel lotto). • Oppure, possiamo avere la convinzione che in caso di esperimenti ripetuti l’esito di uno di essi influenzi in qualche modo i successivi. 38 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 • Possiamo dover cercare se i dati ottenuti da esperimenti ripetuti siano casuali oppure se ci sia una qualche regolarità. • Assai spesso non abbiamo a disposizione l’intero spazio campionario, e quindi non conosciamo la probabilità dei singoli eventi, ma possiamo cercare di ricavarla in qualche modo. ES E MPI O 4.8. Cerchiamo famiglie vere con cinque figli per valutare la frequenza con cui si ritrovano tre maschi e due femmine. Poiché si è calcolato che la probabilità p(E) dell’evento E = “tre maschi e due femmine” è 5/16 (il 31,25%), ci si attende che su un campione di 100 famiglie con 5 figli, ce ne siano mediamente 31 con 3 maschi e due femmine. In pratica non sarà così. A seconda del campione scelto, il numero di quelle del tipo cercato può essere assai variabile. Avremo cioè certamente una fluttuazione statistica. Facciamo allora la seguente indagine: ciascuno dei 400 allievi del corso cerchi negli archivi e nelle banche dati in giro per il mondo, un campione di 32 famiglie con 5 figli (per () facilitare i calcoli) e valuti la frequenza f i E , 1 ≤ i ≤ 400, dell’evento E = “tre figli maschi e due femmine”. Il valore atteso in ciascuna ricerca ! è 32⋅p(E) = 10. () Quello che accade, però, è che al variare delle campionature, i valori di f i E si distribuiscono intorno al valore atteso 10. ! () Gli scarti d i = f i E " 10 dal valore atteso sara nno ta nto più rar i qua nto p iù sono gran di in va lore as so luto . Ossia, ! sarà più facile trovare un campione di 32 famiglie con 12 del tipo richiesto (scarto uguale a 2), piuttosto che 32 famiglie con 18 famiglie del tipo richiesto (scarto = 8) o 6 famiglie del tipo richiesto (scarto = - 4). Lo scarto massimo è 22 (tutte le 32 famiglie esaminate hanno tre maschi e due femmine); il minimo è -10 (nessuna delle 32 famiglie ha tre maschi e due femmine) () ( ) Ad ogni scarto d i = f i E " 10 associamo la sua frequenza relativa f d i 400 sulle 400 rilevazioni, e riportiamo su una tabella gli scarti e le loro frequenze, nell’intervallo ["10,22] . !La frequenza massima dovrebbe averla lo scarto nullo.! La media aritmetica, la moda e la mediana degli scarti sono in tal caso uguali a zero. ! 39 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Detta σ la deviazione standard degli scarti, la maggior parte di essi è nell’intervallo [-σ,σ]. Che curva si delinea allora per le fluttuazioni statistiche, ossia per gli scarti? Una campana di Gauss. () Lo stesso accade se valutiamo la frequenza dei valori di f i E da 0 a 32: il valore massimo () si ha per f i E = 10 . ! Se le ipotesi iniziali sono corrette e se il numero r di rilevazioni è sufficientemente alto e i campioni di n famiglie con cinque figli sono scelti in modo casuale, la media m delle frequenze relative ! 1 f i E n , ossia m = r () ! r f E i " i=1 ( ) , è circa uguale a p(E) = 5/16. n Ecco un possibile riassunto della nostra indagine: su 400 campioni di 32 famiglie con 5 ! figli, l’evento E = tre maschi e 2 femmine potrebbe avere il risultato seguente: E/32 su 400 3 0 4 0 5 1 6 6 7 23 8 50 9 75 10 87 11 72 12 58 13 19 14 7 15 2 16 0 17 0 Il massimo della frequenza si ha proprio in corrispondenza a 10 su 32, che è anche la moda, la media aritmetica e la mediana dei dati non nulli. La maggioranza dei dati si addensa intorno alla media. Si ha m = 31,33% ≈ p(E). CONS E G UE NZE: A) Spesso si può rovesciare il discorso: se non c’è a monte il calcolo teorico della probabilità p(E) di un certo evento E, una indagine statistica basata sull’esame di un numero r di campioni, ciascuno con n elementi, conduce a determinare la media 1 m= r ! r f E i " i=1 () n ed assumere questa come probabilità p(E) dell’evento E. 40 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 B) In presenza del calcolo di p(E) sotto certe ipotesi, qualora la media m = 1 r r f E i " i=1 () n si discosti significativamente da p(E) occorre ripensare la correttezza di quelle ipotesi. ! Occorre però chiarire quel “significativamente”. UNA CURIOSITÀ. La tabella mostrata poco fa non è frutto di una vera indagine su 400 campioni di 32 famiglie con 5 figli ciascuna, ma è stata ricavata con un procedimento ed una formula dovuti a Poisson, che vedremo qui di seguito. Il te st di Pois son. Ha applicazioni naturalistiche e mediche, e si applica a dati che siano numeri non negativi e non tutti nulli. In tal caso, la media aritmetica è m > 0 e possiamo calcolare il rapporto v/m tra la varianza stimata e la media. ES E MPI O 4.8. Eseguiamo una indagine su un roseto infestato dai "ragnetti rossi", contando quanti ce ne sono su un campione di n foglie. Possiamo assimilare il conteggio su ogni foglia ad un "esperimento". A questo punto è naturale usare il termine distribuzione a proposito dei dati raccolti. Abbiamo alcune possibilità: a) Su ogni foglia ci sono all'incirca lo stesso numero di parassiti. In tal caso la distribuzione è detta uniforme, i dati coincidono (più o meno) con la loro media aritmetica m e v " 0 . In questo caso, presa una foglia qualsiasi, si ha p ≈ 100% di probabilità di trovarvi m parassiti. ! b) Se v/m >> 1, in modo rilevante, la distribuzione è detta aggregata o contagiosa: i dati si addensano intorno ad uno o più valori. c) Se infine v/m ≈ 1, la distribuzione è considerata casuale. Nei primi due casi, si è portati ad esaminare meglio i motivi di queste distribuzioni: il caso a) potrebbe suggerire una territorialità, che impone una distanza minima tra due individui; il secondo, la presenza in certe zone di sostanze chimiche che attirano o allontanano i parassiti. Sia ora x il numero di parassiti su una foglia. Se la distribuzione è casuale, cioè se v/m ≈ 1, la probabilità che su una foglia generica ci siano h parassiti, cioè che si abbia x = h, è data dalla formula di Poisson : ( ) px=h = 41 ! m h " e#m . h! L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 & $ ) m h " e#m ( m h + #m =( "e = em " e#m = 1 . Si osservi che + h! h! + ( h=0 'h=0 * $ % % Ossia, la somma delle probabilità al variare di h∈N è uguale ad 1, come deve essere. ( ) Si può !poi porre fh = p x = h " n , dove n è il numero totale delle foglie: il numero fh sarà il numero atteso di foglie con h parassiti, ossia la frequenza attesa del dato h. ! ! ES ER CI ZI O 4 .9. Per una distribuzione di Poisson di media m = 8 , qual è la probabilità per la variabile x di assumere il valore h = 5 ? Se i dati sono 1000 in tutto, qual è il valore atteso di dati uguali ad h? ( ) Rispo sta : p x = 5 = ! 85 " e#8! 4096 " e#8 = $ 0, 0916 , quindi su 1000 dati il valore atteso di 5! 15 dati uguali a 5 è f " 0, 0916 #1000 = 91, 6 " 92. ! ES E MPI O! 4.10. Nel caso di individui distribuiti su un'area continua si può suddividere la zona in porzioni equivalenti fra loro e contare gli individui su ogni porzione. Si ottengono tabelle assimilabili alle liste precedenti. Lo stesso procedimento si usa anche per distribuzioni spaziali, da suddividere in parallelogrammi con lo stesso volume. Negli esempi della pagina seguente, con l’uso di un antico software si sono distribuiti 500 punti su un rettangolo suddiviso in 25 sottorettangoli uguali. Il numero dei punti di ciascuno di essi è contato elettronicamente e, per comodità, i dati anziché in riga sono disposti in matrici che riproducono le posizioni dei rettangolini corrispondenti. • Nel primo di essi la distribuzione è casuale, cioè v/m ≈ 1. • Il secondo esempio presenta una distribuzione uniforme, con v/m ≈ 0. • Il terzo è un esempio di distribuzione aggregata, con v/m molto maggiore di 1. Esempi come questi hanno importanza nel campo della ricerca medica ed in ambito naturalistico. 42 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 a) 500 dati distribuiti casualmente in 25 rettangoli uguali: punti: 500 media: 20 varianza: 19,29 v/m: 0,9645 b) 500 dati distribuiti uniformemente: punti: 500 media: 20 varianza: 3,54 v/m: 0,177 c) 500 dati distribuiti in modo aggregato: punti: 500 media: 20 varianza: 573,33 v/m: 28,66 43 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 IL T ES T " 2 DI PE ARS ON. ! Si tratta di un test di largo uso per confrontare una serie di dati con una loro interpretazione. Si usa per liste di dati, ma anche per tabelle (ossia matrici) di contingenza ES E MPI O 4.11. Lanciamo un dado. Sappiamo che se non è truccato o irregolare, la probabilità di uscita di ogni numero da 1 a 6 è 1/6. Eseguiamo 600 lanci: ci attendiamo che ogni numero esca 100 volte. In realtà, i risultati reali sono un po’ diversi. Per ogni numero riportiamo la sua frequenza, la differenza rispetto al valore atteso elevata al quadrato e divisa per il valore atteso 100. Sommiamo ogni colonna: esito 1 2 3 4 5 6 Somma: frequenza 99 113 84 101 113 90 600 val. atteso 100 100 100 100 100 100 600 scarto -1 13 -16 1 13 -10 0 scarto^2 1 169 256 1 169 100 696 /val. att. 0,01 1,69 2,56 0,01 1,69 1 6,96 Il numero 696, uguale alla somma dei quadrati degli scarti dalla media, è la devianza, vista a suo tempo. Il numero 6,96 è detto " 2. Abbiamo eseguito 600 lanci: se conosciamo le frequenze dei primi cinque esiti, possiamo dedurne il sesto, perciò solo! cinque frequenze sono indipendenti: diremo che in questo caso ci sono 5 grad i di lib ertà . Il numero finale " 2 = 6,96 va ora confrontato con apposite tabelle, ottenute attraverso integrali fuori della nostra portata. L’ipotesi di! partenza è che il dado sia regolare (detta ipo te si nu lla ), cioè che il risultato dei 600 lanci rientri nelle fluttuazioni statistiche casuali. Il test di Pearson dice che con 5 gradi di libertà in caso di dado regolare si ha $ ' p& " 2 # 6, 63) * 0,25. Qui si ha " 2 = 6,96. Ci sono quindi forti dubbi che il dado sia regolare, % ( ! ma non possiamo escluderlo. ! Per escludere la regolarità del dado, la soglia è 0,05, ossia il 5%: se la probabilità corrispondente al nostro " 2 e ai gradi di libertà fosse risultata minore, avremmo potuto concludere che il dado non è regolare. ! 44 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 ESEMPIO 4.12. Se applichiamo il test di Pearson all’indagine sulle famiglie con cinque figli di cui abbiamo parlato a suo tempo, su 400 * 32 = 12.800 famiglie esaminate ne abbiamo trovate 4010 con 3 maschi e due femmine (cfr pag. 40). famiglia E non E Somma: frequenza 4010 8790 12800 val. atteso ! 4000 8800 12800 scarto 10 -10 0 scarto^2 100 100 200 /valore atteso 0,025 0,011364 0,036364 Qui abbiamo un solo grado di libertà. Dalle tabelle si ha: p( " 2 ≤ 0,039) ≥ 0,95. Qui, " 2 ≈ 0,036. Perfetto: la piccola differenza dai valori attesi rientra nella casualità e l’ipotesi nulla è confermata da questa campionatura: la probabilità che ! l’ipotesi nulla sia vera ! è infatti superiore al 95%. Per semplificare molto la teoria, se la probabilità corrispondente al valore trovato di " 2 è minore del 5% l’ipotesi nulla è respinta. Se è superiore al 95% è confermata. ! Il test " 2 di Pearson è influenzato sia dal numero di gradi di libertà, sia dal numero di prove realmente effettuate. All’aumentare di queste ultime il valore di " 2 tende ad !aumentare, ma per contro, se l’ipotesi nulla è vera, si suppone che le frequenze si avvicinino sempre più ai valori attesi calcolati teoricamente sulla base ! della Teoria della Probabilità. Se i valori attesi sono numeri minori di 50, occorre fare attenzione: occorrerebbe modificare un poco la procedura introducendo coefficienti correttivi. Se i dati sono troppo pochi, il test non è applicabile. ES ER CI ZI O 4.13. Lanciamo per 200 volte una moneta, ottenendo testa per 115 volte e croce per 85 volte. L’ipotesi nulla è che la moneta sia regolare, quindi ogni faccia è attesa per 100 volte. I dati sono però i seguenti: faccia testa croce somme: frequenza 115 85 200 val. att. 100 100 200 scarto 15 -15 0 scarto^2 225 225 450 / 100 2,25 2,25 4,5 Anche qui c’è un solo grado di libertà. Dalle tabelle si ricava: p( " 2 ≥ 3,84) ≤ 0,05 = 5%. Qui si ha " 2 = 4,5. Alllora, la probabilità che la moneta sia regolare è inferiore al 5%. ! L’ipotesi nulla è da respingere. ! 45 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 TABELLE DI CONTI NGENZA Abbiamo visto finora il test di Pearson per stimare la casualità o la sistematicità delle fluttuazioni delle frequenze di una lista di dati rispetto ai valori calcolati mediante la Teoria della Probabilità. Si tratta in quel test di calcolare il valore di " 2, che dipende sia dal valore degli scarti, sia dal numero dei gradi di libertà. Si tratta cioè di una funzione di due variabili. Vediamo allora qualche nozione, che poi servirà anche per le tabelle di ! contingenza. Siano A e B due insiemi non vuoti; una funzione f : A " B # R è un caso particolare di ( ) funzione di due variabili, z = f a, b , con a∈A, b∈B. ! finiti, Consideriamo il caso particolare di A e B insiemi { } { } A = a i 1 " i " m , B = bj 1 " j " n . ! Possiamo descrivere f mediante una matrice Hf di tipo m×n, tale che nella casella di posto ( ) (i,j) c’è f a i , b j . ! ! ! Le operazioni aritmetiche tra due funzioni f, g : A " B # R si traducono allora in operazioni “casella per casella” o “dirette” tra le loro matrici Hf e Hg . ! ! Se uno dei due insiemi è infinito, non si possono descrivere le funzioni tramite matrici, ma ! ! occorre una formula che permetta di calcolarne i valori. Tuttavia, talvolta i valori sono ottenuti solo attraverso calcolo numerico di integrali, ed allora si riportano i valori di f per alcuni particolari valori delle due variabili, ottenendo una tabella che, se necessario, può essere migliorata per interpolazione lineare, esattamente come si fa per la funzione di Gauss (che dipende da ben tre variabili, µ, σ, x), o, appunto, per la funzione di Pearson , che dipende da una variabile discreta ed una continua: " 2 = " 2 gl, p . ( ) La prima è il numero dei gradi di libertà gl∈ N + . La seconda è la probabilità p∈[0,!1]. ! Per o gn i valor e d i g l, la f unz ion e è de cr esce nt e : p1 > p2 " # 2 gl, p1 < # 2 gl, p2 ( ) ( ) La tabella allegata contiene valori della funzione " 2 per gl da 1 a 45, e alcuni valori di p da ! 0,995 a 0,001. Si usa di solito per risolvere l’equazione k!= " 2 gl, p nell’incognita p, conoscendo il numero ( gl dei gradi di libertà e il valore k di " 2. ! ! 46 ) L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 G.L.\ P 0.995 0.990 0.975 0.950 0.900 0.75 0.50 0.25 0.10 0.05 0.025 0.01 0.005 1 0.39E-4 0.00016 0.00098 0.0039 0.0158 0.102 0.455 1.32 2.71 3.84 5.02 6.63 7.88 2 0.0100 0.0201 0.0506 0.103 0.211 0.575 1.39 2.77 4.61 5.99 7.38 9.21 10.6 3 0.0717 0.115 0.216 0.352 0.584 1.21 2.37 4.11 6.25 7.81 9.35 11.3 12.8 4 0.207 0.297 0.484 0.711 1.06 1.92 3.36 5.39 7.78 9.49 11.1 13.3 14.9 5 0.412 0.554 0.831 1.15 1.61 2.67 4.35 6.63 9.24 11.1 12.8 15.1 16.7 6 0.676 0.872 1.24 1.64 2.20 3.45 5.35 7.84 10.6 12.6 14.4 16.8 18.5 7 0.989 1.24 1.69 2.17 2.83 4.25 6.35 9.04 12.0 14.1 16.0 18.5 20.3 8 1.34 1.65 2.18 2.73 3.49 5.07 7.34 10.2 13.4 15.5 17.5 20.1 22.0 9 1.73 2.09 2.70 3.33 4.17 5.9 8.34 11.4 14.7 16.9 19.0 21.7 23.6 10 2.16 2.56 3.25 3.94 4.87 6.74 9.34 12.5 16.0 18.3 20.5 23.2 25.2 11 2.60 3.05 3.82 4.57 5.58 7.58 10.3 13.7 17.3 19.7 21.9 24.7 26.8 12 3.07 3.57 4.40 5.23 6.30 8.44 11.3 14.8 18.5 21.0 23.3 26.2 28.3 13 3.57 4.11 5.01 5.89 7.04 9.3 12.3 16.0 19.8 22.4 24.7 27.7 29.8 14 4.07 4.66 5.63 6.57 7.79 10.2 13.3 17.1 21.1 23.7 26.1 29.1 31.3 15 4.60 5.23 6.26 7.26 8.55 11.0 14.3 18.2 22.3 25.0 27.5 30.6 32.8 16 5.14 5.81 6.91 7.96 9.31 11.9 15.3 19.4 23.5 26.3 28.8 32.0 34.3 17 5.70 6.41 7.56 8.67 10.1 12.8 16.3 20.5 24.8 27.6 30.2 33.4 35.7 18 6.26 7.01 8.23 9.39 10.9 13.7 17.3 21.6 26.0 28.9 31.5 34.8 37.2 19 6.84 7.63 8.91 10.1 11.7 14.6 18.3 22.7 27.2 30.1 32.9 36.2 38.6 20 7.43 8.26 9.59 10.9 12.4 15.5 19.3 23.8 28.4 31.4 34.2 37.6 40.0 21 8.03 8.90 10.3 11.6 13.2 16.3 20.3 24.9 29.6 32.7 35.5 38.9 41.4 22 8.64 9.54 11.0 12.3 14.0 17.2 21.3 26.0 30.8 33.9 36.8 40.3 42.8 23 9.26 10.2 11.7 13.1 14.8 18.1 22.3 27.1 32.0 35.2 38.1 41.6 44.2 24 9.89 10.9 12.4 13.8 15.7 19.0 23.3 28.2 33.2 36.4 39.4 43.0 45.6 25 10.5 11.5 13.1 14.6 16.5 19.9 24.3 29.3 34.4 37.7 40.6 44.3 46.9 26 11.2 12.2 13.8 15.4 17.3 20.8 25.3 30.4 35.6 38.9 41.9 45.6 48.3 27 11.8 12.9 14.6 16.2 18.1 21.7 26.3 31.5 36.7 40.1 43.2 47.0 49.6 28 12.5 13.6 15.3 16.9 18.9 22.7 27.3 32.6 37.9 41.3 44.5 48.3 51.0 29 13.1 14.3 16.0 17.7 19.8 23.6 28.3 33.7 39.1 42.6 45.7 49.6 52.3 30 13.8 15.0 16.8 18.5 20.6 24.5 29.3 34.8 40.3 43.8 47.0 50.9 53.7 31 14.5 15.7 17.5 19.3 21.4 25.4 30.3 35.9 41.4 45.0 48.2 52.2 55.0 32 15.1 16.4 18.3 20.1 22.3 26.3 31.3 37.0 42.6 46.2 49.5 53.5 56.3 33 15.8 17.1 19.0 20.9 23.1 27.2 32.3 38.1 43.7 47.4 50.7 54.8 57.6 34 16.5 17.8 19.8 21.7 24.0 28.1 33.3 39.1 44.9 48.6 52.0 56.1 59.0 35 17.2 18.5 20.6 22.5 24.8 29.1 34.3 40.2 46.1 49.8 53.2 57.3 60.3 36 17.9 19.2 21.3 23.3 25.6 30.0 35.3 41.3 47.2 51.0 54.4 58.6 61.6 37 18.6 20.0 22.1 24.1 26.5 30.9 36.3 42.4 48.4 52.2 55.7 59.9 62.9 38 19.3 20.7 22.9 24.9 27.3 31.8 37.3 43.5 49.5 53.4 56.9 61.2 64.2 39 20.0 21.4 23.7 25.7 28.2 32.7 38.3 44.5 50.7 54.6 58.1 62.4 65.5 40 20.7 22.2 24.4 26.5 29.1 33.7 39.3 45.6 51.8 55.8 59.3 63.7 66.8 41 21.4 22.9 25.2 27.3 29.9 34.6 40.3 46.7 52.9 56.9 60.6 65.0 68.1 42 22.1 23.7 26.0 28.1 30.8 35.5 41.3 47.8 54.1 58.1 61.8 66.2 69.3 43 22.9 24.4 26.8 29.0 31.6 36.4 42.3 48.8 55.2 59.3 63.0 67.5 70.6 44 23.6 25.1 27.6 29.8 32.5 37.4 43.3 49.9 56.4 60.5 64.2 68.7 71.9 45 24.3 25.9 28.4 30.6 33.4 38.3 44.3 51.0 57.5 61.7 65.4 70.0 73.2 47 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Veniamo ora alle tabelle di contingenza. Sono matrici Hf associate a funzioni f : A " B # R tra due insiemi finiti A e B, contenenti di solito le frequenze ) di coppie ! ! (a i , b j) " A # B , ricavate sperimentalmente. ( f a i, bj ! tipo m×n, ricavata da un Questa tabella Hf va poi confrontata con un’altra, H0 , dello stesso ! possibile modello ideale, che può derivare dal calcolo delle probabilità, ove possibile, oppure!da opportune ipotesi di lavoro (ipotesi ! nulla o ipotesi zero). Ecco il procedimento: - Si determina la matrice Hf $ m "1 se n =1 & n "1 se m = 1 Si pone gl = % & m! " 1 # n " 1 se m, n > 1 ' Si calcola la matrice H0 (che ha gli elementi ≠ 0) ( - )( ) - Si calcola Hf " H0 2 ! Si eleva al quadrato ogni suo elemento: Hf " H0 ! 2 Si ! divide per H0 : Hf " H0 H0 - ! Si sommano gli elementi di quest’ultima matrice e si ottiene il numero k = " 2 gl, p , - ( ( ) ) ( ) ! con p!incognito, da ricavare sulla tabella. - Se p < 0,05, l’ipotesi nulla è da respingere. ! ES E MPI O 4.1 4. Vogliamo verificare se ci sono differenze significative negli effetti di 3 antiparassitari su 80 rosai affetti dai ragnetti rossi. L’insieme A è costituito dai tre antiparassitari, che chiameremo a, b, c. L’insieme B è costituito dalle due categorie di rosai, sottoposti in tre gruppi ai tre prodotti: i migliorati (m) e i non migliorati (nm). La matrice Hf , di tipo 3×2, ricavata dagli esperimenti, sia: ! m nm totali 18 20 12 10 12 8 28 32 20 totali 50 30 80 a b c #18 % $ & ( ' 10 " Hf = 20 12 12 8 L’ipotesi nulla sia la seguente: i tre farmaci hanno circa gli stessi effetti sul miglioramento ! 50 5 dei rosai. Allora la probabilità di miglioramento sarà ipotizzabile in p = = = 0, 625. 80 8 Quella di non miglioramento sarà q = 1 " p = 3 = 0, 475. 8 ! Nei tre casi, i valori attesi di migliorati o no si ottengono moltiplicando per p e per q il totale dei rosai testati: per ! il farmaco a si ha p⋅28 = 35/2 = 17,5; q⋅28 = 21/2 = 10,5. 48 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 a b E così via: c totali m nm totali 17, 5 10, 5 17, 5 10, 5 28 (i valori attesi sono minori di 50, ma per 12 20 12 32 " H0 = 20 12, 5 7, 5 12, 5 7, 5 20 50 30 # % $ 80 & ( ' esercizio procediamo ugualmente). ! #18 Hf " H0 = 20 % $12 &# (% '$ #0,5 & 2 H " H = ( ( f 0) % 0 $0,5 ' & # ( % ' $ 10 17,5 10,5 0,5 "0,5 12 " 20 12 = 0 0 , 8 12,5 7,5 0,5 "0,5 ( Hf " H0 ! ) 2 &# (% '$ & # ( % ' $ & ( ' "0,5 0,5 "0,5 0,25 0,25 0 ) 0 0 = 0 0 "0,5 0,5 "0,5 0,25 0,25 #0, 25 0, 25& #17, 5 10, 5& 0, 014 0, 024 % ( % ( : H0 = % 0 0 ( : % 20 12 ( = 0, 000 0, 000 . ! %0, 25 0, 25( %12, 5 7, 5 ( 0, 020 0, 033 $ ' $ ' # % $ & ( ' I gradi di libertà sono (3-1)⋅(2-1) = 2. La somma dei sei numeri della matrice finale è 0,091. Pertanto: " 2!2, p = 0, 091 . ( ) Nella seconda riga della tabella troviamo che 0,091 è compreso tra 0,0506 e 0,103, quindi 0,975 ! > p > 0,950. G.L.\ P 0.995 0.990 1 … … 2 0.975 0.950 0.900 … … … 0.0100 0.0201 0.0506 0.103 … Se si vuole stimare meglio il valore di p si può usare l’interpolazione lineare: si calcola la retta passante per i due punti (0.0506; 0.975 ) e (0.103; 0.950), mediante la solita formula: y " 0, 975 0, 950 " 0, 975 = x " 0, 0506 0,103 " 0, 0506 , che dà, per x = 0,091, il valore di p = y ≈ 0,956. ! Ma non è necessario: per respingere l’ipotesi nulla doveva risultare p ≤ 0,05. Qui addirittura è quasi certo che i tre antiparassitari hanno effetti simili sui rosai (anche se, ripeto, i valori attesi minori di 50 avrebbero richiesto un correttivo). 49 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 § 5. IL CAS O C ONTINUO Dobbiamo porci ora in un’ottica diversa: considerare un esperimento aleatorio che abbia come esito una variabile x, che possa assumere tutti i valori da −∞ a +∞. Ossia, Ω = R = ]−∞, +∞[. Ciascun esito x abbia una densità di probabilità p(x) di uscire. La probabilità di un evento E, che supponiamo sia un insieme di esiti x costituenti per b ( ) " p(x)dx . esempio un intervallo [a, b], sarà allora data da p E = a +# ( ) $ p(x)dx , La probabilità dell’evento certo deve essere 1, quindi deve essere 1 = p " = ! e -# k questo è un integrale generalizzato. Ossia lim k"# $ p(x)dx = 1. -k ! Ci sono poi altre complicazioni, che avvicinano il calcolo delle probabilità continuo a quello della misura di un’area sul piano. ! Pertanto, non di tutti gli eventi è possibile calcolare la loro probabilità, così come non per tutte le figure piane si può calcolare l’area. In numerosi casi, che si ritrovano in quasi tutte le discipline scientifiche, la funzione che descrive p(x) è una Gaussiana. Le funzioni gaussiane sono state presentate nel terzo 2 capitolo, come funzioni del tipo y = ea"x +b"x+c , con a < 0 , per descrivere grafici con una forma a campana. Sia x il suo punto di massimo assoluto. Poiché ! la curva è simmetrica rispetto ad x , ed ha ! due punti di flesso, denotiamo con " x la distanza di questi due punti da x . Ossia, le ascisse ! dei flessi sono x " # x e x + " x . ! Naturalmente, non è possibile un esperimento aleatorio, ! calcolare tutti gli esiti possibili di ! soprattutto nel caso continuo; pertanto come visto nell’esempio delle famiglie, si eseguono ! ! m campionature, per ciascuna si calcolano la media e la deviazione standard, e si calcolano infine la media x delle medie e come " x si esegue la somma delle deviazioni standard divisa per ! ! m. ! 50 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Dal punto di vista statistico, x e " x rappresentano rispettivamente la media aritmetica e la deviazione standard dell’insieme dei valori assunti dalla variabile aleatoria x, ossia degli ! ! esiti del nostro campionamento. 2 La funzione di Gauss più semplice è y = e"x . Il suo massimo si ha per x = 0 , i punti di 2 % ( 1 flesso si calcolano annullando la derivata seconda y" = 2 # '2x2 $ 1* # e$x , perciò " x = . & ) 2 ! ! +# Infine, $ e"x 2 dx = % & 1, 77245 . ! -# ! Ne segue che occorre adattare i coefficienti a, b, c in modo che sia una funzione di !probabilità con media x e deviazione standard " = " x , e l’area della parte di piano compresa tra la curva e l’asse x sia 1. ! Si ottiene: c y = 1 " # 2$ 2 1 & x%x ) % #(( ++ 2 " * #e ' c. ! Una distribuzione di esiti x con una frequenza relativa (assunta come densità di ! probabilità) che abbia questo andamento è detta distribuzione normale o gaussiana. { } Si noti che l’evento E = x x " # $ x $ x + # ha probabilità: x +" () , pE = ! x -" 1 " # 2$ 2 1 & x%x ) % #(( ++ 2 " * #e ' dx - 0, 682689 { } () qualunque siano x e σ. Invece, per l’intervallo E = x x " 2# $ x $ x + 2# si ha p E " 0, 95 ! ! Ecco tre grafici sovrapposti, con m = x il variare dei due ! ! e σ differenti, per vedere come parametri possa cambiare la distribuzione. ! Per ottenere poi la frequenza di un campione di r esiti x con media m e scarto quadratico medio σ occorre moltiplicare ogni p(x) per r. 51 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 ES E MPI O 5. 1. Per una distribuzione di dati con media m = x = 10 e scarto quadratico 6 # 1, 89737 si ottiene la funzione gaussiana: medio " = 10 ! 2 2 y= ! 1 & x%x ) % #(( ++ 2 " * #e ' 1 " # 2$ = 5 6# $ % #e 5 ( 36 ) # x%10 % 2 (x%10) # 7,2 e , 4, 75599 Moltiplichiamo per 400 i valori di questa funzione e arrotondiamo agli interi: x ! p(x)*400 3 0 4 1 5 3 6 9 7 24 8 48 9 73 10 84 11 73 12 48 13 24 14 9 15 3 16 1 17 0 La tabella è simile a quella della pag. 40 della sezione precedente. Una grandezza (o variabile aleatoria continua) x ha densità di probabilità ES E MPI O 5.2 . () (o frequenza relativa) y = p x con distribuzione normale, ossia gaussiana, di media x = 6 e deviazione standard " x = 1. Si scriva l’equazione della gaussiana normalizzata con questi ! due parametri ! e se ne indichi il massimo. Si dica poi quale probabilità abbiamo di trovare per x ! a) un valore compreso tra 5 e 6; b) un valore compreso tra 6 ed 8; c) un valore minore di 5. Rispo sta : La funzione è y = 1 vale 2" 1 " # 2$ 2 1 & x%x ) % #(( ++ 2 " * #e ' = 1 2$ 1 % # x%6 #e 2 ( ) ([ ]) 2 . Il massimo si ha per x = 6 e ([ ]) # 0,16 . Inoltre, ricordando che p 5,7 " 0, 6826 e p 4,8 " 0, 954 , e che la ! curva è simmetrica rispetto ad x = 6, si ha: ([ ]) 0, 6826 = 0,3413 2 ([ ]) 0, 954 = 0, 477 2 a) !p 5, 6 " b) p 6,8 " ! ! ([ ]) c) p "#,5 = ! ! ( [ ]) $ 1 " 0, 6826 = 0,1587 p R \ 5,7 2 2 NOTA: Nel misurare una caratteristica (per esempio il peso) di animali adulti della stessa specie, può ! accadere che si trovi una curva delle frequenze non gaussiana: in particolare, essa può presentare due massimi relativi diversi. Ciò può significare che c’è dimorfismo sessuale oppure ci sono due popolazioni diverse, in ciascuna delle quali, se valutata separatamente, troveremmo una gaussiana. Non entriamo però in questo argomento, che pure è di primaria importanza naturalistica. 52 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 CAMPIONAMENTI Se si ha a disposizione la totalità dei dati, si possono calcolare la media aritmetica e la deviazione standard direttamente, come abbiamo visto in esempi ed esercizi. Nella gran parte delle applicazioni della statistica però non si ha a disposizione la gamma completa dei dati, o perché sono troppi per essere valutati, o perché è difficile procurarseli per qualche impedimento. ES E MPI O: su una enciclopedia naturalistica si legge una scheda relativa alla specie Gnu azzurro, che popola numerosa le savane dell’Africa centrale e compie grandi migrazioni stagionali. Si leggono dati quali il peso medio di un adulto, l’altezza al garrese, ecc. Poiché nel solo parco del Serengeti ci sono (o c’erano negli anni ’70) un milione circa (?) di gnu, come avranno fatto i naturalisti a indicare questi dati? Semplice: hanno catturato tutti gli gnu, hanno controllato la loro data di nascita per sapere se erano adulti, li hanno pesati e misurati uno per uno e poi li hanno rilasciati; dopodiché hanno calcolato le medie aritmetiche e le deviazioni standard delle varie grandezze misurate … Ovviamente non è così. Come hanno fatto? Come nell’esempio della famiglia con cinque figli vista nel cap. 4: hanno scelto dei campioni. Però c’è una differenza: in quel caso c’era già un calcolo di Teoria della Probabilità alle spalle, che anticipava il risultato. In questo caso no. Allora è necessario limitarsi a scegliere dei campioni e, cosa non facile, fare scelte in modo che siano rappresentative della popolazione intera. La cosa che aiuta è che se la popolazione sotto esame è omogenea, le grandezze seguono la distribuzione normale, o altrimenti detta gaussiana, in cui media aritmetica µ, moda e mediana coincidono. 53 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Operiamo allora in modo di scegliere campioni casuali di equale numerosità, ossia con lo stesso numero n di individui. Per ciascun campione misuriamo la grandezza che ci interessa, per esempio il peso, di ogni individuo e calcoliamo la media m e la deviazione standard del campione. Poi calcoliamo la media M delle medie. Che cosa otteniamo? • Se avessimo un solo campione comprendente tutta la popolazione avremmo una sola media M coincidente con la media µ della popolazione. • Se avessimo tanti campioni, di un solo individuo ciascuno, quanti sono gli individui, allora ogni media m coinciderebbe con l’unico dato e la media M delle medie sarebbe uguale alla media µ della popolazione. • Più in generale, se potessimo ripartire l’intera popolazione in k campioni di n individui ciascuno, un semplice calcolo aritmetico mostra che la media M delle medie è uguale alla media µ della popolazione. In generale non è così, perché i campioni non sono a due a due disgiunti e non coinvolgono l’intera popolazione, ma quasi: il teor e ma de l limite c en tra le afferma infatti che: Le med ie de i ca mp ion i sono d is tribu it e “ nor malmen te ” (o s sia s u u na gau ss ia na) con me dia M u gua le alla med ia µ d i po p olaz ione . Nei testi di Statistica si legge inoltre che la varianza delle medie è direttamente proporzionale alla varianza di popolazione e inversamente proporzionale al numero delle osservazioni con cui ogni media è stata costruita. In altri termini, la maggior parte dei dati giace attorno alla media; se una popolazione ha bassa varianza, il campionamento sarà costituito da osservazioni poco distanti l’una dalle altre; viceversa nel caso opposto; analogamente, si ha bassa varianza se il numero di osservazioni in ogni campione è sufficientemente elevato (e in tal caso, la varianza v, di peso n-1, e la varianza " 2, di peso n, sostanzialmente coincidono). Ria ss u me ndo : siano µ e σ la media e la deviazione standard della popolazione; n il ! numero dei dati in ogni campione, M la media delle medie dei singoli campioni, " M la deviazione standard delle medie. Allora, se n è “grande”: µ ≈ M, " # "M $ n . ! NOTE. a) La media delle varianze dei vari campioni e la varianza delle medie si possono ritenere ! coincidenti. b) Un ostacolo è l’applicare al caso discreto modelli continui, con ovvie necessità di approssimazioni. 54 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 §6. ESERCIZI Vediamo qui due liste di esercizi. La prima contiene alcuni esempi riassuntivi immediatamente svolti di uso delle formule e delle metodologie viste nel corso. La seconda parte invece contiene esercizi non svolti immediatamente, ma con le soluzioni allegate in fondo. L’argomento non sarà di solito a carattere naturalistico, ma non importa. 6.1. ESEMPI RIASSUNTIVI 6.1.A) Nel mio condominio le letture dei contatori dell’acqua calda e fredda sono eseguite una volta l’anno in ciascun appartamento dai capi-scala, in modo da poter calcolare per ciascun condomino il suo consumo ed addebitargli in bilancio consuntivo il costo corrispondente. Per agevolare il lavoro dei capi-scala, per ogni condomino e per ogni contatore sono calcolati il consumo medio µ e la deviazione standard σ degli ultimi sei anni. Si fa l’ipotesi che ogni consumo individuale segua una distribuzione gaussiana di media µ e scarto quadratico medio σ. Detta L la lettura dell’anno precedente, si fornisce quindi al capo scala l’intervallo [L+µ-σ, L+µ+σ]. Il valore atteso della lettura è L+µ, ma ci sono ovviamente almeno le fluttuazioni statistiche. Se nulla è cambiato nel menage familiare (niente nascite, decessi, matrimoni, divorzi, figli che se ne vanno, lavatrici più efficienti, perdite, lavastoviglie ecc.), c’è il 68% di probabilità che la nuova lettura sia entro quell’intervallo. Se ciò non accade, si controlla che il nuovo consumo sia entro l’intervallo [µ-2σ, µ+2σ]: in assenza di novità, c’è il 95% di probabilità che sia così. Se è al di fuori, si rilegge il contatore o si cercano informazioni per giustificare un dato così lontano dalle attese. Ciò posto, ecco i dati dei consumi di acqua calda per la cucina di tre illustri condomini dal 2003 al 2009: nomi CESARE POMPEO CRASSO Cons. Cons. Cons. Cons. Cons. Cons. letture min. max. letture Cons. 2003 2004 2005 2006 2007 2008 medie scarti 2008 lettura lettura 2009 2009 9 7 9 5 3 5 6 2 16 20 24 21 5 18 16 15 19 13 15 16 2 55 69 73 67 12 9 10 10 12 12 7 10 2 52 60 64 82 30 55 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Che cosa ci va nelle caselle bianche? Il consumo è “normale”, oppure è poco o molto fuori norma? Vediamo: Per Cesare si ha: µ = "= 9 + 7 + 9 + 5 + 3 + 5 38 19 = = " 6, 3 ; 6 6 3 1 381 381 81 + 49 + 81 + 25 + 9 + 25 # = 45 # = 6 ! 9 9 ( ) 24 2 = 6 $ 1, 6 9 3 Quindi: µ-σ = 6,3-1,6 = 4,7; µ+σ = 6,3+1,6 = 7,9. ! Poiché però i dati sono numeri interi, arrotondiamo tutto a zero cifre decimali: µ=6, σ=2, quindi µ-σ = 4, µ+σ = 8. [ ] La lettura 2008 era 16, quindi la lettura 2009 era attesa entro l’intervallo 20, 24 . La lettura 2009 in effetti fu 21 ed il consumo 5, entro i limiti, (nonostante un trend al ribasso dei consumi negli ultimi quattro anni.) ! Si procede analogamente con gli altri due condomini: nomi CESARE POMPEO CRASSO Cons. Cons. Cons. Cons. Cons. Cons. letture min. max. letture Cons. 2003 2004 2005 2006 2007 2008 medie scarti 2008 lettura lettura 2009 2009 9 7 9 5 3 5 6 2 16 20 24 21 5 18 16 15 19 13 15 16 2 55 69 73 67 12 9 10 10 12 12 7 10 2 52 60 64 82 30 Si noti che Pompeo è leggermente più basso, ma rientra nell’intervallo [µ-2σ, µ+2σ] e potrebbe ancora essere una fluttuazione statistica. Invece Crasso è proprio fuori: qualcosa che non va c’è e merita una ulteriore indagine. (In effetti, risultò che Crasso abitava quell’appartamento solo dal 2009. I dati dei sei anni precedenti si riferivano alla famiglia che vi abitava prima di lui). 6.1.B) Vorremmo pesare con una certa accuratezza un oggetto. Una bilancia da cucina può fornire una stima del peso, ma con un intervallo di 10 grammi: il risultato è compreso fra 100 e 110 grammi. Se assumiamo come peso dell’oggetto la media aritmetica, 105 grammi, commettiamo un errore massimo di 5 grammi, pari a un po’ meno del 5%. Abbiamo anche una bilancia a due bracci. Non abbiamo dei pesi a disposizione, ma solo delle palline di un qualche metallo, contenerle. (La tutte uguali, scatola è ed una necessaria, scatola per altrimenti ruzzolerebbero via). Se potessimo valutare il peso di ogni pallina e quello del recipiente, potremmo usarli per pesare l’oggetto. Come fare? 56 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Siano m il peso di una pallina e q il peso della scatola. Allora, x palline nella scatola pesano y = m " x + q grammi. Possiamo fare alcune pesate sulla bilancia da cucina, mettendo nella scatola numeri diversi di palline e ricavando ogni volta il peso y arrotondato alla decina !di grammi più prossima. Ecco la tabella ed il grafico: x y 20 90 25 110 30 130 35 150 40 160 Per trovare m e q applichiamo il metodo dei minimi quadrati (si veda il cap. III): x = 30 ! , y = 128 ; " x = 50 = 5 2 , " y = 656 = 4 41 , c xy = 180 . ! c xy 180 Allora: m = = = 3,5 è il peso di ogni pallina. 50 ! ! " 2 ! ! x Infine, q = y " m # x = 128 " 3,5 # 30 = 23 è il peso della scatola. c xy ! Si ha poi r = = " # " x y ! 180 50 # 656 = 9 82 $ 0, 994 , assai buono. 82 Posto su un piatto della bilancia a bracci l’oggetto da pesare e sull’altro la scatola con le palline, si vede che 37 palline sono poche e 38 sono troppe. Perciò il peso dell’oggetto è ! compreso tra 3, 5 "37 # 23 = 106, 5 e 3, 5 "38 # 23 = 110 grammi. La media è di 108,25 grammi, che possiamo assumere come stima del peso dell’oggetto. ! L’errore 3,5:2 = 1,75 grammi, pari all’1,61%. Questa misura è più ! compiuto è al massimo accurata dell’altra. 6.1.C) Se si ha a disposizione la totalità dei dati si possono calcolare la media aritmetica e la deviazione standard direttamente. Per quel che riguarda i consumi dell’acqua, l’amministratore può farlo per l’intero insediamento: per l’acqua calda in cucina nel 2010 la somma dei consumi individuali fu C = 1232 m 3 ; divisa per 162 condomini diede la media µ = 7, 6 m 3 , con deviazione standard " = 6,1 m 3 . ! appartamenti. Le scale sono 9, ciascuna con 18 ! scale consumi medie indiv. 1 132 7,3 2 121 6,7 !3 127 7,1 4 113 6,3 5 170 9,4 6 80 4,4 7 168 9,3 8 116 6,4 9 205 11,4 Media: 136,9 7,6 Guardando la seconda riga, la dispersione appare notevole: basta valutare l’intervallo di variazione d e la deviazione standard di quei dati (vedi cap. II). 57 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Eseguito il calcolo per le due caselle blu, la media dei consumi per ogni scala è 136, 9 m 3 , mentre la media M delle medie individuali per scala è 7, 6 m 3 , pari alla media individuale µ dell’intero condominio. ! ! Nel nostro caso questa coincidenza è ovvio dal punto di vista aritmetico. Infatti, abbiamo 9 campioni disgiunti di 18 individui, quindi detto c i il consumo di una scala, si ha m i = c i /18 , ed allora: 1 " 9 ! 9 # i=1 mi = 1 " 9 9 # i=1 !9 ci 1 C 1232 = " ci = = = 7, 6 18 162 162 162 # i=1 Ossia, la media M delle medie è uguale alla media generale µ (arrotondamenti a parte), in accordo col teorema del limite centrale. ! 6.1.D) In una scatola ci sono molte palline di colori Bianco, Giallo, Rosso, Verde. Estraiamo per 160 volte una pallina, controlliamo il colore e la reimmettiamo nella scatola. Otteniamo la seguente tabella: col. freq. B 42 G 37 R 47 V 34 ! Può essere ragionevole pensare che nella scatola ci sia lo stesso numero di palline di ciascun colore? L’ipotesi nulla è che siano fluttuazioni statistiche. Perciò ogni colore ha ¼ di probabilità di uscire. Il valore atteso è allora 160⋅1/4 = 40 per ciascun colore. La matrice degli scarti è [ ] ( quindi H " H0 = 2 "3 7 "6 # H " H0 ) 2 $ 4 : H0 = & % 40 Poiché qui gl = 4-1 = 3, ne segue " 2 3, p = ( ) 9 40 49 40 36 ' ). 40 ( 98 = 2, 45. 40 ! Dalla tabella si ottiene 2,37 < 2,45 < 4,11, quindi 0,5 > p > 0,25. Poiché non è p < 0,05, l’ipotesi nulla non si può respingere. ! Si noti però che qui i valori attesi sono minori di 50, quindi il valore di " 2 andrebbe corretto. ! 58 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 6.1.E). Da un’urna che contiene palline Blu, Gialle e Blu estraiamo per 10 volte 20 palline, poi reimmettiamo le palline nell’urna dopo averne contato i colori. B R G tot. I 7 7 6 20 II 10 6 4 20 III 9 8 3 20 IV 9 6 5 20 V 10 4 6 20 VI 11 5 4 20 VII 8 7 5 20 VIII 9 5 6 20 IX 8 6 6 20 X 9 6 5 20 totale 90 60 50 200 media 9 6 5 20 Dev. std 1,2 1,2 1,0 Riportiamo su un istogramma le frequenze di uscita dei vari colori: B R G G 3 0 0 11 4 0 1 22 5 0 2 33 6 0 4 44 7 1 2 00 8 2 1 00 9 4 0 00 10 2 0 00 11 1 0 00 totale 10 10 1100 moda 9 6 66 Notiamo che nonostante lo scarto nel caso del giallo sia il minore, è l’unico in cui la moda, 6, non uguagli la media 5. Del resto, il numero dei campioni è basso, solo 10. Se assumiamo il rapporto media/20 come probabilità di ogni colore, e nell’urna ci sono 500 palline, il valore atteso di palline blu è 500⋅9/20 = 225, quello di palline rosse è 500⋅6/20 = 150 e quello di palline gialle è 500⋅5/20 = 125. Se supponiamo che la tabella delle uscite sia una tabella di contingenza frutto solo di fluttuazioni statistiche, possiamo confrontarla con quella in cui i termini di ogni riga sono uguali alla rispettiva media. Il test di Pearson fornisce allora " 2 = 5,33 . Poiché la matrice è 3×10, ci sono 18 gradi di libertà, quindi 5, 33 = " 2 18, p < 6, 26 # p > 0, 995 . Ciò conferma ( ) ! questa ipotesi nulla. Se invece ipotizziamo che ci sia lo ! stesso numero di palline dei tre colori, allora nelle celle di H0 ci va la media dei 30 dati, cioè 200/30 ≈ 6,7. Il test dà allora 18, 01 = " 2 18, p , valore ( ) compreso tra 17,3 e 21,6, corrispondenti a 0,5 > p > 0,25 quindi p > 0,05, insufficiente a ! respingere la nuova ipotesi nulla. ! 59 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Questo dà un’idea della difficoltà di interpretare in modo elementare i dati statistici. Si pensi al problema della (presunta?) variazione del clima terrestre. Ecco un esempio: 6.1.F). In una località sono stati conteggiati i giorni di sole, di pioggia e di nebbia per un decennio dal 1950 al 1960 e dal 2000 al 2010. I dati medi annui sono riportati nella tabella seguente. Si può affermare che il clima sia sole pioggia nebbia totali 50-60 160 120 85 cambiato, oppure le variazioni 00-10 180 110 75 possono considerarsi rientrare nelle fluttuazioni statistiche? totali Si tratta di una classica tabella di contingenza. Cominciamo col sommare per righe e colonne, poi calcoliamo i rapporti tra i totali delle colonne ed il totale generale, ottenendo per le tre colonne i valori di probabilità: 0,48 0,30 0,22. Moltiplichiamo questa terna per i totali delle righe, 365, ed otteniamo la matrice H0 Hf ! 1950-60 sole 160 pioggia 120 nebbia 85 totale 365 2000-10 190 100 75 365 totale 350 Calcoliamo ora 220 (Hf " H0 ) H0 160 H0 sole pioggia nebbia totale 1950-60 175,00 110,00 80 365,00 ! 730 2000-10 175,00 110,00 totale 350,00 220 ! 2 80 160 365,00 730 2 1,29 0,91 0,31 " = 5, 01 e sommiamo: 1,29 0,91 0,31 I gradi di libertà sono 2. La tabella ci dà: ! probabilità ! 0,995 0,990 0,975 0,950 0,900 0,750 0,500 0,250 0,100 0,050 0,025 0,010 0,005 gr=2 0,01 0,0201 0,0506 0,103 0,211 0,575 1,39 2,77 4,61 5,99 7,38 9,21 10,6 Allora, l’ipotesi nulla non può essere respinta, perché la probabilità corrispondente a " 2 = 5, 01 è compresa tra il 5% ed il 10%, quindi non inferiore alla soglia del 5%. ! 60 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 6.2. ESERCIZI DI PROBABILITÀ E STATISTICA. NOTA: gli esercizi seguenti sono da svolgere in preparazione dell'esame del modulo di Statistica, ma alcuni sono pensati da svolgere con l'ausilio di strumenti di calcolo o di software superiori a quelli richiesti per la prova scritta. 1. Se in una specie animale le nascite di maschi e femmine hanno la stessa probabilità e se ogni nascita non influenza le altre, qual è la probabilità che di otto figli, cinque siano femmine e tre maschi? E quella che le femmine siano almeno cinque? { } dalla probabilità di vincere giocando l'ambo {31, 49 } ? 2. Qual è la probabilità di vincere giocando l'ambo 1,2 sulla ruota di Milano? E' diversa 3. Se si gioca un ambo su tutte e dieci le ruote del lotto, si vince se esce in almeno una di esse. Qual è la probabilità di vincere? (Suggerimento: si calcoli prima la probabilità di non vincere). 4. Un mazzo di carte piacentine da briscola è composto da quattro "semi" di 10 carte ciascuna: asso, due, tre, quattro, cinque, sei, sette, fante, cavallo, re. I semi sono: denari, coppe, spade e bastoni. Ad un giocatore sono date tre carte. Che probabilità c'è che siano tre re? E che siano un re, un fante ed un asso? O che siano di tre semi diversi? 5. La densità di probabilità di una grandezza è una gaussiana di media µ = 6 e deviazione standard ! = 1 . Qual è la probabilità di trovare una grandezza di misura inferiore a 4? 6. In un pollaio ci sono 12 anatre, 15 galline faraone, 16 galline e 9 tacchini. Si traccino diagrammi a colonne, a torta e a ideogrammi per illustrare questi dati. 7. Secondo la formula di Poisson, se la media delle misure di una grandezza è m = 9, che probabilità c'è di trovare una misura uguale a 7? 8. Mediante alcuni esperimenti sono state ricavate le seguenti coppie di dati: x !2 !1 0 1 2 3 . Si provi dapprima a calcolarne il polinomio interpolatore, y 3 4 5 6, 5 8 10, 5 (di 5° grado). Si trovi poi la retta di regressione ed il coefficiente di correlazione. Infine, passando per un diagramma semilogaritmico, si trovi la regressione esponenziale 61 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 y = a ! em!x ed il coefficiente di correlazione. Quale dei tre modelli sembra "migliore" per rappresentare matematicamente i dati? 9. Mediante alcuni esperimenti sono state ricavate le seguenti coppie di dati: x !2 !1 0 1 2 3 . Si trovi la retta di regressione ed il coefficiente di correlazione. y !5 !2 0 2 3 4 Seguendo poi il procedimento geometrico illustrato negli appunti, si provi a trovare anche la regressione quadratica y = a ! x2 + b ! x + c . Si riporti poi il tutto su un grafico cartesiano. 10. A due gruppi di volontari malati di una stessa patologia sono stati somministrati un farmaco ed un placebo (ossia uno pseudo-farmaco senza principio attivo). Il farmaco è stato somministrato a 60 pazienti e ne sono migliorati 42. Il placebo invece è stato somministrato a 54 pazienti e ne sono migliorati 20. Qual è la probabilità che l'effetto sia lo stesso, ossia che il farmaco sia inutile? 11. Un conteggio di ragnatele in una vecchia ala di 10 aule di una scuola ha dato il risultato seguente. La distribuzione è da considerarsi casuale? aula 1 2 3 4 5 6 7 8 9 10 ragnatele 78 18 64 24 30 70 59 10 15 22 . 12. Decidiamo di "investire" denaro giocando al lotto su un numero fisso (il 30) sulla ruota ! di Genova. Il "budget" a disposizione è 50.000 euro. In caso di uscita del nostro numero (a proposito, che probabilità ha?) la Sisal paga 11,2 volte l'importo che abbiamo giocato: se puntiamo un euro, ne vinceremmo 11,20, quindi il guadagno netto è 10,20 euro. Decidiamo però di non volere guadagnare, ma solo di non rimetterci, perciò cominciamo con un euro e, se non esce per 11 volte, la dodicesima aumentiamo la giocata in modo che in caso di vincita recuperiamo per intero la somma spesa fino a quel momento (12 euro). E così ci comporteremo anche nelle giocate successive finché non vinceremo o fino a che avremo denaro sufficiente. Se siamo sfortunati, dopo quante giocate al massimo dovremo interrompere il gioco perché non abbiamo più denaro sufficiente per la giocata successiva? E se volessimo guadagnare alla fine 10,2 ? 13. Si stabilisca la frequenza delle 21 lettere del nostro alfabeto nella poesia “San Martino” di G. Carducci (1835-1907) (professore ordinario a Bologna e premio Nobel per la lettereratura). (Suggerimento: si scriva il testo in Word e una per una si sostituiscano le 21 lettere con il simbolo =; automaticamente Word fornisce il numero di sostituzioni). 62 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Rispo ste 1) Secondo la formula di Bernoulli, la probabilità di cinque femmine e tre maschi è !8 $ ! 1 $5 ! 1 $3 !8$ # &'# & '# & = # & # 5& # 2 & # 2 & #3& " % " % " % " % ! 1$ 8 8'7'6 7 ' ## && = = = 0,21875 ( 21,9% . 3' 2 '1 ' 256 32 " 2% La probabilità che almeno cinque siano femmine, oltre al caso precedente, comprende anche sei, sette od ! n$ ! n $ & , si ottiene: otto femmine, quindi, ricordando che ## && = ## & " k% " n ' k% 1 256 " "8 % "8% "8% "8% % 56 + 28 + 8 + 1 93 ! $$ $$ '' + $$ '' + $$ '' + $$ '' '' = = ( 36, 3% 256 256 # # 3& #2& #1& #0& & 2) La probabilità di un ambo su una ruota si calcola prendendo come spazio campionario ! 90 $ l'insieme delle cinquine possibili, che sono ## && e considerando come evento l'uscita di " 5% una cinquina con i due numeri che abbiamo giocato: queste devono avere oltre ai nostri !88 $ due numeri, altri tre fra i 90-2 = 88 rimanenti, ossia ce ne sono ## && . Pertanto la " 3% probabilità di vincere giocando un qualunque ambo è: !88 $ # & # 3& " % !90 $ # & = 88 ' 87 ' 86 ' 5' 4 ' 3' 2 '1 = 5' 4 = 10 ( 0,25% . # 5 & 3 ' 2' 1' 90 '89 ' 88 ' 87 ' 86 90 ' 89 4005 " % Un ap pr occ io alt er n ativ o: il primo numero deve essere uno dei cinque numeri estratti sui 90 disponibili, quindi ha probabilità 5/90 di uscire; se esce, il secondo deve essere uno degli altri quattro numeri estratti sui restanti 89, quindi ha probabilità 4/89. Pertanto, la probabilità è: 5 4 10 . ! = 90 89 4005 3) Calcoliamo la probabilità dell'evento complementare, ossia la non uscita del nostro ambo su nessuna delle 10 ruote. Dall'esercizio precedente, su ogni ruota la probabilità di non uscita è 1 ! 10 3995 = " 99,75% . Il risultato su una ruota non influenza quello sulle 4005 4005 ! 3995 $ 10 & ' 97,53% . Dunque, la altre, perciò la probabilità di perdere è pari a ## & " 4005 % ( ) probabilità di vincere è 100 ! 97, 53 % " 2, 47% . 63 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 4) Dal testo appare chiaro che ogni carta estratta non viene rimessa nel mazzo. Ciò posto, la probabilità che prima carta sia un re è 4/40 = 1/10; se la prima è un re, la probabilità che lo sia anche la seconda è 3/39 = 1/13; se le prime due sono dei re, la probabilità che lo sia anche la terza è 2/38 = 1/19. Dunque, la terna di tre re ha probabilità 1 1 1 1 ! ! = " 0, 04% . 10 13 19 2470 ! 40 $ (Un a p pr occ io alte r nativ o : le terne possibili sono ## && ; quelle formate da tre re sono " 3% ! 4$ ! 4$ ! $ 4'6 1 # & = # & = 4 ; allora la probabilità di tre re è 4 # 40 & = # 3& # 1& # 3 & 40 ' 39 '38 = 2470 ). " % " % " % Ragionando come sopra, se l'ordine di estrazione è (re, fante, asso) il re ha probabilità 4/40, il fante 4/39 e l'asso 4/38, quindi 4 !4!4 4 = " 0,1% . 40 ! 39 !38 3705 Se invece l'ordine di estrazione non ha importanza, ma contano le tre carte che il giocatore ha in mano, 4 8 !6 = " 0, 65% . 3705 1235 allora occorre moltiplicare per 3! = 6, ottenendo 3 (U n a pp r occi o a lter nativ o: ci sono 4 = 64 terne ordinate ! 40 $ costituite ciascuna da un re, un fante ed un asso; le terne non ordinate di carte sono ## && e " 3% ! 40$ 64 ' 6 8 = quindi abbiamo, come sopra, 64 ## && = ). 40 '39 ' 38 1235 " 3% Nell'ultimo caso, la prima carta è indifferente (probabilità = 1), la seconda deve essere una delle 30 su 39, di seme diverso dalla prima (30/39 = 10/13), e la terza una delle 20 su 1! 38, di seme diverso dalle prime due (20/38 = 10/19); ne segue 10 10 100 ! = " 40,5% . 13 19 247 (Un ap pr occ io alt er nat ivo : una terna con tre semi diversi, quindi uno escluso, ha 10 3 possibili scelte; poiché le scelte del seme escluso sono 4, ci sono 4000 terne possibili con tre ! 40 $ 4000 ' 6 100 = semi diversi. Ne segue 4000 ## && = ). " 3 % 40 ' 39 '38 247 5) La funzione gaussiana di media µ = 6 e scarto quadratico medio σ = 1 ha equazione: y= 1 2! # 1 x#6 "e 2 ( ) 2 [ ] [ ] . E' noto che nell'intervallo µ ! 2", µ + 2" = 4, 8 è racchiuso circa il 95% dell'area tra la gaussiana e l'asse x, (più precisamente, il 95,45%) che in totale vale ] 1; pertanto, per simmetria, nell'intervallo !", 4 64 ] è racchiusa metà dell'area residua, L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 ossia 1 1 ! 0, 95 = 0,025 ; allora la probabilità dell'evento !", 4 , ossia di trovare un 2 ( ] ) ] dato di misura minore di 4 è del 2,5%. (Più precisamente, la probabilità è p(E) ≈ 2,275%). 6) Per rappresentare 12 anatre, 15 faraone, 16 galline e 9 tacchini del pollaio mediante istogrammi possiamo servirci di carta millimetrata o di un banale software da disegno o Excel. Per un diagramma a torta occorre calcolare il totale del pollame, ossia 52, poi (se si lavora in gradi) fare le 4 proporzioni: per le anatre, 12:52 = x:360, da cui x ! 83° ; idem per gli altri tre tipi di animali da cortile (o ne bastano altri due?) ed infine col goniometro o con software apposito tracciare un cerchio e i quattro angoli al centro trovati. Oppure, con Excel si fa in automatico ed è calcolata la percentuale di ogni categoria sul totale. Per gli ideogrammi, occorrerebbe trovare una figurina per ciascuno dei quattro tipi di pollame e ripeterla tante volte quant'è il numero di capi. Potete provare per divertimento! 7) La formula di Poisson , dice che la probabilità che una variabile aleatoria x di media m sia ( ) uguale ad un valore h è p x = h = m h #m 97 #9 " e . Allora, p x = 7 = "e $ 0,117 . h! 7! ( ! ! 65 ) L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 8) Il polinomio interpolatore della tabella x !2 !1 0 1 2 3 y 3 4 5 6, 5 8 10, 5 è del tipo y = a5 " x5 + a 4 " x4 + a3 " x3 + a 2 " x2 + a1 " x + a 0 . Si impone il passaggio di questa curva per ( ) ( ) i sei punti "2, 3 , K , 3, 10.5 , ottenendo un sistema lineare di sei equazioni nelle sei ! incognite a 0,K, a5 . Chi, come me, preferisce i calcoli in forma simbolica, al posto di 6,5 si scriva 13/2, e al posto di 10,5 si scriva 21/2. ! ! ! # "32a + 16a " 8a + 4a " 2a + a 5 4 3 2 1 0 % "a5 + a 4 " a3 + a 2 " a1 + a 0 % % a0 $ a + a a + a + a + % 5 4 3 2 1 a0 % 32a + 16a + 8a + 4a + 2a + a 5 4 3 2 1 0 % &243a5 + 81a 4 + 27a3 + 9a 2 + 3a1 + a 0 $#32 16 #8 4 #2 1 =3 3 ' & ) =4 4 ) & #1 1 #1 1 #1 1 & 0 =5 0 0 0 0 1 5 ) "C=& ) = 13 2 1 1 1 1 1 13 2) & 1 & 32 16 8 4 2 1 =8 8 ) & ) = 21 2 %243 81 27 9 3 1 21 2( Il sistema si risolve applicando alla matrice C l’algoritmo di Gauss-Jordan (conviene ! prima scambiare di posto la prima e la quarta riga e poi portare la terza riga all’ultimo posto)(1). Alla fine si ottiene il polinomio y = 1 48 x5 " 1 24 x4 " 5 48 x3 + 7 24 x2 + 4 3 x + 5. La retta di regressione si ottiene invece come indicato nel cap. 3: "x = ! 19 1 105 # = $ 1,7078 $ 1,7 . Poi, y = 37 6 " 6,17 e " y = 6 4 6 Infine, c xy = 44 6 " 37 12 = 17 4 = 4,25. ! 230 # 2,5276 # 2,53 . 6 ! ! & 2 17 36 51 # = $ 1, 457 (( m = c xy " x = 4 105 35 * y = 1, 457x + 5, 438 . Allora la retta è: ' ! (q = y % m # x = 37 % 51 # 1 = 571 $ 5, 438 () 6 35 2 105 ! Il coefficiente di correlazione è ! r= c xy "x # "y = 17 6 6 # # $ 0, 9845 . 4 105 230 ! (1) Esiste però una formula di Lagrange per calcolarlo. 66 x = 1 2 = 0,5 ; L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Infine, per calcolare la regressione esponenziale, facciamo uso di un diagramma semilogaritmico, sostituendo ai dati y i loro logaritmi: x "2 y# = ln y () "1 0 1 2 3 1,10 1,38 1, 61 1,87 2, 08 2,35 . Allora y" # 1,73, " y# $ 0,5 e c xy" # 0,72 . Ne ! segue y" = 0,246x + 1, 61, con r " 0, 999 . ! ! ! Allora, y = e1,61 " e0,246x # 5 " e0,246x . ! ! I grafici sono eseguiti con Geogebra : in rosa il polinomio interpolatore; in nero la retta e in ! blu l’esponenziale. Quest’ultima approssima meglio i dati rispetto alla retta. 9) Nella tabella pertanto "y = x !2 !1 0 1 2 3 i dati x sono gli stessi dell’esercizio precedente, y !5 !2 0 2 3 4 x = 1 2 = 0,5 ; 58 1 # = ! 6 9 "x = 19 1 105 # = $ 1,7078 $ 1,7 . 6 4 6 Poi, y= 1 3 " 0,33, 31 86 " 5,17. La retta di regressione ha quindi $ 3, 09 . Infine, c xy = 3 6 ! ! 31 36 62 1 62 1 58 " = # 1,77 , q = " # =" $ "0,55 , ed il coefficiente di correlazione è 6 105 35 3 35 2 105 ! 31 6 3 r= " " # 0, 979 . Per trovare la parabola di regressione, poniamo: 6 105 86! m= ! ! ! ! #"2& "4% #"5& "1% % ( $ ' % ( $ ' %"1( $ 1' %"2( $1' % 0( $ ' % ( $1' 0 0 X = % ( , T = X 2 = $ ' , Y = % ( , U = $ ' , Y" = a # T + b # X + c # U . % 1( $ 1' % 2( $1' % 2( $4' % 3( $1' % ( $ ' % ( $ ' $ 3' #9& $ 4' ! #1& Imponiamo ora che il vettore Y’-Y sia perpendicolare ai vettori T, X, U, ponendo = 0 il ! ! ! loro prodotto scalare. 67 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Otteniamo il sistema: % T " Y# $ Y = 0 ' ' & X " Y# $ Y = 0 ) ' '( U " Y# $ Y = 0 ( ( ( ) ) ) % T " Y# = T " Y ' & X " Y# = X " Y . ' U " Y# = U " Y ( Sostituiamo Y" = a # T + b # X + c # U : $ T " T #a + T " X # b+ T " U #c = T " Y & & " T #a + X " X # b+ X " U #c = X " Y . % X! & &' U " T # a + U " X # b + U " U # c = U " Y ( ( ( ! ) ) ) ( ( ( ) ) ) ( ( ( ) ) ) Ora eseguiamo quei prodotti scalari: "115a + 27b + 19c = 28 $ # 27a + 19b + 3c = 32 & $ 19a + 3b + 6c = 2 % ! " a = '1 4 $ # b = 283 140 . $ c = 4 35 % Pertanto, in forma approssimata abbiamo la retta y = 1,77x " 0,55 e la parabola ! y = "0,25x2 + 2, 02x + 0,114 . ! ! 10) Dei due gruppi di volontari malati, col farmaco sono migliorati 42 e non migliorati 6042 = 18; col placebo sono migliorati 20 e non migliorati 54-20 = 34. Abbiamo allora la farmaco seguente tabella di contingenza: placebo totali migliorati non m. totali 42 18 60 . Se il farmaco ha 20 34 54 62 52 114 circa lo stesso effetto del placebo, la probabilità di miglioramento è 62/114, mentre quella di non miglioramento è 52/114. Allora, i numeri attesi nei due casi sono: ! migliorati non m. totali farmaco 32, 63 27,37 60 placebo totali 29,37 62 24, 63 52 54 114 . La matrice differenze è # 9,37 "9,37& 2 $87,80 87,80' H " H0 = % ( ; eleviamo al quadrato: H " H0 # & ) , poi dividiamo $"9,37 9,37 ' %87,80 87,80( ( ! ( per H0 : H " H0 ! ! ) 2 ) $2, 69 3,21' : H0 # & ) e poi sommiamo: " 2 = 12, 45. C’è un solo grado di 2, 99 3,56 % ( ! libertà, perciò dalla prima riga della tavola troviamo che la probabilità di avere ! 2 = 12, 45 è fuori tabella, ossia minore dello 0,005. Allora, come del resto era intuibile, "! l’ipotesi nulla è respinta ed il farmaco è efficace. ! delle 68 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 11) Valutiamo la distribuzione col test di Poisson calcolando il rapporto v/m tra varianza e media: m= ! v= ! 1 " 78 + 18 + ... + 22 = 39 ; 10 ( ) $ 2 2 1 # && 78 " 38 + 18 " 38 + K + 22 " 38 10 " 1 % Allora ! aula 1 2 3 4 5 6 7 8 9 10 . Si ha: ragnatele 78 18 64 24 30 70 59 10 15 22 ( ) ( ) ( ) 2' )) = ( 5960 * 662. 9 v " 16, 97 >> 1 , e quindi la distribuzione è di tipo aggregato. m 12) Questo non è un esercizio di Probabilità e neppure di Statistica, ma lo vediamo ! ugualmente, perché qualche attinenza ce l’ha e come esempio di creazione di un modello matematico per affrontare un problema. Per cominciare, osserviamo che la probabilità di uscita di un numero è 5/90 = 1/18, ma la Sisal paga 11,2 volte l'importo che abbiamo giocato. Ciò posto, poiché stabiliamo di uscirne alla pari, vediamo che cosa succede: fino alla undicesima giocata la vincita è superiore alla somma spesa fino a quel momento. Dalla dodicesima in poi dobbiamo aumentare man mano la quota. Infatti, la spesa totale di 12 euro sarebbe superiore alla eventuale vincita di 11,2 euro. Sia x la somma giocata alla dodicesima giocata: la spesa è 11+x, la vincita eventuale 11,2x, quindi abbiamo l’equazione 11 + x = 11,2 " x # x = 11 $ 1, 07843 . Per ottenere una 10,2 formula generale, sia sn , n " 11 , la somma complessivamente giocata alla n-esima puntata. Allora alla! successiva, detta x la somma puntata, si ha s sn + x = 11,2 " x #!x = n , quindi: 10,2 sn +1 = sn + ! # sn 1 & 11,2 = sn " %%1 + ) 1, 098 " sn (( = sn " 10,2 10,2 $ 10,2 ' Poiché s11 = 11 , allora s11+k = 11 "1, 098k . Supponiamo che il nostro numero non esca per varie volte; a!che punto finiremo i 50.000 euro? Risolviamo l’equazione ! ( ) ln 4545, 45 ! 50000 50000 = 11 "1, 098 k # 1, 098k = $ 4545, 45 # k = $ 90 . 11 ln 1, 098 ( ) Pertanto, se il numero non esce per 90+11 = 101 estrazioni, avremo speso circa 49614 euro, ! ossia quasi tutto, e non avremo abbastanza denaro per un’ulteriore giocata. Per curiosità, se fossimo partiti con 115.000 , li avremmo finiti dopo 110 giocate... Si può generalizzare ipotizzando di voler vincere qualcosa di più di quanto speso, diciamo m " sn + q , con m ≥ 1 e q ≥ 0. Sia s1 la somma giocata alla prima puntata. 69 ! ! L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Alla n+1-esima si ha l’equazione: m " sn + q + x = 11,2 " x # x = " sn +1 = m # sn + q + m " sn + q , 10,2 m # sn + q 11,2 = m # sn + q # " sn +1 = 1, 098 # m # sn + q . 10,2 10,2 ( ) ( ) ! Ipotizziamo ora s1 = 1, m = 1, q = 10,2 . Poniamo poi r = 1, 098 . Allora s2 = r " 1 + q , poi: ( 2 s! 3 = r " s2 + q = r " r " 1 + q + q = r + q " r " 1 + r , # & #! & s4 = r " s3 ! + q = r " %r 2 + q " r " 1 + r + q ( = r3 + q " r " %1 + r + r2 ( … , $ ' $ ' ( ( ! ( ( ) ) sn +1 = r n + q " r " ( ) ! n#1 $ i=0 ! ) ) ( ) ) rn # 1 r i = rn + q " r " = 11,2 "1, 098n + 0, 9955 r #1 L’equazione 11,2 "1, 098 x + 0, 9955 = 50.000 ha per soluzione x = 89,89. Per voler vincere ! appena 10,2 i 50.000 finiscono dopo solo 90 giocate. ! Ne segue che il denaro finisce tanto più in fretta quanto più m o q sono grandi, ossia quanto più siamo avidi … 13. Per stabilire la frequenza delle 21 lettere del nostro alfabeto nella poesia “San Martino” di G. Carducci, 4 strofe di 4 versi ciascuna, seguiamo il suggerimento. Intanto vediamo il testo della poesia: La nebbia a gl’irti colli ma per le vie del borgo piovigginando sale, dal ribollir de’ tini e sotto il maestrale va l’aspro odor de i vini urla e biancheggia il mar; l’anime a rallegrar. Gira su’ ceppi accesi tra le rossastre nubi lo spiedo scoppiettando: stormi d’uccelli neri, sta il cacciator fischiando com’esuli pensieri, sull’uscio a rimirar nel vespero migrar. Ecco il risultato, escluso il titolo: a 31 b 6 c 14 d 10 e 29 f 1 g 9 h 2 i 40 l 27 m 8 Ecco qualche elaborazione e qualche grafico: 70 n 13 o 22 p 10 q 0 r 27 s 19 t 12 u 7 v 5 z 0 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 Si contano 292 lettere (escluso il titolo), delle quali 129 sono vocali, il 44% del totale. La moda è la vocale “i”, seguita dalla “a” e dalla “e”. vocale frequenza a 31 e 29 i 40 o 22 u 7 Le consonanti più usate sono la “l” e la “r”. La “q” e la “z” non ci sono. NOTA: ci anche ben apostrofi. 71 sono 8 L. Verardi, Matematica, Informatica e Statistica per Scienze Naturali. Modulo di Statistica A.A. 2011-12 BIBLIOGRAFIA [1]. G.C. Barozzi, C. Corradi, Matematica per le scienze economiche e statistiche, Il Mulino, 1977 [2]. M. Battelli, U. Moretti, Elementi di Statistica e di calcolo delle probabilità per scuole superiori, Le Monnier, 1988 [3]. S. Cavicchi, Dispense ed esercizi di Statistica per Scienze Naturali [4]. B.V. Gnedenko, Teoria della probabilità, Editori Riuniti, 1979 [5]. Open University, Probabilità e Statistica, EST Mondadori, 1975 [6]. V. Villani, Matematica per discipline biomediche, Mc Graw-Hill, 1991 Inoltre: [7]. Archivio dati Commissione Amministrativa Insediamento CA2, Bologna. [8]. Enciclopedia “Gli animali e la loro vita” vol. 1, Africa, regione etiopica, Istituto Geografico De Agostini, Novara, 1970 [9]. Texas Instruments, Manuale d’uso della calcolatrice TI-58. 72