Università degli Studi di Sassari Facoltà di Agraria DIPARTIMENTO DI SCIENZE ZOOTECNICHE Corso di laurea in Scienze Zootecniche APPUNTI DI STATISTICA Prof. Giuseppe Pulina Variabilità e regolarità sono due leggi di Natura anno accademico 2003/2004 Caso e Necessità La vita è breve ma i conti possono essere molto, molto lunghi. J. Barrow Una fredda mattina di marzo il signor Caso incontrò la signorina Necessità. Appena riconosciutola, egli si esibì in un perfetto inchino, Buongiorno Signorina, che piacere incontrarla, squillò con un largo sorriso. Buongiorno a lei, ribatté ella niente affatto sorpresa, A dirle la verità mi aspettavo questo incontro. Eh, fece con fare ammiccante lui, Da quando la conosco lei ha sempre previsto i nostri incontri che per me restano, mi lasci dire, così sorprendentemente aleatori. Scusi, aggiunse facendosi serio, Dove starebbe il piacere della sorpresa nel vedere un conoscente se tutto fosse sempre rigidamente programmato? La signorina tacque quasi rapita dall'abbigliamento disarmante del suo interlocutore. Per quanto si sforzasse di ricordare, non l'aveva mai visto conciato con un minimo di raziocinio. Le scarpe spaiate facevano letteralmente a botte con la cravatta indossata in barba ai più elementari principi di accostamento dei colori e delle forme. Non solo quest'uomo non ha uno stile ben definito, pensò turbata, Ma semplicemente non ha uno stile. Sinceramente, mi riuscirebbe difficile formulare gli accostamenti strampalati che ogni volta gli ho visto indossare. Da parte sua lei sembrava l'immagine della perfezione. Non un ciuffo fuori posto, non un filo negli abiti, non un colore che non fosse perfettamente intonato con gli altri. Del modo di essere dell’uomo ciò che lei sopportava meno era quel suo vizio di giocare perennemente con una monetina, lanciandola per aria e costernandosi ogni volta per la faccia che questa mostrava nel ricadergli sul palmo della mano. E la smetta un attimo! sbotto. Le ho detto tante volte che mi innervosisce... Scusi, davvero... rispose il signor Caso, riponendo velocemente la moneta nelle ampie tasche del soprabito. Ma anche la sua manìa di giocare a scacchi non appena si trova sotto mano una scacchiera non è meno fastidiosa. Tanto, sa, anche in un gioco così rigorosamente determinato c’è un minimo di casualità. E quale sarebbe? ribatté piccata. Ma la scelta del colore con cui giocare, naturalmente, esattamente come per la faccia della mia moneta. La differenza è che io poi non perdo altro tempo per sapere come va a finire! concluse ridacchiando. La signorina ammutolì. Era inutile continuare a discutere con costui o sarebbe andata come le altre volte, cioè male. Due corvi schioccarono l’aria rincorrendosi fra i tetti. Necessità si scosse da questi pensieri e decise di cambiare discorso, Cosa diceva a proposito dell’incontro? Non ci sarebbe gusto? Lei, nel suo sommo disordine mentale e materiale che io paragono soltanto a quello di cui è capace suo cugino il signor Caos che conosco bene, non capisce che questo mondo funziona soltanto perché siamo capaci di formulare previsioni certe circa il futuro. Cosa succederebbe se dato un appuntamento ci si scordasse sistematicamente ora e luogo da parte dei convenienti? Sarebbe il caos, appunto, concluse mentre scorgeva un'ombra sinceramente interrogativa sul volto di lui. Ah, mi scusi, aggiunse, Dimenticavo che lei non rispetta mai un appuntamento, ma si sa che lei è un gran smemorato... Il silenzio si impadronì della strada, mentre un grappolo di nuvole nere frastagliava il cielo in sprazzi di sole e di piovaschi. I due camminarono per un lungo tratto in silenzio riparandosi sotto i balconi per sfuggire agli improvvisi scrosci di pioggia. La signorina Necessità prese l'uomo sottobraccio, quasi per proteggersi dalle improvvise intemperie, e lui la vide per la prima volta, bellissima nella sua perfezione e, quasi, si vergognò del suo aspetto vagamente trasandato. Gli vennero in mente le parole della madre Alea, Figlio mio, tu hai bisogno di una donna ordinata. Cercala subito, altrimenti finirai come tuo cugino che è tanto disordinato che non gli si avvicina più nessuna ragazza per bene. Avrei bisogno di una donna, sussurrò quasi fra se, e lei, che lo aveva già scelto, gli strinse l'avambraccio. Finirono in un caffè, a raccontarsi due vite diversissime e a capire come potesse vivere uno senza aspettarsi nulla dal futuro e l'altra sapendo esattamente quello che sarebbe successo comunque, ma l'amore unisce gli impossibili e finirono per sposarsi, non senza che lei producesse uno sforzo straordinario anche per averlo all'altare il giorno convenuto. Ebbero una figlia bellissima, alla quale misero il nome di Statistica . 2 LEZIONE n. 1 LA STATISTICA 1. Cosa é la statistica e a cosa serve. Uno degli aspetti più rilevanti di un corso di statistica di base é quello di definire in modo comprensibile l’oggetto dello studio e l’utilizzo dello strumento che si va ad acquisire. La mancata o imprecisa risposta a queste due domande porta ineluttabilmente da un lato a costruire una disciplina su un terreno paludoso (la non comprensione dei fondamenti della statistica) e dall’altro alla disaffezione degli studenti (la non finalizzazione dello studio). In questo nostro corso dedicheremo molto spazio alla discussione su cosa sia e a cosa serva la statistica. Innanzitutto cerchiamo di non confondere le due cose: non é sufficiente sapere a cosa serve un oggetto per sapere che cosa é l’oggetto. Per questo motivo iniziamo da capo (proprio da capo). Gli oggetti fondamentali di cui si occupa la statistica sono le entità. Queste sono le cose che popolano il mondo esterno e il mondo esterno é ciò che é fuori di noi e che possiamo osservare. Di solito non facciamo distinzioni fra entità che popolano il mondo esterno e quello interno, ma le entità della nostra mente di solito ci servono per riconoscere quelle del mondo esterno. Il concetto di entità é appreso di solito nella prima infanzia quando organizziamo gli stimoli che entrano dal mondo esterno nella nostra testa classificandoli in differenti tipi. Ad esempio, il bambino impara molto precocemente a conoscere entità che hanno due occhi, un naso, una bocca, dei capelli e che le entità “madre”, “padre”, “fratello” e altre simili hanno le stesse caratteristiche. Il bambino classifica così tutte le entità simili per queste caratteristiche nel tipo “persone” e questa capacità di classificare (riconoscere) entità con tali caratteristiche non lo abbandonerà per tutta la vita. Questo processo é analogo per tutte le entità e rappresenta il livello più profondo della capacità di apprendimento dell’uomo (e in parte anche degli animali superiori). Raggruppare le entità entro tipi, infatti, semplifica enormemente la vita in quanto siamo capaci di riconoscere che tutte le entità appartenenti allo stesso tipo hanno molte cose (proprietà) in comune. Le entità non sono solo oggetti (o soggetti) materiali. Possono essere anche manifestazioni di fenomeni (febbre, file di internet, tempo metereologico, ecc) oppure qualsiasi altra cosa a cui possa essere attribuito un “nome”. L’insieme delle entità classificate entro lo stesso “tipo” prende il nome di popolazione. Questo termine é molto importante: la statistica infatti si occupa non della singola entità, ma dell’insieme delle entità raggruppate per tipo, cioè della popolazione. 3 Ma come facciamo a classificare le entità entro le popolazioni? A ciascuna entità é associato un insieme di proprietà. Ad esempio, a ciascuna persona sono associate migliaia di proprietà, due delle quali sono “il peso” e “l’altezza”. Per ogni particolare entità, ciascuna delle sue proprietà ha un valore. Ad esempio, all’entità Giuseppe Pulina, della popolazione uomini italiani, sono, tra le molte, associati i valori di 176 cm per la proprietà altezza e di 74 kg per la proprietà peso corporeo. Il valore di una proprietà può essere espresso in numeri, in parole oppure in simboli. Ad esempio, l’entità succitata G.P. presenta i valori delle seguenti proprietà: 43 per la misura di scarpe, Sardo per l’appartenenza regionale, 0RH+ per il gruppo sanguigno. Noi possiamo individuare una entità mediante i valori delle sue proprietà: maggiore é la popolazione per ciascuna proprietà, maggiori sono le proprietà che dovremo considerare nel processo di individualizzazione di una entità. I valori delle proprietà delle entità di solito variano da una entità all’altra, ma a volte anche nella stessa entità con il passare del tempo. Se una proprietà non presenta valori che variano (sono costanti) essa non é di alcun aiuto nel processo di individualizzazione dell’entità. Un esempio (semiserio): una monaca si reca a trovare un monaco in un monastero, ma non ricorda il nome. Il padre portinaio le chiede di descrivere il soggetto per poterlo individuare. La monaca ci pensa e risponde che veste una tonaca bruna, ma il padre replica che “tutti “ i monaci vestono una tonaca bruna (proprietà costante)! Allora la monaca aggiunge che il monaco ha una cintura di corda, ma anche in questo caso non é possibile individuarlo perché tutti i monaci portano cinture di corda. Anche le altre proprietà via via riportate dalla monaca (capelli tagliati con la chierica, breviario in mano, barbetta rada sotto il mento) non sono utili, in quanto tutto i monaci presentano gli stessi valori di queste proprietà. Alla fine, spazientita, la monaca sbotta “ha 28 nei sulla schiena!!”. A quel punto il padre portinaio si illumina: “Ma é padre Febbraio! Con 28 ce n’é uno, tutti gli altri ne hanno 31!”. Questa storiella dimostra che ai fini delle conoscenza (in tal caso anche biblica) é importante che le proprietà delle entità oggetto di studio siano variabili. La determinazione del valore delle proprietà viene eseguita mediante rilevazione empirica con gli “strumenti di misura”. Se lo strumento funziona correttamente, esso ci darà una stima del valore della proprietà di una determinata entità al tempo della misurazione. Ad esempio se noi volessimo conoscere il (valore del) peso (proprietà) di una persona (entità), noi applichiamo alla persona uno strumento di misura del peso (bilancia) e lo strumento ci restituisce il valore che (in kg) rappresenta la stima del peso della persona. Anche nel caso di proprietà esprimibile come categorie (proprietà categoriali) si applica uno strumento per ottenere una stima del valore. Ad esempio, nella “misurazione” del genere di una persona, si applica lo strumento “vista” e, dall’insieme delle 4 caratteristiche osservabili, si ottiene la risposta “maschio” o “femmina”. Ma anche in questo caso vi può essere un (seppure remoto) errore, come dimostra una sterminata aneddotica sui travestiti. La conoscenza scientifica del mondo e la sua applicazione tecnologica, sono basate sulla ricerca empirica. La ricerca empirica é ciascuna attività in cui i valori delle proprietà delle entità oggetto di studio, sono raccolti mediante l’esperienza (esperimento) e le cui conclusioni sono tratte esclusivamente dai dati raccolti in quell’area di esperienza. La ricerca empirica usa gli strumenti per determinare i valori delle proprietà. L’insieme dei valori raccolti per ciascuna proprietà, chiamati anche dati (ossia ciò che é prima di qualsiasi manipolazione), appartiene ad una variabile. Una variabile é allora definibile come la rappresentazione formale di una proprietà di entità. Ad esempio, la proprietà “altezza” delle persone é una variabile detta appunto “variabile altezza”; la proprietà “genere” di una parte degli esseri viventi é la “variabile genere” (anche se assume solo 2 valori, maschio o femmina); la proprietà “colore della facciata” delle case é la “variabile colore della facciata delle case” che può assumere infiniti valori nominali (tanti quanti sono i colori e le loro sfumature). Le variabili sono costituite da valori: esse sono definite “continue” se possono assumere qualsiasi valore nel campo della loro esistenza, discrete se possono assumere solo valori discontinui. Ad esempio, la variabile “altezza di una persona adulta” può assumere qualsiasi valore nel campo della sua esistenza (da 50 ai 250 cm), ma non il valore di 1000 cm! La variabile “appartenenza regionale di un italiano” può assumere solo uno dei 20 valori corrispondenti alle regioni d’Italia, ma nessun valore intermedio. Gli statistici amano denominare variante il “singolo valore” di una variabile: il dato 176 cm di (misura della ) altezza (proprietà) di Giuseppe Pulina (entità) é una variante della variabile “altezza”. Ogni ricerca sperimentale produce dati. I dati possono essere utilizzabili se sono organizzati in tabelle. Ciascuna riga della tabella é associata con una entità del tipo che stiamo studiando. Ciascuna colonna della tabella é associata a una proprietà delle entità costituenti la popolazione. Ad esempio, se stiamo studiando la produzione giornaliera di latte e il contenuto di grasso e proteine allo scadere del terzo mese di lattazione delle pecore di compare Bastiano (ovini di razza Sarda), possiamo programmare un esperimento in cui andiamo a rilevare la produzione individuale di ciascuna mungitura (raccogliamo il latte di ciascuna pecora in un contenitore a tara nota e lo pesiamo) e preleviamo un campione di latte su cui eseguiamo le analisi chimiche in laboratorio. 5 variabili = valori delle proprietà della popolazione Popolazione di entità Pecora Latte g 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 1015 1105 1365 1085 840 960 1130 1185 1270 1385 1545 1475 1350 1145 1195 1185 1000 795 1105 1560 1340 1005 1260 1035 1300 Grasso % Proteine % 6,54 5,18 7,44 5,75 7,62 5,69 8,55 5,42 7,57 5,77 5,81 5,26 8,34 5,78 7,11 6,09 6,46 5,16 6,59 5,23 7,53 5,24 6,97 5,34 5,98 4,82 6,39 5,3 7,49 6,04 7,4 5,24 7,16 6,11 7,41 6,24 8,56 5,69 7,76 5,73 6,41 5,45 8,05 5,04 6,43 5,03 6,99 5,66 7,17 5,46 Valori delle proprietà della entità n. 1 Possiamo facilmente notare che la popolazione di 25 pecore (il gregge di compare Bastiano) e definita dalle proprietà produzione di latte, grasso e proteine in % al terzo mese di parto degli animali. La tabella ci da una prima visione del fenomeno, ma ci informa anche sul “piano sperimentale” usato: il piano sperimentale, in questo caso, é consistito nel rilevare le produzioni di latte, grasso e proteine di ciascuna pecora (vi sembrerà banale, ma vedremo in seguito che non lo é affatto). A questo punto possiamo dare una risposta alla domanda “a che cosa serva la statistica?” Lo scopo principale di una ricerca empirica é quello di predire e controllare il valore delle variabili di determinate entità. Ad esempio, uno degli scopi dell’alimentazione animale é prevedere e controllare l’ingestione alimentare di una determinata specie e categoria per poter formulare la più idonea razione alimentare. Ora, l’ingestione, per ciascuna popolazione animale, riflette un insieme di proprietà (variabili) zootecniche quali il peso corporeo dell’animale, il livello produttivo, la qualità delle produzioni e altre misure dello stato degli animali. Se si capisce come prevedere e controllare lo stato degli animali che influenza l’ingestione alimentare, allora possiamo anche 6 formulare razioni alimentari corrette (con risultati notevoli in termini di economia gestione dell’allevamento e di benessere degli animali allevati). Una volta giunti al controllo e alla possibilità di prevedere un fenomeno possiamo anche capirlo e spiegarlo: il primo scopo é proprio della tecnologia, il secondo é proprio della scienza. Ma, come recita la frase di Peter Van Soest (uno dei massimi esponenti dell’alimentazione animale) riportata nel sito del nostro Dipartimento, utilizzare senza capire é un’eresia.. La statistica allora é uno strumento per capire, spiegare, controllare e prevedere un fenomeno. In altri, e definitivi, termini, il principale scopo di una ricerca empirica é quello di scoprire come prevedere e controllare (con la massima accuratezza possibile) i valori delle variabili (proprietà) di entità di una popolazione ed essere in grado di spiegare e capire il fenomeno che esse rappresentano. 2. La relazione fra variabili é la chiave per la previsione ed il controllo di un fenomeno. Una volta stabilito che il principale scopo della ricerca empirica é quello di controllare e prevedere il valore delle variabili, dobbiamo ora capire come fare ciò. La risposta é: noi possiamo controllare e prevedere i valori delle variabili studiando le relazioni fra le variabili. Nella relazione fra variabili una (detta variabile risposta) dipende da una o da più altre variabili (dette variabili predittrici). Tutta la statistica “gira” intorno a questa semplice idea: trovare (se esistono) le relazioni fra le variabili che stiamo studiando. Ma cosa significa “relazione fra variabili?”. Una semplice risposta è: esiste una relazione se la variabile dipendente si muove in accordo (cresce o decresce al crescere o decrescere) con la (le) variabile(i) predittrice(i). La variabile predittrice é anche chiamata “variabile indipendente” mentre quella risposta é anche detta variabile dipendente. In matematica la prima é anche contrassegnata con la lettera y, e le seconde con la lettera x (x1, x2,x3, ecc..). Riprendiamo l’esempio delle pecore di compare Bastiano. Esiste una relazione fra produzione di latte e contenuto in grasso o in proteine del latte? Per capirlo iniziamo a disporre i dati su un piano cartesiano. La variabile “grasso” e quella “proteina” sono entrambi “risposta” e il latte é “predittrice”. In questo caso, ciascuna coppia di dati (latte/grasso e latte/proteine) ha una coppia di valori associati a ciascuna entità. Ogni pecora, infatti é identificata da due valori di tale coppia (la pecora 1, ad esempio, ha prodotto 1015 g/d di latte con il 6,54% di grasso ed il 5,18% di proteine). Vediamo ora i grafici che ne derivano. 7 Contenuto di grasso (%) Relazione fra produzione e grasso delle pecore di Bustiano 9 8,5 8 7,5 7 6,5 6 5,5 5 500 700 900 1100 1300 1500 1700 Produzione di latte (g/d) Contenuto di proteine (%) Relazione fra produzione e proteine delle pecore di Bustiano 6,5 6 5,5 5 4,5 4 500 700 900 1100 1300 1500 1700 Produzione di latte (g/d) Vediamo subito che per il grasso non c’é una “tendenza” evidente, mentre per le proteine possiamo scorgere una leggera tendenza di queste a diminuire quando il latte aumenta. Quando siamo interessati allo studio delle relazioni fra le variabili di solito non tendiamo a sottoporre a misura tutte le entità della popolazione perché ciò può essere impossibile o comportare 8 enormi spese (ricordiamo SEMPRE che la rilevazione di un dato ha un costo e più dati raccogliamo più spese sosteniamo). Per questo motivo i ricercatori sottopongono a studio una porzione della popolazione chiamata campione che varia in entità da un minimo di 6 ad un massimo di 2000 unità. Tuttavia, per quanto riguarda la variabile altezza della popolazione di italiani, esiste una notevole eccezione. Infatti l’altezza dei maschi italiani é nota per (quasi) tutta la popolazione attraverso la misurazione effettuata con la visita della leva militare, mentre per le donne questa variabile può essere rilevata solo su un (per quanto ampio) campione. Lo scopo dei ricercatori é allora quello di generalizzare quanto osservato sul campione alla popolazione a cui il campione appartiene (popolazione target). Affinché la generalizzazione sia valida, cioè perché il controllo e la predizione del comportamento della variabile studiata possa essere esteso all’intera popolazione, il campione impiegato per eseguire le misure deve essere rappresentativo della popolazione stessa. Per assicurasi che il campione sia rappresentativo occorre tenere presenti due aspetti: esso deve essere casuale (esso può potenzialmente contenere “ogni” entità della popolazione) e deve essere numericamente consistente. Esportare alla popolazione le conclusioni che traiamo su un campione é detto, in linguaggio statistico, compiere una inferenza dal campione alla popolazione. Ad esempio, se tentassimo di generalizzare le osservazioni compiute sulle pecore di compare Bastiano all’intera popolazione delle pecore di razza Sarda (4 milioni di capi) dovremo tenere conto che si tratta innanzitutto di un campione non casuale (nel campione non possono capitare per caso le pecore di zio Pasquale, o di cugino Giacomo) e numericamente molto ridotto (solo 25 pecore). Quando non sono osservate queste due condizioni, il campione é detto non rappresentativo e le stime che si fanno su esso sono distorte, valgono cioè solo per il campione e non possono essere estese, se non con molta cautela, alla popolazione. Le tecniche statistiche, se applicate correttamente (cioé ad un campione “buono” della popolazione) ci rivelano con quale “fiducia” possiamo estendere le stime ottenute sul campione (stime campionarie) alla popolazione a cui il campione appartiene: questo aspetto é denominato dagli statistici accuratezza della stima e può essere misurato. La gran parte del nostro corso sarà impiegata ai problemi della stima e della sua accuratezza. In definitiva, la statistica ci aiuta a studiare una variabile e i suoi rapporti con altre variabili in un campione di una popolazione al fine di estendere i risultati ottenuti dal campione (stime campionarie) all’intera popolazione con un certo grado di accuratezza. Arrivati a questo punto, tentiamo di riassumere: se qualche passaggio non vi é chiaro, tornate indietro e cercate di capirlo prima di proseguire. 9 Dunque: la statistica si occupa di entità, in buona sostanza di tutto ciò le cui proprietà possono essere misurabili in qualche modo. Le misure delle proprietà sono i valori i quali, se variano fra una entità ed un’altra, costituiscono una variabile. La statistica studia le variabili per controllare e predire il loro comportamento e per spiegare e capire il fenomeno rappresentato dalle entità studiate. Lo scopo della ricerca empirica é ottenere delle informazioni da una variabile (stime) e studiare le relazioni fra le variabili. Normalmente i dati sono raccolti su una parte della popolazione che é detta campione. Le stime ottenute sul campione possono essere estese alla popolazione con il procedimento dell’inferenza. Esse sono affidabili solo se il campione é rappresentativo della popolazione target, altrimenti sono distorte. Siamo giunti ,infine, a poter formulare una risposta alla seconda: cosa é la statistica? La Statistica é un set di tecniche generali ottimali che aiutano i ricercatori empirici nello studio delle variabili e delle relazioni fra variabili di campioni di entità, principalmente come mezzo per prevedere accuratamente e controllare i valori delle variabili (proprietà) nelle entità delle popolazioni (D. Macnaughton). 10 Lezione n. 2 PROBABILITA’ 1. Perché ci interessa la probabilità In ogni corso di statistica che si rispetti, ad un certo punto compare la probabilità. In molti casi é un argomento che é trattato all’inizio del corso come propedeutico agli altri, in altri costituisce uno dei capitoli principali di studio. Quale aspetto lega il calcolo delle probabilità con lo studio delle variabili così come descritte nella lezione precedente? Diamo subito una prima risposta: poiché una variabile (insieme di dati della proprietà di una entità) può assumere diversi valori, tali valori possono essere raggruppati in classi di frequenza relativa (le volte che i valori della variabile ricadono in quella classe) e la frequenza con cui una determinata classe di valori compare nella variabile segnala la probabilità con cui posso trovare tale valore nel campione (o nella popolazione) che ho in studio. Il calcolo delle probabilità nacque circa tre secoli fa per analizzare certe situazioni inerenti al gioco d’azzardo. Attualmente è una delle discipline più diffuse negli insegnamenti universitari e trova molte applicazioni nelle scienze biologiche, mediche, fisiche, sociali. Tra le applicazioni a noi più vicine possiamo ricordare la valutazione dei risultati di esperimenti condotti su un campione di animali ( esperimenti di alimentazione, di tecnica di allevamento, ecc..); la previsione dell’andamento di un fenomeno legato alla biologia degli animali quale la curva di lattazione o la curva di accrescimento, lo studio delle relazioni fra i caratteri misurabili direttamente sugli animali (fenotipi) ed il loro determinismo genetico (genotipi), lo studio delle modalità con cui si diffonde una infezione o una parassitosi fra gli animali (epidemiologia). In genere, il calcolo delle probabilità rappresenta lo strumento che consente di rendere razionale il comportamento dell’uomo di fronte all’incertezza. Esso viene infatti applicato in tutte quelle situazioni in cui gli sviluppi di un dato fenomeno non sono euristicamente prevedibili oppure quando occorre prendere decisioni in base ad ipotesi riguardanti eventi futuri. 11 2. La definizione classica di probabilità Se mescoliamo un mazzo da 52 carte e ne estraiamo 1, stiamo facendo una scelta casuale. Nessuna delle 52 carte ha (teoricamente = secondo un ragionamento) una probabilità maggiore rispetto alle altre di essere scelta. Un esperimento casuale dà origine a più risultati e quindi a più eventi casuali. Un evento casuale può essere: ♦ Certo: è il caso dell’estrazione da un’urna piena di palline nere una pallina nera ♦ Impossibile: è il caso dell’estrazione da un’urna che contiene solo palline nere una pallina bianca ♦ Possibile: è il caso dell’estrazione da un’urna piena di palline bianche e nere di una pallina bianca. Tutti gli eventi possibili costituiscono lo spazio campionario: nel lancio di un dado gli eventi possibili sono 6, per cui lo spazio campionario è composto da 6 eventi. La probabilità associata ad un evento esprime il grado di aspettativa circa il suo verificarsi e può essere espresso da un numero compreso tra zero ed uno: 0 ≤ p ≤1 Ciò porta alla definizione classica di probabilità: la probabilità di un evento è il rapporto tra il numero di eventi favorevoli e il numero di casi possibili all’evento, purchè tutti i casi siano equamente possibili: p = numero di casi favorevoli numero di casi possibili Nel caso del lancio di un dado, la probabilità che esca 4 è p = 1 perché in un lancio il 4 può uscire 6 solo una volta ed il numero di casi possibili sono 6. Esempio: un’urna contiene due palline bianche, tre rosse e due nere. Qual è la probabilità di estrarre al primo tentativo una pallina bianca? I casi possibili sono 7 mentre quelli favorevoli sono 2. La probabilità sarà: p= 2 ≈ 0.28 cioè p ≈ 28% 7 12 3. La definizione frequentista di probabilità Come é possibile osservare, nel caso della definizione classica, la probabilità é definita a priori (= prima di aver eseguito gli esperimenti) come caso favorevoli sul totale dei casi possibili. Tale definizione deriva dalla conoscenza delle modalità con cui lavora la machina del caso con cui stiamo lavorando. Infatti, se utilizziamo come macchina del caso il “dado” e il dado non é truccato, non vi é alcun motivo razionale per ritenere che ad un lancio una faccia “debba” prevalere sulle altre: infatti, la definizione di dado truccato é proprio quella di un oggetto “dado” in cui dopo un grande numero di lanci una faccia “esce” con maggiore frequenza delle altre! Ribadisco questo concetto: nella probabilità classica gli eventi favorevoli sui totali sono conosciuti “a priori” e derivano dalle modalità di costruzione della “macchina del caso”. Tuttavia, nel campo delle scienze empiriche, questa definizione non é impiegabile in quanto non abbiamo a disposizione una macchina del caso le cui modalità di estrazione siano conosciute a priori. Possiamo conoscere i modi con cui la nostra macchina lavora se e solo se conduciamo una serie di esperimenti, analizziamo i dati e associamo a ciascuna modalità di presentazione della variabile una probabilità. Questa scelta (obbligata) é detta scelta “frequentista” nel senso che noi associamo la probabilità di un evento alla frequenza con cui tale evento si verifica sperimentalmente. La nostra definizione “operativa” di probabilità é allora la seguente: La probabilità di un evento A, P(A), è il numero di volte in cui si verifica l’evento A (nA) sul numero totale di volte in cui l’esperimento é ripetuto (n) quando il numero totale tende all’infinito n( A) n→∞ n P(A) = lim Secondo la nostra definizione empirica allora, definita la frequenza di a f(A) il rapporto fra casi positivi (A) e casi possibili (N), in un esperimento con un gran numero di casi, probabilità e frequenza coincidono: in termini tecnici, probabilità e frequenza di un evento coincidono asintoticamente. Utilizziamo come esempio, il genere dei nati della specie bovina (é un esempio analogo a quello del lancio della moneta). Noi sappiamo che la macchina del caso é costituita dalla meiosi che segrega nelle cellule germinali maschili e demminili la metà del corredo cromosomico (diploide) posseduto 13 dai genitori. Poiché il sesso é determinato dalla presenza del cromosoma Y (in questo caso, il sesso eterogametico é il maschio con YX, mentre la femmina é omeogametica XX), é la macchina del caso costituita dalla meiosi paterna necessaria alla produzione dei nemaspermi che determina la presenza del cromosoma Y. Poiché la separazione dei cromosomi sessuali é casuale, metà dei nemaspermi possederà il cromosoma Y e metà quello X. Gli oociti materni possiedono solo il cromosoma X e la loro fecondazione può avvenire indipendentemente con spermi che portano Y o X. Essendoci numerosissimi spermi in gioco nella fecondazione (alcuni miliardi), la probabilità che l’oocita sia fecondato con uno spermio portatore Y o X é del 50%, per cui il futuro nato potrà essere maschio o femmina con una probabilità teorica del 50%. In effetti, se osserviamo la serie delle nascite avvenute nella popolazione bovina in una annata possiamo verificare che questo meccanismo effettivamente lavora così. Prendiamo la carriera riproduttiva di 100 vacche. vacca n. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 vitello 1 parto f f m m m m m m m f f m f m m f f m f m m f m f f m f m f m m f vitello 2 parto m m m m f f f m m f m m m m f m f f m f f f f f f f m m m m m m vitello 3 parto m m f f f m f f m f m m m m m f m f m m m m f m m m f m m f m f 14 vitello 4 parto femmine maschi f 2 m 1 m 1 m 1 m 2 m 1 f 3 f 2 m 0 f 4 m 1 m 0 f 2 f 1 m 1 f 3 m 2 f 3 m 1 f 2 m 1 f 3 m 2 m 2 m 2 m 1 f 3 f 1 m 1 m 1 m 0 m 2 2 3 3 3 2 3 1 2 4 0 3 4 2 3 3 1 2 1 3 2 3 1 2 2 2 3 1 3 3 3 4 2 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 m f m m m m m m m m m m m m m m f m f f f m f m f f f f f f f m f m m m m f m f f f m f f f f m f f f f m m m m f m m m f f f m f m m m m m m f m m f m f f m m f m f f m f m f m f f f f f f f f f f f m f f f m f f f m f m f m f m f m m m f f m f f m f f m m m f f f m m m m m f m m m f f m m m m m m m m f m m f f f m f f m f m m f m m f m f 15 m m m m m f m f f m m m m m m f f m f f m m f f m m f m m f f f m m f f m f f m f f f m m m m m f m f m f f m m m 0 2 0 1 1 3 1 2 2 1 0 1 1 0 1 1 3 2 3 3 2 0 2 2 2 2 3 1 3 3 3 1 2 1 2 2 1 3 3 2 3 4 3 2 2 3 3 0 4 2 3 2 2 1 2 0 3 4 2 4 3 3 1 3 2 2 3 4 3 3 4 3 3 1 2 1 1 2 4 2 2 2 2 1 3 1 1 1 3 2 3 2 2 3 1 1 2 1 0 1 2 2 1 1 4 0 2 1 2 2 3 2 4 1 90 91 92 93 94 95 96 97 98 99 100 f f f m f m m m m f m m f m f f f m m m f f f f f f f m m m f f m m m m m f f f m f f f 2 3 2 2 4 2 1 0 2 4 2 2 1 2 2 0 2 3 4 2 0 2 f= m= 46 54 53 47 42 58 42 58 183 217 Per ciascun parto (1°, 2°, 3° e 4°) i maschi e le femmine sono risultati circa la metà. Anche nel complesso il 45,7% del totale sono risultate femmine. Impareremo come testare l’ipotesi che il valore “vero” del rapporto riproduttivo dei sessi alla nascita sia del 50% in una lezione successiva. Per ora accontentiamoci di osservare che la frequenza osservata dell’evento “femmina” é abbastanza vicina a quella teorica dovuta al funzionamento della macchina del caso “riproduzione”. 4. Alcune proprietà delle probabilità. Abbiamo detto che la probabilità dei un evento é la frequenza con cui tale evento capita su tutti i possibili. Ne deriva che la somma degli eventi possibili é il 100% per cui la somma delle probabilità di eventi indipendenti appartenenti allo stesso spazio campionario è =1. Ad esempio, data la probabilità che in un dado esca una faccia é 1/6, avendo il dado 6 facce (n. eventi possibili) la somma delle probabilità è (1/6) + (1/6)+(1/6)+(1/6)+(1/6)+(1/6) = 1; in formula P(A1) + P(A2) + P(A3))+....+ P(An) = 1 infatti, se: P(A1) = n( A1) n ( A2 ) n( A3) ; P(A2) = ; P(A3)= ; n( A1) + n( A2) + n( A3) n( A1) + n( A2) + n( A3) n( A1) + n( A2) + n( A3) la somma delle probabilità é uguale a 1, anche se le singole probabilità sono diverse. Da ciò deriva che, con eventi mutuamente escludenti, se P(A1) è la probabilità di A1, la probabilità che A1 non si verifichi, P(non A1) é data dalla: 16 P(non A1) = 1- P(A1) Probabilità di eventi indipendenti. Due (o più) eventi sono detti indipendenti se il verificarsi di uno non influenza in nessun modo il verificarsi dell’altro. Ad esempio, la successione dei parti nelle vacche della tabella precedente é considerata un insieme di eventi indipendente in quanto il verificarsi del primo non incide in nessun modo sul determinismo del secondo o del terzo, e così via. Quale é la probabilità che due eventi indipendenti si manifestino assieme? Contiamo ad esempio quante volte si é verificato nei primi 2 parti l’evento maschio+maschio, maschio+femmina, femmina+femmina: il risultato é che abbiamo osservato 27 m+m, 26 f+f e 47 m+f. La probabilità che due eventi indipendenti non mutualmente escludenti si verifichino assieme é data dal prodotto delle loro singole probabilità: P(A eB) = P(A)*P(B) Nel nostro esempio, la probabilità teorica che in due parti consecutivi abbia entrambi maschi (o entrambi femmine) é data 0,5 * 0,5 = 0,25 Quella di avere un maschio e una femmina é dello 0,5 (in quanto non importa se sia nato prima il maschio o la femmina, essendo per ciascuna successione m+f = 0,25; f+m = 0,25). In ogni caso le probabilità cumulate hanno quale risultato 1. Nel caso pratico, le frequenze osservate non si discostano da quelle teoriche: infatti abbiamo osservato che P(m+m) = 0,27, P(f+f) = 0,26 e P(m+f) = 0,47 e la somma anche in questo caso fa 1. Nel caso in cui volessi trovare una probabilità combinata di due eventi indipendenti che si escludono mutualmente dovremo impiegare la somma delle singole probabilità. Ad esempio, sappiamo che il mantello (= coloro esterno) della razza Frisona italiana é normalmente pezzato nero, ma in casi limitati (= 5%) può anche essere pezzato rosso. Sono interessato a conoscere la probabilità, su 100 parti, di avere o un maschio (primo evento indipendente) o una femmina pezzata rossa. La probabilità di avere un maschio é dello 0,5, quello di avere una femmina pezzata rossa é dello 0,5*0,05=0,025. La probabilità di ottenere un animale alla nascita delle caratteristiche desiderate é pertanto 0,5 + 0,025 = 0,525. In generale, con eventi escludentisi mutuamente 17 P(A o B) = P(A) + P(B) Nel caso in cui volessimo trovare invece la probabilità combinata di eventi non escludentisi mutuamente dobbiamo tenere conto di un fatto. Riprendendo il nostro esempio, se fossi interessato alla nascita di un animale maschio o a un animale pezzato rosso (compresi i maschi) se impiegassi la formula sudetta conterei i maschi rossi 2 volte (la prima come maschi e la seconda come maschi rossi). Allora dalla formula devo togliere i maschi rossi che hanno una frequenza uguale a quella delle femmine rosse (0,025). In formula P(A o B) = P(A) + P(B) – P(A)*P(B) Questa é la formula da utilizzare sempre. Infatti, quella precedente si riduce a questa quando gli eventi si escludono mutalmente (non c’é nessuna femmina rossa fra i maschi!) per cui il prodotto delle probabilità è = 0 (la probabilità femmina rossa nei maschi = 0). Diamo ora un ultimo accenno alla probabilità condizionata. Diciamo che esiste una probabilità condizionata quando vogliamo sapere quale probabilità ha un evento congiunto di accadere conosciuta la probabilità di uno degli eventi condizionanti. Ad esempio, vogliamo sapere, dato il colore pezzato rosso del mantello di un nato, quanti maschi ci aspettiamo di ottenere. Allora, la probabilità di ottenere un maschio pezzato rosso é 0,5*0,05 = 0,025. Ma la probabilità che un animale sia rosso é dello 0,05. Allora 0,025/0,05 = 0,5 che é la probabilità di trovare un maschio all’interno degli animali pezzati rossi. In formula P(A/B) = P( A) * P( B) P( B) Vediamo ora un caso particolare della probabilità condizionata. Se la probabilità che si verifichi A conoscendo B é la stessa che di verifichi A senza conoscere B, allora i due eventi sono detti indipendenti. In formula, un evento A é detto indipendente da uno B se 18 P(A/B) = P(A) Nel caso del sesso dei vitelli, l’evento sesso al secondo parto é indipendente da quello sesso al primo parto (B) in quanto la probabilità che nasca un maschio al secondo parto non risente in alcun modo del fatto che conosco il sesso del vitello del primo parto: infatti, 0,5*0,5/0,5= 0,5! 19 Appendice (lettura obbligatoria) Statistica e modelli Elaborare i dati secondo una determinata procedura significa applicare un modello matematico. Un modello é la rappresentazione di qualche cosa, ma non é la cosa che rappresenta. La scelta di un modello é sempre arbitraria e per molti versi pregiudiziale alla sua applicazione. Nel caso dei modelli statistici, quando trattiamo un insieme di dati ai fini di assumere una decisione (circoscriviamo un territorio per prevenire un contagio, riteniamo un apparecchio tarato per una determinata analisi, orientiamo i corsi di aggiornamento in base alle preferenze espresse dai colleghi, ecc..), siamo consapevoli che la scelta di un modello rispetto ad un altro non é indifferente relativamente alla responsabilità conseguente agli esiti derivanti da tale scelta. Se le conseguenze di una scelta possono avere esiti catastrofici (cioè provocare danni ingenti), il modello a cui mi affido sarà molto conservativo (ad es. nel caso delle diffusione di una zoonosi, elaboro le informazioni a disposizione in modo tale da rendere operativi comportamenti anche in casi altamente improbabili) mentre nel caso opposto posso impiegare modelli ad alto rischio (se dispongo di una innovazione tecnologica da proporre al mercato devo accettare probabilità di fallimento elevate se gli utili che attendo da tele innovazione possono essere consistenti). Le variabili statistiche La statistica lavora con variabili casuali ossia con insiemi numerici o categoriali ordinati secondo un criterio casuale. Henrì Poicaré (1908, Science e Methode), criticando il punto di vista deterministico (esposto principalmente da Laplace) secondo cui il caso sarebbe semplicemente “un nome per la nostra ignoranza”, distingue fra tutti i fenomeni le cui cause ci sono sconosciute, i fenomeni fortuiti ai quali si applica il calcolo delle probabilità da quelli non fortuiti rispetto ai quali non possiamo dire assolutamente nulla fin tanto che non conosciamo le leggi che li governano. In particolare, egli afferma che esistono fenomeni in cui cause molto piccole oppure differenze irrilevanti nelle condizioni iniziali (tanto piccole da non poter essere registrate) producono differenze macroscopiche negli esiti finali e in tal caso la previsione diventa impossibile. In base a questa posizione possiamo inizialmente definire come casuale un fenomeno per il quale non siamo in grado di formulare previsioni. Questa impossibilità risiede, secondo Poicarè, nella complessità dei fenomeni che costituisce l’elemento fondante la loro casualità e imprevedibilità. La “casualità assoluta” o “casualità operazionale” é stata però l’oggetto dell’indagine di von Mises (1939, Probability, Statistics and Truth) che ha definito una variabile casuale come un insieme numerico infinito dotato della proprietà della “scelta di posto”. Quest’ultima é tale se é effettuata prima di 20 conoscere qualsiasi cosa circa il risultato della scelta medesima per cui il principio di casualità di von Mises é l’indifferenza delle successioni probabilistiche a tutte le scelte di posto che possono operarsi in esse. Questo principio é espresso anche sotto forma della “impossibilità di un sistema di gioco”: negli ambienti degli statistici é nota la definizione secondo la quale il cretino é colui che afferma di aver scoperto un sistema per vincere ad un gioco aleatorio. Questa scelta operazionista di von Mises rende però praticamente impossibile generare variabili casuali. Infatti, se la scelta di posto di un elemento é assolutamente indifferente rispetto a ciò che lo precede e lo segue nella serie, non può esistere una “macchina perfetta del caso” in grado di produrre un oggetto simile. Infatti, se fossimo in grado di generare insiemi numerici infiniti (ed é pacifico che non lo siamo..), non saremo in grado comunque di generarli perfettamente casuali. Ora occorre un passo indietro. Utilizziamo a scopo esemplificativo un esempio numerico ristretto ad un piccolo insieme. Consideriamo una stringa di dati costituita, mettiamo, da 5 elementi. Diremo che la stringa é casuale se non esiste alcuna altra possibilità di rappresentazione dei dati che non sia la stringa stessa. La stringa 2-4-6-8-10 non é casuale perchè rappresenta i primi 5 numeri pari ed essa può essere espansa all’infinito con l’algoritmo 2n, dove n é la serie dei numeri reali interi positivi. Il processo per cui insiemi numerici (anche infiniti) possono essere contenuti in rappresentazioni più “economiche” rispetto alla mera ripetizione della serie stessa é detto comprimibilità algoritmica: una informazione limitata può espandersi in una più grande. Una stringa numerica é casuale quando é incomprimibile algoritmicamente per cui per poter avere la completa informazione in essa contenuta dobbiamo scriverla tutta. Ritornando a von Mises, il suo concetto di casualità non consente la rappresentazione di variabili “perfettamente casuali”. Non esiste uno strumento di calcolo o un apparato fisico in grado di generare il caso perfetto: una macchina matematica del caso é sempre costruita dall’uomo ed essendo conosciuta a priori rende possibile la ricostruzione della serie da essa generata; una macchina fisica (rumore di fondo del computer, moto browinano, dado di Las Vegas ecc..) é anche essa non perfettamente simmetrica rispetto alle frequenze di uscita dei singoli dati, per cui nelle lunghe serie possono essere percepite delle increspature di regolarità che tolgono alla serie stessa il suo carattere aleatorio. Per tali ragioni e per motivi pratico-applicativi, tutti, scienziati e filosofi, ormai sono concordi nel ritenere che la statistica applicata lavora con serie pseudo-casuali il cui comportamento é del tutto soddisfacente dal lato pratico. Oggi le serie pseudoaleatorie, costituite da numeri da 0 a 9, sono generate al computer a partire da algoritmi basati, ad esempio, sullo scarto fra due numeri primi o sui decimali successivi di numeri irrazionali oppure su oggetti matematici più complicati. Le serie di numeri a 2, 3 o più cifre sono costruite a partire da 2, 3 o più serie elementari accoppiate. Le serie semplici così generate sono poi sottoposte ala analisi di frequenza: sono 21 giudicate positivamente (cioé possono essere ritenute pseudo-casuali) se la frequenza con la quale compare ciascuna cifra decimale é 1/10 (nei termini di approssimazione asintotica, cioè come limite di frequenza relativa in una serie infinita). Le serie pseudo-casuali sono riportate nelle cosiddette “tavole dei numeri casuali” o “tavole randomizzate” stampate a corredo dei manuali di statistica. Questi strumenti, come vedremo, sono molto utili nella pratica del campionamento. Anche un foglio di calcolo comunemente impiegato, quale Excell, può generare numeri casuali. La funzione da evocare é CASUALE(); nella cella definita il programma genera un numero casuale fra 0 e 1. Per fare ciò i software che dispongono di tale opzione utilizzano il cosiddetto "rumore bianco” del computer. Le variabili statistiche sono costituite da dati. Il dato é quanto é presente nella conoscenza prima che essa vi applichi i suoi processi logici o di interpretazione. Dato si oppone di solito a costruito, anche se alcuni costrutti possono essere a loro volta considerati dati da elaborare successivamente. Nel caso delle scienze della vita, il dato rappresenta la misurazione fondamentale della realtà fenomenica oggetto di studio. Qualora fossimo interessati ad una variabile che descrive una proprietà dell’oggetto della nostra indagine (altezza, peso, età, numero di colonie batteriche, ecc..) il dato é anche chiamato variante, per cui le variabili sono costituite da varianti. Ciascuna unità sperimentale può essere definita da più proprietà simultaneamente e ciascuna proprietà é codificabile con una variabile. Ciascuna variabile definisce una dimensione dello spazio statistico, per cui, se descrivo l’individuo per tre proprietà (peso corporeo, altezza, età = tre variabili) esso sarà definito nello spazio a 3 dimensioni da 3 coordinate I≡(p; a; e). Consideriamo 4 individui: individuo peso (kg) altezza (cm) età (anni) 1 56 160 25 2 62 172 41 3 15 100 6 4 78 173 47 il primo individuo avrà queste coordinate I1 ≡ (56; 160; 25) e sarà rappresentabile, assieme agli altri, da punti nello spazio nel modo seguente. 22 peso . . . . . età altezza L’insieme degli individui può raggrupparsi in una o più cluster in dipendenza della loro somiglianza. Se due delle tre variabili sono collegate fra loro (peso e altezza ad esempio lo sono) il grappolo assume una gibbosità orientata nel senso degli assi delle due variabili. La forma assunta dal grappolo rappresenta il legame fra le variabili che tanto é maggiore tanto genera una gibbosità rilevante nella nuvola dei punti. Le variabili che descrivono l’oggetto dello studio possono essere più di tre. In tal caso, pur non essendo rappresentabili graficamente, esse generano spazi di 4, 5... n dimensioni chiamati iperspazi. Ad esempio, se in una indagine per verificare la preferenza dei consumatori assumo sui singoli intervistati 10 informazioni (età, scolarità, preferenze culturali, abitudini alimentari, ecc...) il mio spazio statistico sarà definito da un iperspazio a 10 dimensioni, ciascuna rappresentante una delle variabili che mi interessano ai fini della indagine. 23 Un aspetto pratico legato all’impiego dei dati nella elaborazione statistica é il problema della precisione decimale. Se é evidente a tutti che la media dei nati per donna fertile italiana nel 2001 può essere di 1,21 senza significare con ciò che a ciascuna donna nascono 1,21 bambini, é altrettanto vero che se la precisione di misurazione dell’altezza negli uomini é dell’ordine del cm, ossia rileviamo i dati arrotondati al centimetro, l’espressione dell’altezza media con un arrotondamento al secondo decimale di centimetro (decimo di millimetro) non ha significato e rappresenta una finzione aritmetica. E’ buona norma pratica impiegare per la media lo stesso arrotondamento utilizzato per la rilevazione della variabile o al massimo un ordine di grandezza inferiore qualora sia ritenuto necessario per meglio esprimere le misure. Un altro aspetto pratico é dato dalla risoluzione impiegata nella elaborazione. Se impiego valori numerici molto grandi devo aspettarmi problemi di arrotondamento numerico dovuti al fatto che i software di elaborazione impiegano algoritmi di calcolo matriciale in cui un passaggio obbligato é l’inversa di una matrice data. Quando si inverte una matrice (se é invertibile ossia non singolare) valori molto grandi possono originare valori molto piccoli e il computer taglia ad un predeterminato decimale (normalmente il 16°) escludendo i successivi decimali necessari per rendere lo stimatore statistico calcolato più “robusto”. In tal caso é consigliabile impiegare uno “scaling” appropriato. Ad esempio, nel caso di produzione di latte per lattazione in pecore é meglio impiegare i kg al posto dei grammi (213 kg vs 213.000 g) mentre per la produzione giornaliera é meglio utilizzare i grammi. Con numeri grandi possono essere utilizzati i sistemi di notazione esponenziale: 123.456.789, può essere espresso come 123,456789 x 106. In questo ultimo caso occorre che anche il software sia in grado di riconoscere la notazione ed impiegarla per i calcoli dei quadrati. Approfondiremo questo argomento in seguito. 24 Lezione n. 3 STATISTICA DESCRITTIVA 1. Prima di tutto, guardare i dati (EDA = exploratory data analysis) Una volta raccolti i dati relativi alla variabile (o alle variabili) che abbiamo intenzione di studiare, la prima azione da compiere é quella di guardare i dati. La tecnica che ci aiuta in questo importantissimo passaggio, preliminare a tutte le altre analisi statistiche, é detta EDA (exploratory data analysis) e si compie con l’ausilio di un computer. Infatti, anche l’occhio più esercitato difficilmente riesce a cogliere le tendenze insite in serie numeriche di elevata consistenza; una persona normale di solito non riesce a dominare con l’intuito più di 10-15 dati per volta. L’EDA é una procedura di “classificazione” dei dati finalizzata ad una prima verifica della presenza di un andamento nei dati stessi. I dati relativi ad una variabile campionaria (= del campione in esame) possono essere sottoposti a EDA “da soli” (in tal caso si compie una EDA univariata = relativa a una sola variabile), oppure in relazione ad un’altra variabile ( EDA bivariata = relativa a due variabili). Se le variabili messe in relazione sono più di due, l’EDA é detta multivariata. Approfondiamo per il momento sono l’EDA univariata e rimandiamo le altre due alla lezione relativa alla regressione. Prendiamo in esame una delle variabili riportate nella lezione n. 1: la produzione giornaliera di latte di un campione di pecore Sarde: 25 Pecora Latte g 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 1015 1105 1365 1085 840 960 1130 1185 1270 1385 1545 1475 1350 1145 1195 1185 1000 795 1105 1560 1340 1005 1260 1035 1300 Ripartiamo ora i dati in classi di ampiezza (= classifichiamo i dati). Prima di tutto dobbiamo definire il numero di classi: in genere con 10-15 dati, usiamo 4-5 classi, ma con data-set (insiemi di dati) molto numerosi, il numero di classi non eccede mai le 15-20. Un metodo di calcolo per orientare il ricercatore sul numero di classi (C) é stato proposto da Sturges e si basa sul n. di osservazioni (N) C = 1+ 10 ⋅ log10 ( N ) 3 Nel nostro caso N = 25, per cui C = 5,56 ≈ 6. Una volta stabilito il numero delle classi, occorre calcolare l’intervallo di variabilità, dato dalla differenza fra il valore minimo e quello massimo. Nel nostro caso il valore massimo é 1560 g, quello minimo 796 g e l’intervallo di variabilità 765 g. L’intervallo di classe é dato allora da 765/ 6 = 127,5 g. Sommiamo questo valore al minimo (796 + 127,5) e poi di nuovo a quello ottenuto 26 (922,5 + 127,5) e così via fino ad ottenere le 6 classi volute (se il conto é corretto, dovremo avere l’ultimo valore pari a quello massimo). Con l’opzione “strumenti/analisi dati/ istogramma” di Excell, costruiamo prima la tabella e poi il grafico: Classe 922,5 1050 1177,5 1305 1432,5 1560 Altro Frequenz % a cumulativ a 2 8,00% 5 28,00% 5 48,00% 6 72,00% 4 88,00% 3 100,00% 0 100,00% Istogramma 7 120,00% 6 100,00% Frequenza 5 80,00% 4 60,00% 3 40,00% 2 1 20,00% 0 ,00% 922,5 1050 1177,5 1305 1432,5 1560 Altro Classe In ciascuna classe compare la frequenza assoluta (= numero di volte che il valore della variabile ha un valore compreso fra il minimo e il massimo della classe) e quella relativa (frequenza assoluta diviso il totale delle osservazioni). Tabella e grafico riportano anche la “frequenza relativa cumulata” cioè la somma delle singole frequenze relative al crescere del valore delle classi. Nel caso del grafico realizzato con Excell, il valore delle classi riportato nella figura va inteso come il 27 limite massimo di classe! Il software Minitab, invece, riporta la classificazione con il valore centrale della classe: Histogram of Latte g 5 Frequency 4 3 2 1 0 800 900 1000 1100 1200 1300 1400 1500 1600 Latte g Minitab, inoltre, “decide” il numero di classi da impostare: in questo caso sono 9 (ma, come si vede, la classe 900 é vuota!). Questo tipo di istogramma é denominato “istogramma delle frequenze”. Due considerazioni: 1) da quanto detto nella lezione 2, noi adottiamo un approccio frequentista alla probabilità, per cui le frequenze relative rappresentano per noi la probabilità di trovare “per caso” un valore di produzione incluso in quella classe; 2) la distribuzione presenta una forma. Se tutte le classi fossero state uguali, saremo di fronte ad un fenomeno completamente casuale: tutti i valori hanno la stessa probabilità di essere estratti a caso. Le classi centrali tendono ad essere più frequentate di quelle laterali. In altre parole, c’è una tendenza del fenomeno ad aggregassi intorno al valore centrale, ossia più i valori di avvicinano al centro della distribuzione, più sono probabili! Vediamo ora cosa succede se, invece di 25 dati, osservo la distribuzione di 4500 produzioni giornaliere di pecore della razza Valle del Belice. 28 Histogram of PG Frequency 200 100 0 0 500 1000 1500 2000 2500 PG Minitab suddivide il campione in mole più classi e la tendenza delle frequenze ad addensarsi attorno ai valori centrali é molto più marcata. Questa distribuzione si approssima ad una curva continua, denominata distribuzione normale della quale diamo una rappresentazione sovrapposta ad diagramma precedente 29 Histogram of PG, with Normal Curve Frequency 200 100 0 0 500 1000 1500 2000 2500 PG Riprenderemo questo argomento in seguito. Vediamo ora cosa succede nel caso di una variabile “categoriale” quale la serie testa/croce del lancio contemporaneo di una serie di monete. Nel caso di due monete lanciate contemporaneamente, abbiamo visto che le probabilità degli eventi TT, TC e CC, sono rispettivamente del 0,25, 0,50 e 0,25. Vediamo ora cosa succede se andiamo al lancio contemporaneo di 10 monete. Le probabilità di ottenere gli 11 risultati possibili sono le seguenti: 10T 9T1C 8T2C 7T3C 6T4C 5T5C 4T6C 3T7C 2T8C 1T9C 10C 0,000977 0,009766 0,043945 0,117188 0,205078 0,246094 0,205078 0,117188 0,043945 0,009766 0,000977 30 Il diagramma delle frequenze é il seguente: Distribuzione delle teste e croci in 10 lanci di 10 monete 0,3 0,25 frequenze 0,2 0,15 0,1 0,05 0 10T 9T1C 8T2C 7T3C 6T4C 5T5C 4T6C 3T7C 2T8C 1T9C 10C eventi (T = testa; C = croce) E’ possibile osservare che le maggiori frequenze sono addensate intorno alle classi centrali: anche in questo caso con un numero di monete “molto alto” e con un numero di eventi “molto alto”, la tendenza della curva é verso una curva normale. La distribuzione vista in questo caso é detta “distribuzione binomiale” (= in quanto risulta dallo sviluppo del binomio (p(a) + q(b))n), in qui p + q = 1. Questo risultato deriva dall’applicazione della relazione vista nella precedente lezione: P(A e B) = P(A)*P(B) Esaminiamo il caso della serie di 4 parti nelle vacche da latte riportato in lezione 2. Si tratta di eventi indipendenti, ciascuno dei quali ha una p = 0,5. Abbiamo ottenuto il seguente risultato: 4 maschi 0 femmina 11 (0,11, come frequenza relativa) 3 maschi 1 femmina 27 (0,27) 2 maschi 2 femmine 34 (0,34) 1 maschio 3 femmine 23 (0,23) 0 maschi 4 femmine 5 (0,05) Le frequenze teoriche si ricavano dallo sviluppo del binomio [p(M) + q(F)]2 31 Per trovare i coefficienti si impiega il triangolo di Tartaglia che qui sotto é sviluppato fino alla potenza 10 del binomio n 1 2 3 4 5 6 7 8 9 10 1 1 1 1 1 8 9 10 45 Coefficienti 1 1 1 2 1 1 3 3 1 1 4 6 4 1 1 5 10 10 5 1 6 15 20 15 6 7 21 35 35 21 7 28 56 70 56 28 36 84 126 126 84 36 120 210 252 210 120 1 1 8 1 9 45 1 10 1 I coefficienti di ogni riga derivano dalla somma di quelli a sinistra e a destra della riga precedente. Nel nostro caso il binomio da sviluppare é: [p(0,5) + q(0,5)]4 0,54 (MMMM) + 4*0,53*0,5 (MMMF) + 6*0,52*0,52(MMFF) + 4*0,5*0,53 (MFFF) + 0,54(FFFF) che sviluppato ci da il risultato: 0,0625 MMMM oppure FFFF 0,25 MMMF oppure FFFM 0,35 MMFF queste probabilità (teoriche) sono molto vicine alle frequenze osservate nella sperimentazione con le vacche. Con un esponente molto alto, la distribuzione binomiale tende anche essa alla curva normale. I due tipi di distribuzione, la normale e la bionomiale, sono “simmetriche, nel senso che la parte destra e sinistra della distribuzione sono speculari. Esistono tantissimi altri tipi di distribuzione non simmetriche (cioè con una concentrazione delle frequenze sbilanciata da una parte o dall’altra), ma noi ci soffermeremo soltanto su una di particolare interesse nelle scienze zootecniche: la distribuzione asimmetrica. Esaminiamo il fenomeno del contenuto in lattosio del latte: la distribuzione riportata di seguito é fortemente asimmetrica, in quanto si ha un cumulo delle frequenze verso le classi di valore massimo. 32 Histogram of lact. 140 120 Frequency 100 80 60 40 20 0 0 1 2 3 4 5 lact. In questi casi la probabilità di estrarre un animale con lattosio “basso” è di molto inferiore a quella di estrarre un animale con lattosio intorno al valore 4 (in realtà questo fatto ha senso, perché la caduta della concentrazione del lattosio é sintomo di mastite; gli animali sani sono la stragrande maggioranza del campione esaminato e della popolazione target). Prendiamo ora in esame l’EDA bivariata. Esaminiamo il caso della relazione fra quantità di latte e di proteine prodotte al giorno da un campione di vacche da latte Frisone: Relazione fra produzione di latte e di proteine in vacche Frisone 1600 Proteine (g/d) 1400 1200 1000 800 600 400 200 0 0 10 20 30 Latte (kg/d) 33 40 50 Il grafico mostra chiaramente che esiste una relazione stretta fra le due variabili esaminate: all’aumentare della produzione di latte, aumenta anche la produzione di proteine per capo. Un situazione in cui non esiste una relazione evidente é stata riportata nel grafico della lezione 1. Utilizzeremo questa analisi preliminare nella lezione della analisi della regressione. 34 Lezione n. 4 MISURE DI POSIZINO E DI DISPERSIONE 1. Le misure di posizione di una distribuzione. Con il termine misure di posizione di una distribuzione univariata si indicano quei particolari valori che racchiudono una informazione sulla variabile in esame. Esse sono nell’ordine: 1) la media, che é la somma dei valori della variabile ponderata per la numerosità del campione (o della popolazione) in esame; 2) la moda, che é il valore della classe di maggiore frequenza della distribuzione; 3) la mediana, che é il valore della classe che divide la distribuzione in due parti uguali (50% degli eventi prima e 50% degli eventi ricadono dopo tale valore). Le distribuzioni univariate presentano una sola media e una sola mediana, ma possono presentare due (o raramente più) valori modali: in tal caso sono dette distribuzioni bimodali (o plurimodali). 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -3.98 -1.98 0.02 3.38 Esempio di distribuzione bimodale La media é la misura più importante. Questo valore costituisce il perno di tutta l’analisi statistica in quanto di norma spiega una quota rilevante del fenomeno osservato. Ricordiamoci l’asserzione: LA MEDIA SPIEGA 35 e così avremo chiaro il senso delle analisi che costituiscono il cuore della statistica. L’informazione contenuta nella media é uguale a quella della somma dei valori della variabile. Il suo calcolo é semplice, ma il suo potere informativo é grandissimo: m= ∑x i n in cui m = media del campione xi = i-simo valore della variabile n= numero di osservazioni del campione. Esistono altri tipi di media, impiegati in casi particolari; le ricordiamo per comodità: la media geometrica e la media armonica. La media geometrica è utilizzata quando le variabili non sono rappresentate da valori lineari, ma ottenuti da prodotti o rapporti di valori lineari. Serve per il confronto di superfici o volumi, oppure di tassi di accrescimento o di sopravvivenza, valori appunto che sono espressi da rapporti. Per il calcolo della media geometrica, è condizione necessaria che le quantità siano tutte positive. Se alcune fossero negative, si deve ricorrere al valore assoluto. La media geometrica di n dati è uguale alla radice di ordine n (solo positiva) del prodotto degli n dati: con simbologia matematica m g = n x1 ⋅ x 2 ⋅ ... ⋅ x n che può essere scritta anche come mg = n n ∏x i i =1 Una proprietà importante è che il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi dei dati: log m = 1 n ∑ log xi n i =1 36 La media armonica è la stima più corretta della tendenza centrale, per distribuzioni di dati in cui devono essere usati gli inversi. E’ utilizzata quando i valori di X sono espressi come rapporti di un totale costante od in misure di tempi di reazione. La media armonica è data da: mh = n n 1 ∑x i =1 i Prendiamo ora in esame il campione rappresentato dalle oltre 4500 osservazioni di produzione giornaliera di latte di pecore Valle del Belice (vedi istogramma di frequenza). Con una opzione di Excell (strumenti/analisi dati/statistiche descrittive) é possibile ottenere il seguente otput latte in grammi al giorno Media Errore standard Mediana Moda Deviazione standard Varianza campionaria Curtosi Asimmetria Intervallo Minimo Massimo Somma Conteggio 1625 11 1530 1250 715 511705 1,247175589 0,89944541 4790 210 5000 7424379,608 4569 Come é possibile vedere, la media é di 1625, la mediana di 1530 e la moda di 1250 grammi di latte per capo. L’output ci fornisce anche altre informazioni circa la forma della curva. In particolare, la curtosi esprime il grado di “schiacciamento” della distribuzione in esame rispetto ad una curva nomale standard (vedremo in seguito il significato di questo termine). Se il valore della curtosi = 0 (o vicino allo zero) la distribuzione é molto vicina a quella normale (normocurtica); se é inferiore allo zero, é più schiacciata di quella normale standard (platicurtica) se superiore allo zero é più sfilata (stretta) di quella normale standard (leptocurtica) come nel nostro caso 37 La asimmetria ci indica la posizione della moda rispetto alla media: se il valore é zero (o vicino) moda e media sono molto vicine, se superiore allo zero, la moda é superiore alla media (distribuzione asimmetrica destra) se inferiore allo zero la moda é inferiore alla media (distribuzione asimmetrica a sinistra). Altre misure di posizione utili sono i quartili, che rappresentano quei valori della variabile che dividono in quarti la distribuzione. Entro il primo quartile sono compresi il 25% dei dati, entro il secondo (che coincide con la mediana) il 50%, entro il terzo il 75%. Tutta la distribuzione comprende il 100% dei dati, ed il valore massimo riscontrato é il quarto quartile. Nel caso del campione di produzioni delle pecore Valle del Belice, il primo quartile é di 1108 grammi (il 25% del campione produce di meno) ed il terzo quartile è di 2005 grammi (il 25% della popolazione produce più). I quartili danno una rappresentazione immediata della mdalità con cui si distribuisce la variabile. 2. . La misura della dispersione dei dati Come abbiamo detto in precedenza, la media aritmetica rappresenta l’informazione più importante che possiamo estrarre da una variabile. Ma non é la sola!. Consideriamo 4 insiemi di dati: A B C D 5 3 1 0 5 4 3 2 5 5 5 5 5 6 7 8 5 7 9 10 Σxi 25 25 25 25 m 5 5 5 5 Questi insiemi sono isonumerici e isoquantitativi per cui hanno sommatoria e media uguali. Se non disponessimo di altre informazioni sulla distribuzione dei dati all’interno di ciascun insieme, il più probabile valore di ciascun dato sarebbe 5 (la media é cioè il predittore più affidabile). Questi insiemi non sono però costituiti da valori uguali, eccetto che nel gruppo A; la 38 media spiega tutto il fenomeno solo in questo insieme, ma il suo potere esplicativo va decrescendo man mano che si passa dal gruppo A a quello D (aumenta cioè la dispersione dei dati attorno alla media, esistendo valori molto diversi da questa). I quattro gruppi sono diversi fra loro non nella somma (e nella media) ma per la dispersione interna dei dati: i gruppi sono caratterizzati infatti da una differente variabilità. La variabilità, ossia la modalità con cui i dati sono dispersi, rappresenta il secondo e più importante oggetto di studio della statistica. Utilizzeremo un approccio intuitivo allo studio della variabilità di una variabile statistica. Poiché somma dei valori e media rappresenta la stessa informazione (infatti i gruppi di variabilità differente hanno la stessa somma), verifichiamo se la somma dei quadrati dei dati può costituire un indicatore della variabilità.. Nel nostro esempio si ha: Σx2 D A B 25 9 1 0 25 16 9 4 25 25 25 25 25 36 49 64 25 49 81 100 125 135 165 193 C Si può notare che, a parità di media e di numerosità del campione, man mano che aumenta la variabilità aumenta anche la somma dei quadrati dei dati (Σx2 o SS, acronimo inglese che significa “Sum of Squares”); possiamo allora dire che la SS è un parametro legato alla variabilità. C’è però un problema: con la SS ho una (presunta) misura della variabilità anche in un insieme di dati (il gruppo A) in cui non esiste variabilità. Dobbiamo allora esplorare la possibilità che esista qualche altra relazione che esprima meglio il fenomeno: se togliamo dalla somma totale dei quadrati, la somma dei quadrati della parte del fenomeno che é inviariante (la media) otteniamo una misura idonea allo scopo. infatti, la vera misura della variabilità è la somma dei quadrati (variabilità totale) meno la parte invariante (somma dei quadrati della media). Nel nostro esempio si ha: - somma dei quadrati dei dati (SS) A = 125; B = 135; C = 165; D= 193; - somma dei quadrati della media (uguale per tutti gruppi) 39 SSm = ny2 = 5 x 52 = 125 - differenze SS – SSm A :125-125 = 0; B: 135-125 = 10; C: 165-125 = 40; D: 193-125 = 68. Le differenze ottenute prendono il nome di devianza (Dev o SSε): SSε = SS – SSm da cui si ottiene la relazione fondamentale: la somma dei quadrati di un insieme di dati é scomponibile nella somma dei quadrati della media e nella somma dei quadrati residua (dalla sottrazione) che prende il nome di Devianza. SS = SSm + SSε. Si può arrivare a questa relazione in un altro modo. Consideriamo ad esempio o gruppi A e D. Ciascuno dei dati può essere scomposto in due parti, la media del gruppo di appartenenza e lo scostamento del dato dalla media secondo la relazione: xi = µ + εi Nel caso del gruppo D, il secondo dato (2) può essere anche scritto come media+deviazione dalla media del dato: 2 = 5 – 3; così il quinto dato può essere scritto come 8 = 5 + 3. Gli εi sono chiamati deviazioni dalla media . La relazione illustrata sopra prende il nome di MODELLO LINEARE DELLA MEDIA. Facciamo ora i quadrati dei componenti il modello lineare dei dati dei gruppi A e D e li sommiamo. A µ+ε D µ+ε 5 5+0 0 5-5 5 5+0 2 5-3 5 5+0 5 5+0 5 5+0 8 5+3 5 5+0 10 5+5 SSm + SSε 125+0 = 125 125+68 = 193 Abbiamo ottenuto lo stesso risultato. Ciò significa che la devianza rappresenta la somma delle deviazioni quadratiche dalla media, cioè: 40 SSε = ∑ ( xi − m) 2 ma che essa può anche essere calcolata con la formula riportata in precedenza SSε = SS − SSm in cui SS é la somma totale dei dati al quadrato e SSm é la somma delle media al quadrato (che può essere ottenuta facilmente con la relazione SSm = n*m2, in cui n = numerosità del campione). La misura così ottenuta non é però facilmente impiegabile in quanto é riferita all’intero campione. Se la devianza é ponderata per la numerosità del campione, essa prende il nome di varianza, e rappresenta lo scarto quadratico medio del campione. In notazione é indicata come MS, dall’acronimo della definizione inglese mean square, quadrato medio. Nel caso in cui si calcoli la MS di un campione (e non della popolazione) il fattore di ponderazione non é la numerosità totale del campione, ma sono i suoi gradi di libertà: gl = n – 1. Approfondiremo fra poco questo concetto. La formula per il calcolo della varianza é allora: ( xi − m) 2 ∑ MS = n −1 oppure con la formula MS = SS − SSm n −1 Anche in questo caso però il dato non é immediatamente leggibile in quanto espresso in forma quadratica. Per riportarlo alla dimensione lineare (cioé allo stesso ordine di grandezza della media) dobbiamo estrarre le radice quadrata: il risultato, caratterizzato dai due segni ±, prende il nome di deviazione standard (ds). La formula completa per il calcolo della ds é la seguente ds = ∑ ( xi − m) 2 n −1 A titolo di esempio, prendiamo in esame le produzioni di latte delle 25 pecore riportate nella tabella all’inizio della lezione, calcoliamo la media, le deviazioni dalla media, i quadrati e facciamo i conti. 41 Pecora 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Somme Latte g 1015 1105 1365 1085 840 960 1130 1185 1270 1385 1545 1475 1350 1145 1195 1185 1000 795 1105 1560 1340 1005 1260 1035 1300 media 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 29635 29635 170 80 -180 100 345 225 55 0 -85 -200 -360 -290 -165 40 -10 0 185 390 80 -375 -155 180 -75 150 -115 ε2 29036 6464 32256 10080 119301 50805 3069 0 7157 39840 129312 83868 27093 1632 92 0 34373 152412 6464 140325 23901 32544 5565 22620 13133 0 971346 ε La devianza (SSε) é uguale a 971346, per cui la varianza (MS) é uguale a 971346/24 = 40473. Se estraiamo la radice quadrata, otteniamo la deviazione standard (ds) che é uguale a ± 201. Le informazioni che possiamo trarre da questo campione di dati sono che la produzione media campionaria (m) é di 1185 grammi di latte per capo per giorno e che la deviazione standard é di ± 201 grammi capo per giorno. Prima di procedere, dobbiamo sottolineare che quando calcoliamo media, devianza, varianza, deviazione standard o altre quantità sull’intera popolazione, chiamiamo tali quantità parametri della popolazione; se esse sono calcolate invece su un campione della popolazione, le chiamiamo statistiche campionarie (media campionaria, varianza campionaria, ecc..). Poichè nella statistica inferenziale ciò che ci interessa realmente non sono le statistiche campionarie, ma i parametri della popolazione, utilizziamo le prime per stimare i secondi. Allora diremo sempre che la media campionaria é una stima della media della popolazione, che la ds campionaria é una stima della ds della popolazione, ecc.. Per quanto riguarda i simboli, quando ci riferiamo alle statistiche campionarie utilizziamo le lettere latine, quanto ai parametri della popolazione le lettere greche: 42 misura sulla popolazione sul campione media µ m 2 devianza δ o SSε SSe varianza σ2 o MSε MSe deviazione standard σ s o ds La media e la deviazione standard rappresentano i parametri della curva di normale, o curva di Gauss o curva degli errori. Una disamina approfondita della storia della curva degli errori e l’analisi matematica della funzione sono riportate nell’appendice di questa lezione. L’equazione della curva normale è la seguente: − 1 f ( x) = e σ 2π ( x − X )2 2σ 2 la cui forma é : µ–σ µ µ+σ La media rappresenta il valore di maggiore frequenza, media±deviazione standard rappresentano i valori in cui si verificano i flessi della curva. 43 3. I gradi di libertà Abbiamo visto che se dalla somma dei quadrati totale (SS) togliamo la somma dei quadrati della media (SSm) otteniamo la devianza, la quale ci indica il grado di dispersione dei dati: SSe = SS – SSm. Calcolando la media, abbiamo ottenuto una prima informazione dall’insieme dei dati per cui le informazioni disponibili nel gruppo di dati si riducono di una unità. Ad esempio, la media dell’insieme 2-5-9-7-4-3-2-0-1 è m = 3,6, mentre la somma è Σx = 33. Poiché la media campionaria ottenuta è una stima della media della popolazione di riferimento, dal nostro campione abbiamo estratto una informazione: con ciò il nostro campione non è più completamente casuale (cioè non è più composto da 9 entità estratte a caso dalla popolazione), ma la casualità di estrazione si è ridotta di una unità. Infatti, una volta calcolata la media campionaria, solo 8 delle 9 entità possono essere estratte casualmente: la nona resta vincolata dalla somma dei dati del campione. L’insieme campionario ha cioè 8 gradi di libertà (possibilità di estrazione causale). Nel nostro esempio, la somma è 33. Provate ad estrarre casualmente 9 numeri la cui somma sia 33. Vi tornerà difficile. Con 8 estrazioni tutto diventa più semplice, in quanto il nono valore deriva dalla differenza fra 33 e la somma degli altri 8. Nelle stime campionarie della varianza, allora, si impiegano sempre i gradi di libertà come divisore della devianza campionaria, in quanto il sistema in esame è vincolato dall’informazione dovuta alla media (oppure alla somma che è lo stesso). Naturalmente tanto più grande è il campione (n grande) e tanto meno pesano i gradi di libertà perché n-1 si avvicina al valore di n. In statistica si distinguono quindi campioni grandi (n≥30) da campioni piccoli (n<30), nei quali i gradi di libertà hanno un peso sempre maggiore rispetto a n (fino al caso limite di n = 2). In linea generale, i gradi di libertà rappresentano l’entità delle informazioni disponibili (o giustificate); le informazioni non giustificate rappresentano i gradi di libertà dell’errore. Applichiamo questa definizione al modello lineare della media: xi = µ + εi SS = SSm + SSe n = 1 + (n-1) I gradi di libertà della somma dei quadrati totale sono n perché non abbiamo ancora estratto informazioni; i gradi di libertà della media sono 0 (zero) in quanto una volta calcolato il suo valore non può cambiare. I gradi di libertà della somma degli scarti al quadrato sono n-1. E’ possibile allora osservare che i gradi di libertà sono additivi. 44 4. Le media campionarie e la loro distribuzione Se estraiamo diversi campioni da una popolazione e ne calcoliamo le medie campionarie, otterremo una serie di valori differenti. L’insieme delle medie campionarie rappresenta errore perciò a sua volta una variabile. Ciascuna media campionaria m1 si scosta dalla media vera della popolazione µ di un errore εmi. In analogia al modello della media, possiamo quindi scrivere: m1 = µ + εm1 m2 = µ + εm2 . ………………. mn = µ + εmn Sempre in analogia al modello della media, possiamo calcolare i quadrati degli scarti Σεmi2 , dividere per i gradi di libertà estrarre la radice quadrata. La deviazione standard della distribuzione delle medie prende il nome di errore standard (es) ed rappresenta la misura della variabilità delle medie campionarie. L’errore standard dipende dalla numerosità del campione estratto ed è calcolato con la formula: es = σ n dove σ è la deviazione standard della popolazione e n è la numerosità del campione. Ovviamente, maggiore è la numerosità del campione, minore è l’es. Per campioni di numerosità vicina a quella della popolazione, l’es è molto vicino allo zero: le medie campionarie sono vicinissime alla media della popolazione. La variabile medie campionarie tende sempre a distribuirsi normalmente. Questa proprietà è di grandissima importanza per tutta l’analisi statistica ed è stata enunciata con il nome di teorema del limite centrale. “Qualsiasi sia la distribuzione della variabile in esame, le medie campionarie si distribuiscono normalmente con media uguale alla media della popolazione quando il numero di campioni tende all’infinito” Espresso formalmente il teorema del limite centrale è il seguente 45 lim f (m) ≡ norm nm→∞ in cui f(m) è la funzione di distribuzione delle medie campionarie ed nm è il numero di campioni estratti dalla popolazione. Nel caso della produzione di latte delle pecore riportata nella tabella dell’esempio precedente, il valore dell’errore standard stimato è di 201/√25 = ±40 grammi capo giorno. 5. La distribuzione normale standardizzata e l’integrale di probabilità La curva normale è un oggetto difficile da maneggiare. Tutte le distribuzioni normali possono essere uniformate attraverso una trasformazione chiamata standardizzazione. La standardizzazione consiste nel dividere gli scostamenti di ciascun dato dalla media per la deviazione standard. In formula; la nuova variabile prende il nome di z: ( xi − m ) 2 s La variabile che risulta da questa operazione ha media uguale a zero e deviazione standard uguale a z= 1. Nel nostro esempio avremo: Pecora 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Somme s Latte g 1015 1105 1365 1085 840 960 1130 1185 1270 1385 1545 1475 1350 1145 1195 1185 1000 795 1105 1560 1340 1005 1260 1035 1300 29635 201 media 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 29635 e 170 80 -180 100 345 225 55 0 -85 -200 -360 -290 -165 40 -10 0 185 390 80 -375 -155 180 -75 150 -115 0 e/s=z 0,8450 0,3977 -0,8947 0,4971 1,7149 1,1184 0,2734 0,0000 -0,4225 -0,9941 -1,7895 -1,4415 -0,8202 0,1988 -0,0497 0,0000 0,9196 1,9386 0,3977 -1,8640 -0,7705 0,8947 -0,3728 0,7456 -0,5716 0 1 La distribuzione della nostra variabile trasformata, con le sue specifiche, apparirà nel modo seguente 46 Descriptive Statistics Variable: e/s Anderson-Darling Normality Test A-Squared: P-Value: -2 -1 0 1 2 95% Confidence Interval for Mu 0,153 0,952 Mean StDev Variance Skewness Kurtosis N -0,00198 1,00000 1,00000 -7,1E-02 -4,3E-01 25 Minimum 1st Quartile Median 3rd Quartile Maximum -1,86400 -0,79535 0,00000 0,79530 1,93860 95% Confidence Interval for Mu -0,41476 -0,5 0,0 0,5 0,41080 95% Confidence Interval for Sigma 0,78083 1,39116 95% Confidence Interval for Median 95% Confidence Interval for Median -0,54206 0,47741 E’ possibile notare che la nuova distribuzione standardizzata ha media zero, varianza e deviazione standard 1, curtosi e simmetria (skewness) molto vicine a zero. Come abbiamo detto, la nuova variabile standardizzata prende il nome di variabile z. Se sostituiamo il valore z all’equazione della curva di Gauss, otteniamo la nuova equazione della variabile standardizzata: z2 f ( z) = 1 −2 e 2π Ricordiamoci che la curva di Gauss è una distribuzione di frequenze. Poiché abbiamo fatto una scelta frequentista, per noi la frequenza di un evento coincide con la probabilità che tale evento si verifichi. Possiamo allora calcolare la probabilità di eventi compresi fra due valori di x1= a e x2=b attraverso il calcolo dell’integrale della curva delle probabilità. b P (b − a ) = ∫ f ( x) a Questo integrale risolto per valori uguali a m±ds ci da un risultato di poco superiore al 68%, e per valori uguali a m±2ds ci da un risultato di poco superiore al 95%. Ciò significa che il 68% della 47 popolazione è compresa in un intervallo pari a ±ds dalla media e il 95% in uno con ±2 deviazioni standard dalla media. 68% della popolazione µ–σ µ µ+σ In sintesi: 1) la curva normale é la seguente f ( x) = 1 e h 2π − ( x − µ )2 2h 2 2) se poniamo (x − µ) σ = z 3) la curva di distribuzione diventa f ( x) = 1 2π 48 e − z2 2 4) e l’integrale di probabilità P ( x) = 1 2π +z ∫e − z2 2 dz −z 5) comprende le seguenti aree Intervallo rispetto a µ da –σ a + σ da -2σ a +2σ da -3σ a +3σ da –1,96σ a +1,96 da –2,58σ a +2,58σ comprende 68,3% 95,4% 99,7% 95,0% 99,0% esclude 31,7% 4,6% 0,3% 5,0% 1,0% 49 (Testo a lettura obbligatoria) GLI ERRORI E IL LORO STUDIO L’errore, inteso nel senso moderno di imprecisione fra una data misura e il valore “vero” della grandezza misurata, é un concetto relativamente moderno. Infatti, nel mondo antico e medioevorinascimentale, la scarsa (o nulla) attenzione per la conoscenza empirica del mondo e la imprecisione degli strumenti di misurazione aveva generato una limitata quantità di dati osservativi e pertanto l’errore era connaturato al concetto morale di giusto, nel senso che ne rappresentava la negazione. Furono gli astronomi ad utilizzare il concetto di errare, nel senso di vagare nella volta celeste, per identificare quei corpi che non seguivano nel loro moto l’evoluzione delle stelle. Erano i pianeti e l’etimo del termine significa proprio “erranti”. Il primo che considerò gli errori di misurazione nel senso moderno fu Tycho Brahe (1546-1601), danese di nascita e fondatore dell’astronomia pratica. Astronomo a Praga, compì una mole di osservazioni di tale estensione e accuratezza che Keplero, il quale nel prese il posto alla morte nel ruolo di astronomo di corte di Rodolfo II, le utilizzò per dedurre le sue fondamentali leggi sul moto dei pianeti intorno al sole. Tycho Brahe mise in crisi il sistema Aristotelico-Tolemaico con l’osservazione di una “supernova” nel 1572 della quale non calcolò la parallasse. Ciò collocava il nuovo astro nelle sfere esterne a quella della luna le quali, secondo Aristotele, dovevano essere “fisse ed immutabili”. Tycho comprese per primo che gli errori possono essere suddivisi in due grandi categorie, se si escludono quelli grossolani (sbagli) dovuti a scarsa perizia osservativa che possono essere eliminati facilmente: a) errori sistematici, dovuti ad un’unica causa (nota o meno) che possono essere rimossi ricercandone la causa ed eliminandola oppure ripetendo più volte le osservazioni in differenti condizioni in guisa che gli errori di segno opposto si annullano; b) errori accidentali o random, dovuti a cause sconosciute (o inconoscibili). Su essi (e di errori così ne possedeva un bel repertorio...) osservò i seguenti fatti euristici: i) gli errori piccoli sono in numero superiore a quelli grandi; ii) gli errori sono compresi entro certi limiti; iii) gli errori con segno positivo sono circa uguali a quelli con segno negativo. In questa classificazione possiamo riconoscere in nuce il concetto di modello lineare che é attualmente impiegato in analisi della varianza. Tycho fu probabilmente il primo che utilizzò la media delle misurazioni ripetute come valore più vicino a quello vero e trasmise questa tecnica alle generazioni successive di astronomi e geodeti. Ciò che gli sfuggì fu la relazione fra frequenza degli errori e probabilità che si verificassero: dovrà passare un secolo e mezzo peché ciò avvenga. Fu merito del francese ugonotto Abraham De Moivre (1667-1754), fuggito in Inghilterra a seguito dell’editto di Nantes, il merito di legare la probabilità di trovare un errore con la sua entità. Egli fu infatti l’autore di uno dei primi trattati di teoria della probabilità (Doctrine of chances, 1718) nel quale derivava risultati algebrici per induzione utilizzando osservazioni sulle frequenze di eventi. Introdusse in tal modo la probabilità composta di due eventi indipendenti (p(A) x p(B) = p(AxB)) e probabilmente fu il primo a operare con la formula delle probabilità +∞ ∫e −x2 dx = π /2 0 50 risultato che apparve con scarso rilievo in un opuscolo stampato privatamente nel 1733 (Approximatio ad summam terminorum binomii (a+b)n in serie expansi). Il risultato comunque fu tradotto in inglese ed inserito nella seconda edizione di Doctrine of chences (1738). Una svolta decisiva alla teoria degli errori fu però apportata da Adrien Marie Legendre ( 17521833) (che assieme a Condorcet, Lagrange, Monge, Laplace e Carnot, rappresenta il gotha dei matematici della Francia rivoluzionaria), il quale nella sua veste di componente della commissione dei pesi e delle misure incaricata di definire il “metro” ed il sistema di misurazione decimale ad esso collegato, si cimentò con le misure geodetiche attraverso la triangolazione generale della Francia dalla quale ricavò il metro provvisorio quale decimilionesima parte del quarto del meridiano terrestre. Quella definitiva, come é noto, fu l’esito delle misurazioni compiute in un quinquennio dai due astronomi geodeti Delambre e Mechain. Nel 1805 pubblicò una “Memoire” nei quaderni dell’Institut des Sciences dove comparve per la prima volta il metodo dei minimi quadrati utilizzato per risolvere delle incongruenze in alcune equazioni lineari dedotte da osservazioni astronomiche. Ma fu Carl Friederich Gauss (1777-1855) ad utilizzare per primo il metodo dei minimi quadrati come dimostra una lettera spedita a Olbers nel 1802. Olbers era un astronomo che aveva “scoperto” Pallade (uno dei tanti pianeti minori del nostro sistema solare) e aveva chiesto a Gauss di calcolarne l’orbita sulla base delle proprie osservazioni. Gauss partì dal presupposto che ciascuna osservazione Oi poteva essere affetta da in errore casuale εi. Il teorema afferma che il valore medio delle osservazioni Om é il valore vero della grandezza misurata che minimizza la somma degli errori al quadrato. Diamo una dimostrazione algebrica del teorema. Vogliamo dimostrare che il valore medio di n misure minimizza la somma degli scarti al quadrato. Sia Oi l’i-esima osservazione, Om il valore medio ed x il valore vero. Sia poi ε i l’errore di cui è affetta l’i-esima osservazione. Allora ogni singola osservazione può essere scritta: O1 = Om + ε 1 O2 = Om + ε 2 . . . . . . . On = Om + ε n poiché n ∑ Oi = nOm i segue che n ∑ε i = 0 . i Consideriamo la somma degli scarti dalla media al quadrato: 51 S ( x) = ( x − O1 ) 2 + ( x − O2 ) 2 + .......... + ( x − On ) 2 Viste le relazioni precedenti questa somma può anche essere S ( x) = [x − (Om + ε 1 )] + [x − (Om + ε 2 )] + ....... + [x − (Om + ε n )] 2 2 2 Sviluppando i quadrati si ottiene: S ( x) = x 2 − 2(Om + ε 1 ) x + Om2 + 2Omε1 + ε 12 + x 2 − 2(Om + ε 2 ) x + Om2 + 2Omε 2 + ε 22 + ...................................................... x 2 − 2(Om + ε n ) x + Om2 + 2Omε n + ε n2 + Sviluppando ulteriormente i calcoli ed ordinando si ha: n n n 1 1 1 S ( x) = nx 2 − 2nOm x + nOm2 − 2nx ∑ ε i + 2nOm ∑ ε i + ∑ ε i2 e raggruppando si ha n S ( x) = n( x − Om ) 2 + ∑ ε i2 1 in quanto i termini n n 1 1 2nx ∑ ε i + 2nOm ∑ ε i sono uguali a zero in quanto la somma degli errori é uguale a zero. n La funzione somma ha un minimo per x = Om da cui, sostituendo, S ( x) = ∑ ε i2 1 S (x) n ∑ε 2 i 1 52 Om x scritta: La figura mostra che per qualsiasi valore di x≠Om la somma dei quadrati degli scarti tende a crescere. La disputa proseguì per gli anni seguenti e fu risolta a Laplace che non prese le parti né dell’uno né dell’altro. La Storia però fa giustizia: Gauss mise a punto per primo il teorema; Legendre lo pubblicò per primo. Va infine ricordato che fu Pierre Simon Laplace (1749-1827) a risolvere analiticamente per primo l’integrale di probabilità di De Moivre. Tale risultato servi con molta probabilità a Gauss per operare il collegamento fra la teoria degli errori e la curva normale. Questo passaggio gli valse il “battesimo” della curva che da allora è conosciuta con il nome di GAUSSIANA. Bibliografia essenziale Boyer, C.B. – Storia della matematica. Oscar saggi Mondadori, 1990. Bell, E.T. – I grandi matematici. Sansoni ed., 1950. Courant, R., Robbins, H. – Che cos’é la matematica? Unversale Scientifica Boringhieri, 1985. Tazzoli, R. – Gauss, principe dei matematici e scienziato poliedrico. Le Scienze, 5(28), 2002. 53 (Testo a lettura facoltativa) La distribuzione Normale (Gaussiana) (C. Dimauro) Il prototipo della funzione matematica che descrive la curva a campana è: f ( x) = e − x2 h2 (1) Il parametro h è un parametro fisso che possiamo chiamare parametro di larghezza. Il grafico della (1) e: Al variare del parametro h si ha: all’aumentare di h aumenta la larghezza della curva. 54 Dimostriamo che il punto di massimo coincide con il punto di coordinate (0,1) . Per fare ciò calcoliamo la derivata prima della funzione: x2 2 −h ′ f ( x) = − 2 xe h Il punto di massimo sarà trovato per quel valore x che annulla la derivata prima: x2 f ′( x) = 0 la quantità e − 2 − h2 − 2 xe =0 h → x2 h2 non si annulla mai per definizione di funzione esponenziale, quindi deve essere − 2 x = 0 e cioè x = 0 h2 Quindi nel punto di ascissa x = 0 si avrà il massimo. Calcoliamo l’ordinata di tale punto sostituendo x = 0 nella (1): f ( 0) = e ⎛ 0 ⎞ −⎜ 2 ⎟ ⎝h ⎠ 2 =1 Si avrà quindi un massimo nel punto M di coordinate M (0;1) . Calcoliamo adesso la derivata seconda che ci permetterà di ricavare il punto di flesso: x2 ⎡ − x2 ⎛ − 2 2 2 2 f ′′( x) = − 2 ⎢e h + ⎜⎜ − 2 xe h h ⎢ ⎜ h ⎝ ⎣ ⎞ ⎤ ⎟ ⋅ x⎥ ⎟⎟ ⎥ ⎠ ⎦ da cui: x2 ⎤ ⎡ − x2 − 2 2 2 2 f ′′( x) = − 2 ⎢e h − 2 x 2 e h ⎥ ⎥ h ⎢ h ⎦ ⎣ ed infine: x2 2 − 2⎡ 2 ⎤ f ′′( x) = − 2 e h ⎢1 − 2 x 2 ⎥ h ⎦ ⎣ h Il punto di flesso sarà trovato per quel valore x che annulla la derivata seconda: 55 f ′′( x) = 0 → − 2 e h2 − x2 h2 2 2⎤ ⎡ ⎢⎣1 − h 2 x ⎥⎦ = 0 da cui, per gli stessi motivi legati alla derivata prima è: 1− 2 2 x =0 h2 da cui x=± h 2 Otteniamo, come ci aspettavamo, vista la simmetria della funzione, due punti di h h flesso, il primo per x1 = − , il secondo per x2 = . Le ordinate del punto di 2 2 2 h2 flesso si ricavano sostituendo nella (1): ⎛⎜ ± h2 ⎞⎟ 1 −⎝ 2 ⎠ − 22 − h h h f (± ) =1 e =e = e1 2 ⎛ h2 − ⎞ ⎛ h − ⎞ In definitiva avremo: F1 = ⎜ − ; e 2 ⎟ ed F2 = ⎜ ;e 2 ⎟ ⎟ ⎟ ⎜ ⎜ 2 ⎠ ⎠ ⎝ ⎝ 2 Se modifichiamo la (1) si ha: f ( x) = e − x2 2 h2 (2) andando a svolgere i calcoli, i punti di flesso saranno: 1 ⎛ − ⎞ ⎜ F1 = − h ; e 2 ⎟ ⎟ ⎜ ⎠ ⎝ ed 1 ⎛ − ⎞ ⎜ F2 = h ; e 2 ⎟ ⎟ ⎜ ⎠ ⎝ La (2) non è ancora nella sua forma finale. Ogni distribuzione deve essere normalizzata, cioè deve soddisfare la condizione: +∞ ∫ f ( x)dx = 1 (3) −∞ cioè l’area sottesa dalla curva deve essere uguale ad 1. Ciò è consistente con i nostri scopi, visto che la probabilità totale è 1. Per fare ciò poniamo: f ( x) = N e 56 − x2 2 h2 (4) cioè moltiplichiamo la funzione per il fattore N che non cambia né la forma, né il massimo. Dobbiamo scegliere allora il fattore di normalizzazione N in modo che la funzione sia normalizzata come la (3): +∞ +∞ ∫ f ( x)dx = ∫ N e −∞ per risolvere questo integrale poniamo: − x2 2 h 2 dx −∞ x = y da cui x = hy h dx = hdy per cui si avrà: 2 =N +∞ − y h e 2 ∫ dy = −∞ 2 l’integrale +∞ − y e 2 ∫ dy è uno degli integrali standard della fisica matematica (che sarà −∞ risolto in appendice) e dà come risultato: 2 +∞ − y e 2 ∫ dy = 2π −∞ per cui si avrà 2 = +∞ − y Nh e 2 ∫ dy = Nh 2π −∞ Questo integrale deve essere 1 e quindi: Nh 2π = 1 da cui N= 1 h 2π Sostituendo questo valore nella (4) si ottiene la distribuzione di Gauss o Normale, correttamente normalizzata: f ( x) = 1 e h 2π 57 − x2 2h2 (5) Questa curva è la curva normale con massimo in x = 0 . Nella pratica, il massimo di questa curva non sempre è nello zero. Per renderla più generale, sostituiamo nella (5) x con x − X . La (5) diventerà: f ( x) = 1 e h 2π − ( x − X )2 2 h2 (6) il cui punto di massimo avrà ascissa x = X . Per cui al variare di X si avranno le curve: Interpretiamo adesso le quantità X ed h. In generale, la media di un qualunque numero di misure è la somma di tutti i diversi valori xk , ciascuno pesato per la frazione di volte in cui è stato ottenuto: x = ∑ xk Fk k dove ovviamente Fk = nk che rappresenta la frequenza con cui una data misura nk si N presenta nelle N misure totali. Se, come nel nostro caso il numero di misure è enorme ed abbiamo la distribuzione limite, il valore medio sarà dato semplicemente da +∞ µ = ∫ xf ( x)dx −∞ 58 per cui sostituendo si avrà: µ= 1 h 2π +∞ ∫ xe − ( x − X )2 2 h2 dx −∞ Facciamo anche qui un cambio di variabili, ponendo y = x − X , da cui x = y + X e differenziando dx = dy . Sostituendo nell’integrale si ottengono due termini: 2 ⎛ +∞ − y 2 ⎞ +∞ − y 1 ⎜ 2 2 2 h 2 h ye dy + X ∫ e dy ⎟⎟ µ= ∫ ⎜ h 2π ⎜ −∞ ⎟ −∞ ⎝ ⎠ Il primo integrale è esattamente zero, perché il contributo di ogni y è cancellato esattamente da quello di –y. Il secondo integrale è l’integrale di normalizzazione visto prima ed ha il valore h 2π . Questo valore si semplifica con h 2π al denominatore e si ottiene che il valore atteso, la media teorica, il risultato più probabile è µ=X Quindi il punto di massimo in cui è centrata la gaussiana è proprio la media attesa µ . Sostituendo nella (6) si avrà: − 1 f ( x) = e h 2π ( x − µ )2 2 h2 Sappiamo che la deviazione standard è data dalla formula: σ= ∑ ( xi − µ ) 2 N −1 al quadrato σ 2 ( xi − µ ) 2 ∑ = N dove al posto di N − 1 abbiamo messo N visto il numero grandissimo di misure. Si ha ancora: σ 2 ( xi − µ ) 2 ∑ = N 59 che è la media della deviazione standard. Con le stesse considerazioni fatte precedentemente si perviene all’integrale: +∞ σ 2 = ∫ ( x − µ ) 2 f ( x)dx −∞ cioè 1 σ2 = h 2π +∞ ∫ (x − µ )2 e − ( x − µ )2 2 h2 dx −∞ Ponendo y = x − µ e z = y h ed integrando per parti si ottiene: σ 2 = h2 per cui la forma finale della distribuzione normale è: f ( x) = 1 e σ 2π − ( x − µ )2 2σ 2 che per quanto visto avrà il massimo nel punto di ascissa µ e flessi nei punti di ascissa ± σ LA DEVIAZIONE STANDARD COME IL LIMITE DI CONFIDENZA DEL 68 PERCENTO Abbiamo visto che l’integrale della gaussiana dà come risultato 1, cioè +∞ ∫ f ( x)dx = 1 −∞ allora si comprende bene che b ∫ f ( x)dx a è la probabilità che una data misura dia un risultato nell’intervallo [a, b]. In particolare, possiamo allora calcolare la probabilità che una misura cada entro una deviazione standard σ dal valore vero µ . Questa probabilità è data da: 60 P(entro σ ) = 1 σ 2π µ −σ µ +σ ∫ e − ( x − µ )2 2σ 2 dx µ −σ µ µ +σ L’integrale può essere semplificato sostituendo ad ( x − µ ) σ = z . Con questa sostituzione si ha dx = σdz ed i limiti dell’integrale diventano z = ±1 . Allora 1 P(entro σ ) = 2π 2 +1 − z e 2 ∫ dz −1 Questo integrale è un integrale standard della fisica matematica noto come la funzione degli errori denotata con erf(t) o integrale normale degli errori. Può essere valutato sia analiticamente che con una normale calcolatrice. Il calcolo in questo caso ci dà ≅ 0,68 . APPENDICE: calcolo dell’integrale di probabilità: I = +∞ ∫ e − x2 2 dx −∞ Il primo a svolgere questo calcolo fu Laplace con una tecnica molto originale per quel tempo. 61 La funzione esponenziale è simmetrica rispetto all’asse delle ordinate, per cui è possibile calcolare solo l’integrale da 0 a + ∞ e poi moltiplicare per 2: +∞ I = 2I 1 = 2 ∫ e − x2 2 dx 0 Eleviamo al quadrato l’integrale I1 ed otteniamo: 2 I 12 = +∞ − x e 2 ∫ 2 +∞ − y dx ⋅ e 2 ∫ 0 dy 0 dove nel secondo integrale la variabile x è stata cambiata in y. Aggiustando i calcoli si ha: +∞ +∞ ∫ ∫ I 12 = 0 e − x2 + y2 2 dxdy 0 dove dx e dy rappresentano gli spostamenti infinitesimi su cui integrare. La quantità x 2 + y 2 = r 2 rappresenta una circonferenza di centro l’origine degli assi cartesiani e raggio r. Ciò suggerisce una trasformazione delle variabili in coordinate polari. in tali coordinate lo spostamento orizzontale è rappresentato dal raggio, per cui dx = dr; lo spostamento verticale avviene lungo un arco, per cui essendo un arco di lunghezza l uguale a l = rθ , lo spostamento in verticale sarà dato da dl = rdθ . Si ha quindi: π I 12 = π 2 2 +∞ − r e 2 ∫∫ 0 0 2 +∞ 0 0 dr r dθ = ∫ dθ ∫ re − r2 2 dr Il primo di questi integrali dà come risultato: π π 2 ∫ dθ = [θ ]02 = 0 π 2 mentre il secondo: +∞ ∫ 0 r2 − re 2 2 dr = +∞ − r − e 2 ∫ 0 +∞ r2 ⎛ r ⎞ ⎡ −2⎤ d ⎜⎜ − ⎟⎟ = ⎢− e ⎥ = 1 ⎥ ⎝ 2 ⎠ ⎢⎣ ⎦0 2 quindi 62 I 12 = π 2 ⋅1 = π 2 da cui estraendo la radice quadrata ad entrambi i membri si ha: I1 = π 2 Moltiplicando per due questo integrale si ottiene la soluzione dell’integrale di partenza: I=2 π 2 = 4⋅ 63 π 2 = 2π Lezione n. 5 INFERENZA SULLA MEDIA E ANALISI DELLA VARIANZA 1. L’inferenza sulla media (A. Nudda) Abbiamo visto che l’obbiettivo della statistica è quello di stimare i parametri della popolazione basandoci sulle informazioni (statistiche) calcolate sul campione. Ricordiamo che la popolazione è caratterizzata da misure numeriche descrittive chiamate “parametri”: la media (µ) e la deviazione standard (σ) I metodi di inferenza statistica sui parametri della popolazione sono fondamentalmente due: 1. la stima del valore del parametro della popolazione 2. il test di ipotesi (test statistico) Nel primo caso (stima del parametro della popolazione) noi dobbiamo rispondere alla domanda “qual è il valore del parametro della popolazione” mentre con il test statistico dobbiamo rispondere alla domanda “il valore del parametro (es. µ) considerato è uguale o diverso da uno specifico valore (µ0)?” Ricordiamo ancora che nella curva della distribuzione normale …nell’intervallo µ±1,96 ES. ricade il 95% dei valori …nell’intervallo µ±2 ES ricade il 95,44% dei valori …nell’intervallo µ±2,58 ES ricade il 99% dei valori dove ES (errore standard) = deviazione standard diviso la radice quadrata di n (numerosità dei dati) L’intervallo µ±1,96 ES è un intervallo di confidenza al 95%. L’intervallo µ±2,58 ES è un intervallo di confidenza al 99% 64 L’intervallo di confidenza è calcolato con la formula: µ ± Zα/2 × ES in cui z è in valore inferiore (quello superiore è +∞) dell’integrale della curva normale standardizzata. Il valore dell’integrale rappresenta il livello di significatività richiesto dal test. Il valore di α corrisponde al livello di probabilità scelto, solitamente α =5% (chiediamo al test in quale intervallo di valori della distribuzione delle medie campionarie comprende il 95% della popolazione delle medie campionarie). Nella formula usiamo α/2 poiché dobbiamo ricordare che le due code della distribuzione di frequenza sono simmetriche per cui ogni coda comprende il (α/2)∗ 100 dei casi. Per campioni grandi, con almeno 30 elementi (n >30), usiamo il valore di z per calcolare l’intervallo di confidenza. Per campioni piccoli, di numerosità inferiore a 30 nei quali l’uso della distribuzione z potrebbe creare distorsioni nella stima, dobbiamo utilizzare come livello di probabilità quello della distribuzione “t” . Lai la formula per calcolare l’intervallo di confidenza sarà perciò: µ − tα/2 × ES Stima del valore del parametro della popolazione Supponiamo di essere interessati alla stima dell’altezza media della popolazione “studenti dell’ateneo di Sassari”. Per fare questo lavoriamo su un campione (ad esempio un gruppo di studenti della facoltà di agraria) di cui misuriamo la media (m) per poter stimare la media della popolazione (µ) In un campione di n = 50 studenti della facoltà di agraria di Sassari l’altezza media (m) è 168 cm, con una deviazione standard di 12 cm. Usiamo questo campione per costruire l’intervallo di confidenza al 95% per µ (altezza media degli studenti universitari di Sassari). L’intervallo di confidenza al 95% è dato da: media±1,96 ES: nel caso in esempio ES = (12 / 50 ) = 1,70. quindi intervallo di confidenza al 95% è dato da: = 168 ± 1,96 x 1,70 = 168 ± 3,33 limite inferiore dell’intervallo di confidenza = 168 – 3,33 = 164,67 cm limite superiore dell’intervallo di confidenza = 168 + 3,33 = 171,33 cm Pertanto l’altezza media degli studenti dell’ateneo (µ) con probabilità del 95% ricade nell’intervallo compreso fra 164,67 e 171,33 cm. Gli intervalli di confidenza per µ dipendono dal coefficiente di confidenza scelto (ad es. 95%, 99%, ecc.), dalla deviazione standard campionaria (maggiore è la variabilità stimata della popolazione e maggiore è quella delle medie campionarie) e dalla numerosità del campione utilizzato per la stima (più piccolo è il campione, maggiore è l’intervallo di confidenza: campioni di numerosità limitata possono essere anche molto diversi dalla popolazione, mentre campioni grandi lo sono di meno). 65 Test statistico per la media Il test statistico (o test di ipotesi) ci permette di rispondere alla domanda “la media della popolazione (µ) è uguale o diversa ad uno specifico valore m calcolato su un campione?” Ad esempio: l’altezza media degli studenti di Sassari (168 cm) è uguale all’altezza media della popolazione di studenti del nord Italia (173 cm)? Un test statistico si compone delle seguenti parti: a) formulazione dell’ipotesi nulla, indicata con H0 L’altezza media degli studenti di Sassari è uguale all’altezza media degli studenti del Nord Italia (ovvero 168 cm è uguale a 173 cm); ovvero, con quale probabilità le differenze nelle medie campionarie che abbiamo trovato sono dovute all’estrazione casuale di campioni dalla stessa popolazione? b) formulazione dell’ipotesi di ricerca o ipotesi alternativa, indicata con Ha L’altezza media degli studenti di Sassari è diversa dall’altezza media degli studenti del Nord Italia (ovvero 168 cm è minore di 173 cm; ovvero, la differenza fra i valori medi che abbiamo osservato sono dovute al fatto che i due campioni appartengono a popolazioni diverse? c) applicazione del Test statistico Calcolo del valore numerico, ricavato dai dati del campione, sulla base del quale si decide se accettare l’ipotesi nulla o rigettarla a favore dell’ipotesi alternativa. Questo valore numerico (Z, variabile standardizzata della distribuzione delle m2die campionarie) è calcolato con la formula: Z= µ−X σ/ n Utilizziamo i dati del campione di 50 studenti di Sassari di cui è stata misurata un’altezza media di 168 cm (m) con una deviazione standard di 12 e il valore di 173 cm quale altezza media degli studenti del Nord Italia. Applichiamo la formula per calcolare Z Z= 168 − 173 12 / 50 d) Regione di rigetto 66 = - 2,94 Individuazione della Zona della distribuzione di probabilità della statistica del test dove ricadono i valori che consentono di rigettare l’ipotesi nulla a favore di quella alternativa - si sceglie la probabilità di errore pari ad α (ad es. se vogliamo una probabilità di errore del 5% abbiamo α = 0,05; se vogliamo una probabilità di errore inferiore, ad esempio dell’1% avremmo α = 0,01) - nelle tavole della distribuzione normale si individua il valore di Z tabulato corrispondente al valore di α scelto. Supponiamo di aver scelto una probabilità di errore del 5% per cui α = 0,05 (ricordiamo di cercare nella tabella della distribuzione normale il valore α/2). Per la probabilità di errore del 5% (ovvero 95% di probabilità di non sbagliare) il valore di Z tabulato = 1,96. Siccome il valore assoluto di Z da noi calcolato (2,94) supera il valore di Z tabulato (1,96) si rigetta l’ipotesi nulla (H0 = l’altezza degli studenti di Sassari è uguale all’altezza degli studenti del Nord Italia) e si accetta l’ipotesi alternativa (H1 = l’altezza degli studenti di Sassari è minore dell’altezza degli studenti del Nord Italia) e) Conclusioni L’altezza degli studenti di Sassari è minore dell’altezza degli studenti del Nord Italia. Nel dire questo ho la probabilità di sbagliare del 5%. …oppure nell’affermare questo ho la garanzia del 95% di NON sbagliare. NB: Per ritrovare i valori di Z o di t tabulati ricordate di utilizzare le tabelle di densità di probabilità: - quella della curva normale nel caso dei test che ricorrono al valore di Z - quella del t di student normale nel caso dei test che ricorrono al valore di t La lettura della tabella di t richiede come informazioni il valore di α prescelto ed i gradi di libertà (g.l.) g.l. = n -1 2. L’analisi della varianza Una generalizzazione del confronto fra medie campionarie è l’analisi della varianza (ANOVA in acronimo che significa “analisys of variance”). Nonostante la denominazione, che deriva da Fisher e Snedecor che misero a punto questa tecnica negli anni ’20 del novecento, l’ANOVA si occupa di confronti fra medie campionarie. Il quesito di fondo di questa tecnica è: le medie campionare che ho ottenuto rappresentano una stima della media della stessa popolazione (ossia, i campioni che ho in esame sono diversi in quanto estrazioni casuali dalla stessa popolazione), oppure rappresentano stime di medie di popolazioni differenti? In altri termini, le differenze fra le medie che osservo sono dovute al caso oppure c’è un motivo? Prendiamo un insieme di dati senza scriverne il valore (16 dati in totale): 67 • • • • • • • • • • • • • • • • Poniamo di aver estratto questo campione dalla stessa popolazione. I dati sono distribuiti nelle celle casualmente: infatti, non conoscendone il valore non ho alcuna ragione per una collocazione preferenziale dei dati in una posizione particolare della matrice. Ora, classifico di dati per colonna: attribuisco a ciascuna colonna una lettera in modo tale che i dati della prima colonna siano ora distinguibili da quelli delle altre colonne: in questo modo ho operato una “classificazione” dei dati (li ho inseriti all’interno di una classe). Il motivo che mi ha spinto a formulare le classi in tal modo e non in uno alternativo è detto “criterio di classificazione”. Sui dati così ordinati posso calcolare la media di ciascuna classe (ma, mb, mc, md) e la media generale mt. A B C D • • • • • • • • • • • • • • • • Abbiamo costruito in tal modo una matrice in cui esiste una variabilità verticale (la variabilità dei dati entro il gruppo di appartenenza) e una variabilità orizzontale (la variabilità delle medie fra gruppi). La misura di tutta la variabilità verticale può essere stimata con la varianza “entro i gruppi” (VARENTRO), quella orizzontale con la “varianza tra gruppi” (VARTRA). Se abbiamo distribuito i dati veramente a caso, non dovrebbe sussistere alcuna ragione per cui una varianza debba essere maggiore dell’altra. Entrambe sono una stima del parametro “varianza della popolazione” (VARPOP), per cui con campioni molto grandi il rapporto VARTRA/VARENTRO tende all’unità. Se invece questo rapporto è molto lontano dall’unità, significa che la variabilità fra i gruppi è di gran lunga superiore a quello entro i gruppi, per cui è molto probabile i gruppi rappresentino campioni estratti da popolazioni differenti per la (o le) proprietà che abbiamo in studio. 68 E’ intuitivo che le varianze stimate tendano a cambiare il loro valore in funzione della numerosità del campione e di quella dei gruppi. Nell’esempio appena accennato, la varianza fra gruppi è stimata con (4-1) gradi di libertà, mentre quella entro gruppi è stimata con 12 gradi di libertà (3 gdl per ciascun gruppo). In effetti, su 16 dati e 4 gruppi, la media generale mt porta via una informazione (libera) cioè un grado di libertà, le medie di gruppo portano via 3 informazioni (la quarta è “bloccata” dalla media generale), e ciascuno dei k gruppi ha al suo interno nk-1 gradi di libertà (4-1 nel nostro caso) in quanto la quarta informazione l’abbiamo già usata per calcolare la media di gruppo. Riassumendo, su una numerosità totale n, divisa in k gruppi isonumerici nk1, nk2,n….nkn, la somma dei gdl da la numerosità dei gdl totali: n-1 = (k-1, gdl della VARTRA) + (n-k1, gdl della VARENTRO). Normalmente la VARTRA è stimata con gdl inferiori rispetto alla VARENTRO (di solito i dati all’interno di ciascun gruppo, chiamati repliche, sono di gran lunga superiori al numero di gruppi. Al limite, sono uguali quando in ciascun gruppo è collocato un solo dato), per cui VARTRA è detta varianza maggiore (nel senso che assume sempre il valore maggiore) e VARENTRO è detta varianza minore. Il rapporto VARTRA/VARENTRO prende il nome di F (da Fisher che lo ha codificato) ed è una variabile con una distribuzione che dipende dai gradi di libertà delle varianze. Riportiamo le distribuzioni dell’F di Fisher generate dal software MINITAB per 100 gradi di libertà per la VARENTRO e gdl da 1 a 50 per la VARTRA. Distribuzione dell'F di Fisher con 1 e 100 gradi di libertà 400 Frequency 300 200 100 0 0 5 10 15 F(1;100) 69 Distribuzione dell'F di Fisher con 10 e 100 gradi di libertà Frequency 300 200 100 0 0 1 2 3 F(10;100) Distribuzione dell'F di Fisher con 20 e 100 gradi di libertà Frequency 300 200 100 0 0 1 2 3 F(20;100) Distribuzione dell'F di Fisher con 50 e 100 gradi di libertà Frequency 400 300 200 100 0 0,5 1,5 2,5 F(50;100) Vediamo che maggiori sono i gradi di libertà, più il grafico si avvicina ad una distribuzione normale. Con 5000 gdl per varianza maggiore e minore la distribuzione si assomiglia ad una normale centrata sul valore 1. 70 Histogram of F(5000;5000), with Normal Curve 600 500 Frequency 400 300 200 100 0 0,9 1,0 1,1 F(5000;5000) Consideriamo 4 insiemi di dati (rilievi della produzione giornaliera di latte espressa in grammi di pecore Sarde): repliche A B C D 1 1575 1360 1280 1430 2 1860 1910 1050 2330 3 1000 1860 670 1750 4 1140 1470 2020 1645 5 925 1480 915 950 Σx 6500 8080 5935 8105 Σx2 9095450 19308600 8107025 14144825 mk 1300 1616 1187 1621 Dev 645450 251320 1062580 1006620 Var 161362 62830 265645 251655 d.s. 401,7 250,6 515,4 501,6 TOTALE Σx = 28620 Σx2 = 44656300 mt = 1431 Dev = 3701080 Poniamo che il raggruppamento dei dati corrisponda a 4 differenti tipi di mangime somministrati agli animali (A = mais; B= orzo; C= avena; D = mais+soia). Dobbiamo verificare se le differenze 71 fra le medie campionarie ottenute sono causali (cioè sono una stima campionaria della sessa media della popolazione ) oppure se i diversi tipi di mangime hanno creato popolazioni differenti di pecore e la media campionaria di ciascun gruppo è la stima della media di popolazioni differenti. Ricordiamoci il modello lineare della media: yi = µ + ε i Come ricorderete, in questo modello vi è una parte spiegata (le media) e una non spiegata o casuale (l’errore). Nel nostro caso, però, abbiamo aggiunto una fonte di spiegazione al fenomeno che è rappresentata dall’appartenenza delle pecore ai gruppi di alimentazioni differenti. L’errore del modello della media può quindi essere diviso in due parti, di cui una spiegata (G=gruppo) ed una residua non spiegata (εi= errore casuale): ε = εi + G Quindi il modello complessivo diventa: yji = µ + Gj + εji Questo modello può essere letto nel modo seguente: ciascun dato è uguale alla media generale + lo scostamento della media del gruppo a cui appartiene il dato + lo scostamento del dato dalla media di gruppo (il pedice j indica il gruppo di appartenenza del dato yji). Prendiamo come esempio il primo dato: 1575 (yji) = 1431(µ ) – 131 (mk1-µ= Gj ) + 275 (yji – mk1=εji) La parte spiegata dal modello è il primo scostamento (Gj = -131): questa informazione è giustificata dal fatto che quel dato è inserito in un determinato gruppo (in questo caso A), il quale possiede una media che differisce di una quantità Gj dalla media generale. Lo sviluppo complessivo del modello lineare per i 4 gruppi sperimentali di pecore è illustrata di seguito; sono anche calcolati i quadrati degli errori. Gruppo A εi2 A1 1575 = 1431 - 131 + 275 75625 A2 1860 = 1431 - 131 + 560 313600 A3 1000 = 1431 - 131 - 300 90000 72 A4 1140 = 1431 - 131 -160 25600 A5 925 = 1431 - 131 - 375 140625 645450 Totale Gruppo B εi2 B1 1575 = 1431 + 185 - 256 65536 B2 1860 = 1431 + 185 + 294 86436 B3 1000 = 1431 + 185 + 244 59536 B4 1140 = 1431 + 185 – 146 21316 B5 925 = 1431 + 185 - 136 18496 251320 Totale Gruppo C εi2 C1 1280 = 1431 - 244 + 93 8649 C2 1050 = 1431 - 244 + 1370 18769 C3 670 = 1431 - 244 - 517 267289 C4 2020 = 1431 - 244 + 833 693889 C5 915 = 1431 - 244 - 272 73984 1062580 Totale Gruppo D εi2 D1 1430 = 1431 + 190 – 191 36481 D2 2330 = 1431 + 190 + 709 502681 D3 1750 = 1431 + 190 + 129 16641 73 D4 1645 = 1431 + 190 – 24 D5 576 950 = 1431 + 190 - 671 450241 1006620 Totale I calcoli sono corretti se la somma degli scarti εi,è uguale a zero e se anche la somma degli scarti delle medie di gruppo dalla media generale (Gj) è uguale a zero. Pur se ovvio, vale la pena ricordare che le somma degli scarti è uguale a zero in quanto la somma dei dati (Σyji) è uguale alla somma.delle medie (Σµ= nµ) Ricordiamo che nel modello della media si toglieva da SS la parte invariante, cioè SSm, per ottenere la devianza (cfr lezione n. 4). Vediamo se questo è valido anche con la scomposizione dell’errore in due parti. SS = 44656300 SSm= n*m2= 20*14312 = 40955220 Somma dei quadrati degli scostamenti Gj SSAA = 5 *(-131)2 = 85805 SSAB = 5 *(185)2 = 171125 SSAC = 5 *(-244)2 = 297680 SSAD = 5 *(190)2 = 180500 Se i calcoli sono stati fatti bene, la somma dei quadrati della media (SSm) più la somma dei quadrati degli scostamenti di ciascun gruppo dalla media (SSG) deve essere inferiore o, al massimo, uguale alla somma totale dei quadrati (SS), in quanto tutti i valori di ciascun gruppo fossero uguali fra loro (e uguali alla media del gruppo) gli scostamenti interni al gruppo εi assumerebbero il valore di zero. Riprendiamo ora i quadrati degli scostamenti εi e la loro somma calcolata prima: A: 645450 B: 251320 C: 1062580 D: 1006620 Totale 2965970 Avremo allora nel complesso 74 SS = 44656300 SSm = 40955220 SSG = 73510 SSε = 2965970 Possiamo agevolmente notare che SS = SSm + SSG + SSε; infatti ha: 44656300 = 40955220 + 735110 + 2965970 il che significa che la variabilità contenuta nell’errore può essere scomposta in due parti, una spiegata (appartenenza degli animali al gruppo di alimentazione) e una non spiegata (la deviazione individuale rispetto alla media del gruppo). Per quanto riguarda i gradi di libertà, la media generale prende una informazione, i gruppi 3 informazioni e per l’errore restano 16 gradi di libertà: 16 (4 gdl per gruppop) + 3 (n gruppi –1) + 1 (media generale) = 20 (numerosità del campione) Calcoliamo ora le varianze (MS = mean square) che ci servono per effettuare il test statistico di Fisher MSG = SSG/3 = 735110/3 = 245037 MSE = SSε/16 = 2965970/16 = 185375 Infine, poiché la media è la parte invariante del modello, non porta alcuna informazione alla variabilità. Possiamo allora sottrarre i quadrati della media a destra e a sinistra del modello e avremo: 3701080 = 735110 + 2965970 Il primo termine è la devianza totale (SSt) già incontrata nella lezione n. 3 che può essere scomposta in una devianza fra i gruppi (SSG) ed una devianza entro i gruppi (SSe). Siamo ora in grado di ordinare i risultati nella “classica tabella di ANOVA”. Questa collocazione è molto importante in quanto gli output dei software statistici sistemano i risultati generalmente in questo modo. Tabella dei risultati dell’analisi della varianza (ANOVA) a un fattore di classificazione 75 Fonte Devianza (SS) gradi di libertà Varianza (MS) F Tra gruppi (G) 735110 3 245037 1,32 Entro gruppi (e) 2965970 16 185375 Totale (t) 3701080 19 ** (**) questo dato non viene di solito esposto in quanto non utile ai fini dell’analisi. Inseriamo il valore di F in MINITAB ed otteniamo il seguente output Probability Density Function F distribution with 3 DF in numerator and 16 DF in denominator x 1,3200 P( X = x) 0,3048 Il che significa che la probabilità che le medie appartengano a popolazioni differenti (ovvero che i diversi tipi di mangime abbiano causato una produzione differente) è del 30,5%. E’ una probabilità troppo alta di fare una affermazione sbagliata per cui rigettiamo l’ipotesi alternativa (il mangime provoca produzioni diverse) e accettiamo l’ipotesi zero (il mangime non crea differenze). Normalmente i livelli di potenza del test (cioè la probabilità di commettere errore nell’accettare l’ipotesi alternativa) sono del 5% e, in casi particolari, dell’1%. Se non disponessimo di un software, potremo consultare le tavole dell’F sviluppate da Fisher (ne è stata distribuita una copia a lezione). Da queste tavole si ricava che per (16 gd.l. per la varianza minore Sse e 3 g.d.l. per la varianza maggiore SSG) i valori per i prefissati limiti sono : F5% = 3,24 e F1% = 5,29. Poiché il valore da noi trovato è inferiore a quelli soglia tabulati, respingiamo l’ipotesi alternativa. Se fosse stato superiore, l’avremmo accettata. 76 ANALISI DELLA VARIANZA (esercitazione a lettura obbligatoria. A. Nudda) Abbiamo visto in precedenza come confrontare le medie di due popolazioni estratte da due campioni casuali indipendenti. In effetti, questo è spesso una semplificazione di ciò che accade nelle situazioni pratiche. Per esempio se noi volessimo confrontare il salario medio orario di braccianti agricoli appartenenti a tre zone diverse, dovremmo estrarre tre campioni casuali dalle tre popolazioni e fare le medie. Sicuramente avremmo risultati diversi (sono medie campionarie), ma questo non vuol assolutamente dire che le medie delle tre popolazioni siano diverse. È evidente che i metodi visti fino a questo punto non sono efficaci. A risolvere tale problema ci pensa l’analisi di varianza. L’analisi della varianza è più rapida ed ha un campo di applicazione molto più ampio del “test t” Cerchiamo innanzi tutto di capire la logica interna dell’analisi di varianza. Riprendiamo l’esempio dei salari e supponiamo di aver estratto tre campioni dalle tre popolazioni ognuno di cinque unità campionarie: Campioni estratti 1 2 3 5.90 5.51 5.01 5.92 5.50 5.00 5.91 5.50 4.99 5.89 5.49 4.98 5.88 5.50 5.02 x1 = 5.90 x2 = 5.50 x3 = 5.00 Questi dati presentano sufficiente evidenza per indicare se ci sono differenze fra le tre medie campionarie? Osservando i dati ci accorgiamo che la variabilità entro di ogni singolo campione è piccola, mentre è grande la variabilità tra le medie campionarie. 77 Poiché la variabilità tra le medie campionarie è grande in confronto alla variabilità entro ogni singolo campione, potremmo intuitivamente concludere che le medie delle corrispondenti popolazioni sono diverse. Output di MINITAB che evidenzia gli intervalli di confidenza (Cis) al 95% delle medie basato su una deviazione standard comune (pooled). Individual 95% CIs For Mean Level 1 2 3 N 5 5 5 Pooled StDev = Mean 5,9000 5,5000 5,0000 StDev 0,0158 0,0071 0,0158 0,0135 Based on Pooled StDev ----+---------+---------+---------+-( * ) ( * ) ( * ) ----+---------+---------+---------+-5,10 5,40 5,70 6,00 Consideriamo adesso la seguente tabella: Campioni estratti 1 2 3 5.90 6.31 4.52 4.42 3.54 6.93 7.51 4.73 4.48 7.89 7.20 5.55 3.78 5.72 3.52 x1 = 5.90 x2 = 5.50 x3 = 5.00 Essa illustra una situazione in cui le medie campionarie sono le stesse della precedente tabella, ma la variabilità all’interno di ogni singolo campione è più grande. Diversamente alla situazione di prima, qui la variabilità tra i campioni è più piccola in confronto alla variabilità all’interno dei campioni. È quindi più difficile arrivare a delle conclusioni. In questi casi occorre analizzare più a fondo la variabilità, occorre cioè fare una analisi di varianza. 78 Individual 95% CIs For Mean Level 1 2 3 N 5 5 5 Pooled StDev = Mean 5,900 5,500 5,000 StDev 1,819 1,417 1,296 1,527 Based on Pooled StDev -+---------+---------+---------+----(-----------*------------) (------------*-----------) (------------*-----------) -+---------+---------+---------+----3,6 4,8 6,0 7,2 METODO: l’analisi della varianza consiste nella scomposizione della varianza totale in un insieme di varianze parziali corrispondenti a sorgenti di variazione differenti e ben determinate (varianza fra gruppi e varianza entro gruppi). Una volta individuate, queste varianze verranno confrontate tra di loro con un test statistico denominato test F. Vogliamo confrontare 2 serie di dati Si parte sempre dall’ipotesi H0 cioè che le medie dei due gruppi non siano tra loro diverse. Se l’ipotesi H0 viene contradetta dal test, si accetta l’ipotesi alternativa H1 e si conlcude che le 2 medie sono diverse Poiché si parte sempre dall’ipotesi H0 cioè che le medie dei due gruppi non siano tra loro diverse (ovvero rappresentino la stima di campioni estratti dalla stessa popolazione) consideriamo le due serie di dati come costituenti un’unica serie di 6 misure e calcoliamo la VARIANZA TOTALE A B 2 4 3 5 4 6 9 15 24 =4 6 N =6 x= xA = 3 xB = 5 Per calcolare la varianza totale occorre calcolare: 79 - la somma dei quadrati degli scarti dei dati individuali dalla media generale che indichiamo come “SOMMA TOTALE DEI QUADRATI” N SSt = ∑ ( xi − xi ) 2 1 - i gradi di libertà (g.l. = N-1) In pratica per calcolare la Varianza Totale: 24 =4 6 N =6 x= 1. calcolare la media generale del gruppone 2. Calcolare lo scarto di ciascun valore dalla media generale A B 2-4=-2 4-4=0 3-4=-1 5-4=+1 4-4=0 6-4=+2 3. poiché la somma degli scarti è = zero, si fa il quadrato degli scarti A B (-2)2 (0) 2 (-1) 2 (+1) 2 (0) 2 (+2)2 4. Fare la Somma Totale dei Quadrati SST SST = 4 + 1 + 0 + 0 + 1 + 4 = 10 Tale variabilità totale è, comunque, il risultato di due sorgenti di variazione. La prima è dovuta alla differenza tra i gruppi A e B: si ha infatti x A = 3 ed x B = 5 . La seconda è costituita dalle differenze fra le singole unità campionarie che compongono ogni gruppo (all’interno di ogni gruppo abbiamo infatti valori diversi). La variabilità totale si 80 può allora scindere in due parti: variabilità fra gruppi (SSG) e variabilità entro gruppi (SS). VARIABILITA’ FRA GRUPPI Per poter isolare la variabilità fra i gruppi occorrerà sopprimere la variabilità all’interno di ogni gruppo. Questo si può fare sostituendo all’interno dei gruppi i valori originali con le medie di ogni gruppo: In questo modo le medie rimangono uguali, ma si annulla la variabilità all’interno di ogni gruppo. Inoltre è facile vedere che la media totale rimane sempre 4: x= 9 +15 =4 6 A B 3 5 sostituire all’interno di ciascun gruppo i 3 5 valori originali con la media di ogni gruppo 3 5 somma 9 15 2. A B 3-4 = -1 5-4=+1 Calcolare lo scarto di ciascun valore dalla 3-4 = -1 5-4=+1 media generale = 4 3-4 = -1 5-4=+1 somma -3 +3 3. A B (-1)2 (+1) 2 (-1)2 (+1) 2 (-1)2 (+1) 2 1. Poiché la somma degli scarti è = 0… Calcolare il quadrato degli scarti 81 4. Somma dei quadrati TRA gruppi (SSe): 1+1+1+1+1+1=6 VARIABILITA’ ENTRO GRUPPI Poiché SST = SSG + SSe La variabilità all’interno dei gruppi (somma dei quadrati entro gruppi SSe) è data semplicemente dalla differenza: SSe= SST – SSG 10 - 6 = 4 SST = somma dei quadrati totale (o devianza totale) SSG = somma dei quadrati entro gruppo (o devianza entro) SSe = somma dei quadrati tra gruppi (o devianza tra) VARIANZA = devianza/g.l. 82 Varianza TRA gruppi VarianzaTRA = SSG 6 = =6 k −1 1 g.l. = k -1 = 1 k = numero di gruppi Varianza ENTRO gruppi VarianzaEntro = SSe 4 = =1 N −k 4 g.l. = N - k = 6 - 2 = 4 N = numero complessivo di dati k = numero di gruppi 83 IL TEST STATISTICO O TEST F DI SIGNIFICATIVITÀ Il test statistico F confronta la varianza tra i gruppi e la varianza antro gruppi: F= MSG 6 = =6 MSe 1 ed è caratterizzato da k – 1 gradi di libertà al numeratore e N – k gradi di libertà al denominatore. Per α = 0.05 le tabelle danno F = 7.71. Il F calcolato non supera quello tabulato: si rifiuta l’ipotesi alternativa per cui si accetta quella zero. Riassumiamo il tutto in una tabella: Ricordiamo che: (H0): µ1 = µ2 (le 2 medie sono relative a campioni che provengono dalla stessa popolazione) (H1): almeno due µ diverse, ovvero: µ1 diversa da µ2 (le due medie sono relative a campioni che provengono da popolazioni diverse) Se il valore di F calcolato è minore del valore di F tabulato accetto l’ipotesi nulla H1 (le due medie non sono statisticamente differenti) Se il valore di F calcolato è maggiore del valore di F tabulato rifiuto l’ipotesi nulla H0 e accetto l’ipotesi alternativa (le due medie sono statisticamente differenti) Nell’esempio considerato k - 1 = numero di gruppi - 1 = 2 - 1 = 1 (g.l. al numeratore); n - k = numero di soggetti - numero di gruppi = 6 - 2 = 4 (g.d.l. al denominatore). 84 Sulla tavola di probabilità di F, all'incrocio tra 1 g.d.l. al numeratore e 4 g.l. al denominatore, troviamo: F(1, 4) = 7,71 per α = 0.05, F(1, 4) = 21.20 per α = 0.01. Per α = 0.05 (L.C. 95%; 1 e 4 g.l.) le tabelle dell’F danno F = 7.71 Il F calcolato ( = 6) è minore di quello tabulato (=7.71) per cui si accetta l’ipotesi nulla (H0) e si rigetta l’ipotesi alternativa Ha. Ovvero le due medie non sono statisticamente differenti Output da MINITAB Analysis of Variance Source DF SS Factor 1 6,00 Error 4 4,00 Total 5 10,00 Level A B N 3 3 Mean 3,000 5,000 MS 6,00 1,00 StDev 1,000 1,000 85 F 6,00 P 0,070 Uso delle tavole di F Le tavole di F sono a doppia entrata: margine orizzontale (superiore) riporta i g.l. del numeratore margine verticale (laterale) riporta i g.l. del denominatore Nell’esempio precedente: g.l. per il numeratore = 1 g.l. per il denominatore = 4 per 1 e 4 g.l. e per un livello di α = 0.05 F tabulato = 7,71 per 1 e 4 g.l. e per un livello di α = 0.01 F tabulato = 21,20 86 Lezione n. 6 TEORIA DELLA REGRESSIONE 1. La regressione La regressione studia le modalità di interpretazione di insiemi di dati legati fra di loro da vincoli di causalità. Ad esempio, è noto che l’ingestione alimentare in sostanza secca di un animale dipende (I espressa in kg) dal suo peso corporeo (PC). Il fenomeno quantitativo studiato (variabile dipendente) può essere collegato ad una sola causa (variabile indipendente) espressa in termini lineari (regressione lineare semplice). L’insieme delle osservazioni sull’ingestione (variabile dipendente) può essere convenientemente espresso in funzione del peso corporeo (variabile indipendente) con una relazione del tipo: [1] I = a + bPC in cui a e b sono i parametri dell’equazione Lo stesso fenomeno può, però, essere interpretabile in termini esponenziali, linearizzabili o meno (regressione non lineare) L’insieme dei dati sull’ingestione rilevati su differenti specie è legato al peso corporeo elevato alla potenza 0,75 per cui la relazione è: [2] I = a + bPC0,75 linearizzabile elevando tutti i valori osservati del PC alla 0,75. Altri fenomeni possono convenientemente essere espressi in termini polinomiali (anche essi linearizzabili o meno). L’ingestione può essere determinata oltre che da una componente lineare del peso anche da una quadratica, per cui l’equazione è del tipo: 87 [3] I = a + bPC + cPC2 In tutti i casi la curva che interpreta questo insieme biunivoco di dati giace su un piano cartesiano. Nel caso in cui invece il fenomeno quantitativo dipenda da più variabili indipendenti, esso può essere epresso in termini di regressione multipla rappresentabile in uno spazio a tre dimensioni (nel caso di sue sole variabili indipendenti) o in un iperspazio a n dimensioni (nel caso di n variabili indipendenti). Ad esempio, l’ingestione alimentare negli animali in lattazione dipende oltre che dal peso corporeo anche dalla produzione di latte (L) e dal contenuto in proteina degli alimenti PG) ed è rappresentabile con la relazione (nello spazio quadridimensionale): [4] I = a + b1PC + b2L + b3PG Un caso di equazione linearizzabile è quella di Wood che descrive la curva di lattazione: [5 ] L(t) = atb e-ct che può essere espressa in forma logaritmica come: [6] logL = loga + blogt - ct Lo stesso fenomeno può anche essere descritto con una equazione non lineare secondo un modello biesponenziale del tipo: [7] L = A-k1t + B-k2t In questo modulo tratteremo in particolare della regressione lineare semplice e multipla. Studieremo l’adattamento del modello ai dati sperimentali secondo il metodo dei minimi quadrati , valuteremo la precisione della stima e la bontà del modello matematico impiegato. 88 Un pò di storia. Si è discusso a lungo su chi abbia per primo scoperto il metodo dei minimi quadrati. Sembrerebbe che questo sia stato messo a punto simultaneamente ed indipendentemente da Carl Fiedrich Gauss (1777-1855) e da Andrè Marie Legendre (1752-1833), ma che Gauss lo abbia utilizzato per primo nel 1803 anche se la prima pubblicazione di Legendre è del 1805. Quando nel 1809 Gauss scrisse che egli utilizzava il metodo già dal 1795, nacque la controversia. 89 2 La regressione lineare semplice Prendiamo in esame questo data set ricavato da una prova sperimentale su pecore Sarde in asciutta. Peso (kg) 45,0 44,0 35,0 41,0 42,0 43,4 46,9 45,2 39,8 50,1 49,2 45,3 46,2 44,2 41,2 52,1 47,7 48,2 38,1 49,0 Ingestione (kg) 1,189 1,151 0,915 0,944 1,127 1,031 1,223 1,129 0,888 1,193 1,194 1,095 1,146 1,189 1,045 1,308 1,185 1,202 0,843 1,270 Il fenomeno può essere rappresentato in un piano cartesiano. L’equazione in grado di interpretare l’andamento è una retta del tipo [8] Yi = β0 + βiXi + εi 90 Il miglior luogo dei punti capace di descrivere il fenomeno è quello che minimizza le distanze al quadrato da ciascun punto sperimentale (lettura facoltativa) n [9] S = ∑ εi2 = i =1 n ∑ (Yi - β0 - β1 Xi)2 i =1 Occorre stimare i valori di b0 e di b1 che sostituiti ai beta producano il minor valore possibile di S. Inizialmente differenziamo l’equazione [9] rispetto a ciascun β e poniamo il risultato uguale a zero (troviamo cioè il minimo delle funzioni, nello stesso modo in cui si trova un minimo relativo di una qualsiasi equazione, prima derivando e poi ponendo la derivata uguale a zero): n [10] δS/δβ0 = -2 ∑ ( Yi - β0 - β1 Xi) i =1 n [11] δS/δβ1 = -2 ∑ Xi( Yi - β0 - β1 Xi) i =1 per cui le stime di b0 e di b1 sono date dalle n [12] ∑ ( Yi - b0 - b1 Xi) = 0 i =1 n [13] ∑ Xi( Yi - b0 - b1 Xi) = 0 i =1 che riarrangiate diventano n [14] ∑ i =1 n Yi – nb0 - b1 ∑ Xi = 0 i =1 91 n [15] ∑ n n i =1 i =1 XiYi – b0 ∑ Xi – b1 ∑ Xi2 = 0 i =1 oppure n ∑ n n n i =1 i =1 i =1 [15] n nb0 + b1 ∑ Xi = [14] b0 ∑ Xi + b1 ∑ Xi2 = Yi i =1 ∑ XiYi i =1 Queste ultime sono chiamate equazioni normali (Lettura obbligata) La soluzione delle equazioni normali per la pendenza (b1) della retta è data dalla relazione [16] b1 = ΣXiYi − [(ΣXi )(ΣYi )] / n ΣXi 2 − (ΣXi ) 2 / n = SXY/SXX ovvero, il valore della pendenza della retta è dato dal rapporto fra la codevianza fra le variabili e la devianza della variabile indipendente Ora è possibile calcolare il valore di b0 che è uguale a [17] b0 = Ym − b1 Xm dove Ym è la media delle Y e Xm è la media delle X In pratica, i valori della b0 e della b1 si calcolano nel seguente modo con Excell: a) si moltiplicano ciascuna y per la rispettiva x; b) si fa la somma dei prodotti; c) si sottrae la il prodotto della somma delle x e delle y diviso n; 92 d) si divide la codevianza così ottenuta per la devianza delle x calcolata come sappiamo. Un volta applicata la formula [16] calcoliamo il valore di b0 applicando l’equazione ai valori medi della x e della y. 93 relazione fra ingestione e peso corporeo in pecore y = 0,027x - 0,0934 Sarde 2 R = 0,7998 1,35 Ingestione in kg 1,3 1,25 1,2 1,15 1,1 1,05 1 40 42 44 46 48 50 52 54 Peso in kg L’equazione y = 0,093 + 0,027 stima che l’ingestione alimentare nel campione di pecore considerato aumenti di circa 27 grammi per ogni aumento di un kg di peso nelle pecore. 3. La valutazione delle regressione stimata La valutazione della regressione stimata si attua con l’uso di 3 procedure: 1. il valore del coefficiente di determinazione R2; 2. il test F che deriva dall’analisi della varianza 3. il test t che si applica ai parametri; L’analisi della varianza. Ogni dato Yi ottenuto da una qualsiasi Xi può essere considerato composto da due frazioni: la prima costituita dalla differenza fra il valore stimato dalla regressione Yis e quello medio delle Ym; la seconda dalla differenza fra il valore reale Yi e quello stimato dalla regressione Yis 94 [18] (Yi – Ym) = (Yis – Ym) + (Yi – Yis) da cui discende la somma dei quadrati [19] Σ(Yi – Ym)2 = Σ(Yis – Ym)2 + Σ(Yi – Yis)2 che significa: somma dei quadrati delle deviazioni dalla media = somma dei quadrati dovuta alla regressione + somma dei quadrati delle deviazioni dalla regressione (o errore) L’entità della variabilità spiegata dalla regressione Si utilizza il coefficiente R2 = (SS dovuta alla regressione)/(SS deviazioni dalla media) [20] Σ(Yis – Ym)2/Σ(Yi- Ym)2 che può variare fra 0 e 1. 95 R2 misura la “proporzione della variazione totale intorno alla media che è spiegata dalla regressione” La radice quadrata R è, in questo caso, il coefficiente di correlazione (r) variabile fra –1 e +1. Analisi della varianza Ad ogni somma di quadrati in statistica è associata una misura dei gradi libertà; ciò che si ottiene è una stima della varianza. [21] SS/df = E(V) La tavola dell’ANOVA della regressione può essere costruita come segue Fonte Regressione gradi di libertà df 1 somma quadrati SS Varianza MS Σ (Yis _- Ym)2 MS regr Residua n-2 Σ (Yi – Yis)2 Totale n-1 Σ (Yi – Ym)2 s2 Il coefficiente F di Fisher misura l’entità della varianza spiegata su quella residua = MSregr/s2 e va confrontato sulle apposite tabelle. 96 Nel nostro caso l’output di MINITAB è il seguente: Regression Analysis The regression equation is Ingestione (kg) (Y) = - 0,093 + 0,0270 Peso (kg) (X) Predictor Constant Peso (kg Coef -0,0934 0,027009 S = 0,05951 StDev 0,1429 0,003185 R-Sq = 80,0% T -0,65 8,48 P 0,522 0,000 R-Sq(adj) = 78,9% Analysis of Variance Source Regression Residual Error Total DF 1 18 19 SS 0,25459 0,06374 0,31834 MS 0,25459 0,00354 F 71,89 P 0,000 I risultati mostrano che l’equazione da noi calcolata con excell è giusta. Poiché i valori dei parametri b0 (indicato con constant) e b1 (indicato con peso kg) sono campionari, cioè sono una stima dei parametri veri della popolazione della popolazione, essi avranno una variabilità. La variabilità dei parametri campionari della regressione va letta analogamente alla variabilità della media campionaria delle statistiche univariate. Se infatti calcolassimo tutte le possibili regressioni campionarie di campioni estratti dalla popolazione avremo che l’insieme dei valori di b0 e b1 coswtituiscono una variabile distribuita normalmente con la media che coincide con il valore vero dei parametri della regressione calcolata sull’intera popolazione. Come sarà meglio illustrato teoricamente in seguito, la deviazione standard dei parametri si impiega per calcolare l’intervallo di confidenza degli stessi con il test t. Se in tale intervallo è compreso lo zero, affermiamo che il parametro stimato non differisce significativamente da zero, altrimenti possiamo affermare che il parametro esiste nella popolazione e che il valore calcolato ne è una stima. Nel nostro caso possiamo vedere che il parametro b0 ha un P=0,522 per cui non è significativamente diverso da zero, mentre quello b1 ha un P=0,000 per cui è diverso da zero. L’analisi statistica ci dice ciò che 97 biologicamente ha un senso. A peso corporeo zero non c’è ingestione, mentre al crescere del peso l’ingestione aumenta,.come abbiamo visto, di 27 grammi si sostanza secca per ogni kg in più. Questa equazione pertanto può risultare molto utile per prevedere l’ingestione di pecore Sarde una volta conosciuto il peso degli animali. Il valore di R2 è dell’80%: tale dato ci informa che l’80% di tutta la variabilità dell’ingestione può essere spiegato dal peso corporeo delle pecore. Detto in altro modo, la conoscenza del peso corporeo delle pecore riduce la variabilità dell’ingestione al solo 20% che rappresenta la variabilità residua non spiegata dal modello. L’ANOVE infine ci informa che la varianza spiegata dalla regressione non molto maggiore di quella residua (il P dell’F di Fisher è inferiore al 5%), per cui la regressione esiste e il modo con cui i dati si sono disposti nel piano cartesiano non è casuale, ma è dovuto ad una ragione: gli animali più pesanti tendono a mangiare di più. 4. Regressione e correlazione Il coefficiente di correlazione misura l’entità della variazione comune fra due variabili (covarianza) sulla variabilità complessiva (prodotto delle deviazioni standard); sarebbe: [21] r YX= cov(YX)/(dsY * dsX) Esso stima la forza con cui due variabili sono legate fra di loro linearmente e varia da –1 a + 1. Se il valore di r >0 la correlazione è positiva /le due variabili crescono nello stesso senso); se r<0 la correlazione è negativa (al crescere di una variabile, l’altra diminuisce). Prendiamo in esame questi dati riferiti alla produzione di latte di pecore Sarde che ingerivano razioni a diverso contenuto in proteina grezza (PG) e in fibra (NDF) sulla sostanza secca della razione. PG in % ss NDF in % ss latte in kg 13,63 42,92 1,11 13,79 42,92 1,21 15,07 43,11 1,32 16,45 40,06 1,34 98 PG in % ss NDF in % ss latte in kg 15,25 45,04 1,39 18,50 60,72 0,51 18,01 48,60 0,73 21,14 60,72 0,73 20,65 51,42 0,78 19,98 45,21 0,76 13,11 35,00 0,70 13,30 34,22 0,59 13,20 34,62 0,92 12,86 35,77 0,47 12,74 38,50 0,48 13,47 34,50 0,92 12,54 37,64 0,48 16,57 36,50 1,16 12,22 62,74 0,17 12,05 58,24 0,17 11,88 53,54 0,27 13,44 57,00 0,49 15,10 49,60 0,73 16,53 43,33 0,77 10,50 51,53 0,55 11,47 48,45 0,58 12,59 31,13 0,47 15,00 46,02 1,12 20,17 42,95 1,15 20,41 43,10 1,04 13,93 37,88 0,94 14,63 34,80 0,86 14,70 34,48 0,87 15,45 31,15 1,01 11,45 43,86 1,30 13,40 36,92 1,42 14,32 40,92 0,48 14,17 43,21 0,64 17,48 40,52 0,85 16,91 42,27 0,84 13,95 18,05 0,89 16,10 61,00 0,70 15,00 61,00 0,76 12,30 61,00 0,89 16,10 61,00 0,97 16,10 61,00 1,14 16,10 61,00 1,06 16,10 61,00 1,25 15,00 61,00 1,21 15,00 61,00 1,24 20,42 43,08 0,89 17,51 38,00 0,98 17,49 38,00 1,57 17,50 38,00 1,59 9,78 44,06 0,87 11,80 60,34 0,84 21,35 33,10 1,07 21,24 34,20 1,11 15,24 46,78 0,44 99 PG in % ss NDF in % ss latte in kg 15,66 45,57 0,45 16,30 44,22 0,47 16,46 39,68 0,43 18,16 44,66 0,81 18,62 47,11 0,76 17,22 39,90 0,79 16,70 34,70 1,67 6,26 55,20 0,45 8,71 49,70 0,49 6,52 64,20 0,55 7,94 54,20 0,72 18,06 35,53 1,24 18,06 35,53 1,09 15,97 38,17 2,03 13,56 37,03 1,03 12,91 39,99 0,69 10,50 50,93 0,55 11,47 51,07 0,58 15,96 42,03 1,10 16,47 52,00 1,10 16,60 46,71 0,63 16,35 54,61 0,76 15,02 27,50 2,45 15,04 28,70 2,42 15,08 28,80 2,67 13,49 29,80 1,97 13,51 30,60 2,01 13,48 30,80 2,03 18,67 25,28 3,19 16,94 25,42 3,53 20,95 37,68 1,10 Vogliamo vedere come le tre variabili sono legate fra loro e calcoliamo i valori di r con MINITAB Correlations (Pearson) PG in % NDF in % NDF in % -0,183 0,083 latte in 0,244 0,021 -0,505 0,000 100 L’output del computer ci mostra che la PG è correlata negativamente con l’NDF e positivamente con il latte; mentre latte e NDF sono correlati negativamente. In sintesi, all’aumentare della PG diminuisce la fibra ed aumenta il latte, mentre all’aumentare della fibra il latte si riduce. Anche in questo caso dobbiamo stare attenti che il valore del coefficiente di regressione lineare è campionario ed è una stima del vero valore ρ sconosciuto della popolazione. Il numero che sta sotto il coefficiente di regressione campionario è la probabilità (P) che il valore stimato sia diverso da zero. Nel nostro caso il valore della correlazione fra proteine e fibra ha un P superiore al 5%, per cui respingiamo l’ipotesi alternativa che esso sia, nella popolazione, diverso da zero e concludiamo che non esiste correlazione fra le due variabili. Nel secondo (Latte e PG) e terzo (latte e NDF) invece il valore è inferiore al 5% per cui concludiamo che una correlazione esiste anche nella popolazione e che il valore da noi trovato ne è una stima. Quando un valore del coefficiente è da considerarsi elevato? In genere non esiste un sistema se non arbitrario. Normalmente si dice che la correlazione è: a) molto bassa se r < 0,20 in valore assoluto; b) bassa se 0,20<r<0,40; c) media se 0,40<r<0,60; d) alta se 0,60<r<0,80; e) molto alta se r>0,80. Un errore, purtroppo molto comune, da evitare è affermare che una correlazione è statisticamente significativa (intendendosi che è buona e alta) anche con valori molto bassi del coefficiente se esso è significativamente diverso da zero. Ripeto: il valore di P ci informa soltanto se la correlazione esiste, ma non significa che essa sia alta. E’ possibile vedere che i coefficienti di correlazione e di regressione sono fera loro apparentati. Infatti, ricordando che il coefficiente b1 = cov(YX)/V(X), si ottiene [22] b1 = (dsY/dsX)*rYX 101 Test dei parametri Per valutare se i parametri sono significativamente diversi da zero, si applica un particolare test t. • caso del parametro b1 [23] t = b1/ ds(b1) dove ds(b1) = radice quadrata[varianza residua/somma delle deviazioni quadrate delle X] = s/[Σ(Xi –Xm)2]1/2 • caso del parametro b0 la formula è un pò più complicata: [24] t =b0/ [ΣXi2/nΣ(Xi – Xm)2]1/2 * s Analizziamo un momento queste due formule. Al denominatore della [23] compare la ds-residua (cioè la radice quadrata della varianza residua) delle y divisa per la radice quadrata della devianza delle x. Ora, a parità di valore di s, minore è la devianza delle x, maggiore è la varianza del parametro b1. In pratica significa che l’addensamento dei valori delle x intorno alla media è un fattore inflativo della varianza del parametro. 102 Il ragionamento per la [24] è analogo, in quanto la devianza è sempre al denominatore del denominatore. La deviazione standard dell’Y. E’ un parametro che consente di calcolare l’intervallo di confidenza dell’intera regressione. [25] s.d. (y) = s[1/n + (x0 – xm)2/Σ(xi – xm)2]1/2 dove x0 è un valore qualsiasi ed s è la deviazione standard residua. Il valore è minimo quando x0 = xm e rappresenta di fatto l’errore standard della media della y e cresce con l’allontanarsi di x0 dalla propria media. Ciò significa che più ci si allontana dalla media maggiore è l’errore che ci aspettiamo nel predire i valori delle y. 103 5. Richiami di algebra matriciale e il suo impiego nella regressione (facoltativo) Una matrice è un insieme ordinato di numeri. Consideriamo queste osservazioni sperimentali riferite ad un campione di pecore da latte di razza Sarda. Ingestione Peso ProdLatte 2,838 45,0 2,514 44,0 2,146 35,0 2,205 41,0 2,847 42,0 3,086 43,4 2,504 46,9 2,726 45,2 2,252 39,8 3,176 50,1 2,974 49,2 2,743 45,3 2,951 46,2 2,347 44,2 2,300 41,2 3,187 52,1 3,148 47,7 2,792 48,2 2,243 38,1 2,409 49,0 1,7 1,4 1,2 1 2 2,1 1,2 1,5 1,2 2,2 1,9 1,5 2 1,2 1,24 2,05 2,11 1,75 1,1 0,9 Possiamo scrivere questo insieme di numeri sotto forma di matrice 104 M= 2,838 2,514 2,146 2,205 2,847 3,086 2,504 2,726 2,252 3,176 2,974 2,743 2,951 2,347 2,300 3,187 3,148 2,792 2,243 2,409 45,0 44,0 35,0 41,0 42,0 43,4 46,9 45,2 39,8 50,1 49,2 45,3 46,2 44,2 41,2 52,1 47,7 48,2 38,1 49,0 1,7 1,4 1,2 1 2 2,1 1,2 1,5 1,2 2,2 1,9 1,5 2 1,2 1,24 2,05 2,11 1,75 1,1 0,9 Le osservazioni sono gli elementi della matrice, le righe e le colonne sono l’ordine della matrice. M è di ordine 20x3. Consideriamo le prime 3 righe, per cui M(3x3) diventa 2,838 2,514 2,146 45,0 44,0 35,0 1,7 1,4 1,2 e sviluppiamo gli esempi su questo sub-set di dati. Un vettore è una matrice costituita da una sola riga o da una sola colonna x= 45,0 x’ = 45,0 44,0 35,0 105 44,0 35,0 x’ è la trasposta della matrice x. La trasposta di M è M’ = 2,838 2,514 2,146 45,0 44,0 35,0 1,7 1,4 1,2 una matrice cioè in cui gli elementi di una riga diventano elementi di una colonna Uno scalare è un singolo numero, come 4, 12 oppure 0,12. Addizione Questa operazione è possibile con matrici dello stesso ordine e si effettua sommando (algebricamente) gli elementi omologhi (stessa riga e stessa colonna) A= 1 2 B= 4 5 3 4 6 7 C=A+B=5 7 9 11 Moltiplicazione Un matrice moltiplicata per uno scalare è una matrice con ciascun elemento moltiplicato per lo scalare 106 3 x A = 3x1 3x2 = 3x3 3x4 3 6 9 12 La moltiplicazione fra due matrici è possibile se le colonne della prima sono uguali alle righe della seconda ed ha ordine uguale alle righe della prima ed alle colonne della seconda Z(10x3) x W(3x5) = U(10x5) Ciascun elemento della matrice prodotto è ottenuto dalla somma dei prodotti degli elementi delle righe della prima matrice e delle colonne omologhe della seconda matrice AxB= 1 2 3 4 x 4 5 = 1(4)+2(6) 1(5)+2(7) = 16 19 6 7 3(4)+4(6) 3(5)+4(7) 36 43 La trasposta del prodotto di due matrici è la trasposta del prodotto delle due matrici in ordine inverso (AxB)’ = B’ x A’ Determianti Il determinante di una matrice è uno scalare ed esiste solo per le matrici quadrate (stesso numero di righe e di colonne) 107 La conoscenza del determinante è importante per l’ottenimento della matrice inversa. Se il determinate è nullo (= 0), la matrice non è invertibile. Inversa L’inversa di una matrice (M-1) è l’analogo del reciproco in algebra scalare ed è indispensabile per le operazioni di divisione. s = 4; reciproco di s-1 = ¼, per cui s x s-1 = 1 M x M-1 = I in cui I è la matrice identità, una matrice con gli elementi della diagonale principale uguali a 1 e tutti gli altri zero I (3x3) = 1 0 0 0 1 0 0 0 1 Il calcolo dell’inversa (se esiste) è laborioso per matrici di ordine superiore al terzo, ma può essere agevolmente ottenuto da una routine di computer Il determinante è nullo se una riga o una colonna sono la combinazione lineare di altre righe o colonne. Il rango della matrice è il numero di linee e di colonne linearmente indipendenti. La matrice è detta di pieno rango se tutte le righe e le colonne sono linearmente indipendenti. 108 Se non esiste una inversa per una matrice di rango pieno (il determinante è nullo), possono essere trovate inverse di tango inferiore che sono dette inverse generalizzate; se A- è l’inversa generalizzata di A, è soddisfatta la relazione A A- A = A Anche in questo caso è opportuno ricorrere all’uso di un software per l’identificazione della ginversa. In statistica una matrice speciale è A = X’X che è sempre simmetrica, cioè gli elementi sopra e sotto la diagonale sono simmetricamente uguali. Nel caso dei nostri dati sperimentali si ha: 143,0 2390,8 85,6 2390,8 40275,1 1414,1 85,6 1414,1 52,2 L’uso dell’algebra matriciale nella regressione lineare Definiamo Y il vettore delle osservazioni, X la matrice delle variabili indipendenti, β il vettore dei parametri da stimare, ε il vettore degli errori, 1 vettore colonna di 1. 109 Nel nostro caso avremo Y= 1,189 1 45,0 1,151 1 44,0 0,915 1 35,0 X= ...... ..... ...... ..... 1,270 1 β= β0 ε = ε1 β1 ε2 ε3 ε20 49,0 L’equazione può essere scritta in forma matriciale nel modo seguente [26] Y = Xβ + ε che significa che [27] 1,189 = β0 + 45,0β1 + ε1 1,151 = β0 + 44,0β1 + ε2 0,915 = β0 + 35,0β1 + ε3 .......................................... 1,270 = β0 + 49,0β1 + ε20 110 Dobbiamo trovare i valori incogniti β0 e β1 con la relazione dei minimi quadrati che si ottiene ponendo la matrice ε’ε= min in questo modo: 1) si presuppone che E(ε)=0 e che V(ε)=Iσ2 (il che significa che gli errori sono indipendenti cioè non correlati) 2) E(Y) = Xβ, per cui ε’ε= (Y - Xβ)’(Y - Xβ) 3) minimizzare la matrice somma degli scarti significa differenziare separatamente ε’ε rispetto ad ogni elemento di β messo in ordine e scrivere le derivate riarrangiate in forma di matrice; 4) il risultato ottenuto è l’equazione normale dei minimi quadrati: [28] X’Xb = X’Y Se X’X è non singolare (cioè se nessuna equazione normale dipende da qualche altra), può essere invertita e la soluzione si trova dividendo per X’X i due membri dell’equazione [28] 111 (X’X)-1(X’X)b = (X’X)-1X’Y per ottenere una importantissima relazione: ogni regressione lineare normale può essere scritta in questa forma [29] b = (X’X)-1X’Y dove b è il vettore colonna delle soluzioni (2,1, nel caso di regressione lineare semplice, k,1 negli altri casi, in cui k è il numero di regressori). Il vettore soluzione b gode delle seguenti proprietà: 1) è una stima di β che minimizza il quadrato della somma degli errori indifferentemente alla loro distribuzione; 2) gli elementi di b sono funzioni lineari delle osservazioni (y) e forniscono un stima non distorta degli elementi di β con la varianza minima 3) se gli errori sono indipendenti, b è la stima di massima verosimiglianza di β. 112 La potenza della relazione [29] risiede nella possibilità di applicazione alla regressione lineare multipla. Consideriamo il data set relativo all’ingestione alimentare in funzione del peso e della produzione del latte. Le variabili indipendenti sono due, per cui i coefficienti di regressione da calcolare sono 3 (b0 , b1 e b2), per cui la relazione [27] diventa 2,838 = β0 + 45,0β1 + 1,7β2 + ε1 [30] 2,514 = β0 + 44,0β1 + 1,4β2 + ε2 2,146 = β0 + 35,0β1 + 1,2β2 + ε3 ....................................................... 2,409 = β0 + 49,0β1 + 0,9β2 + ε30 La soluzione è ottenibile con la relazione [29] tenuto conto che la matrice X ha la forma X= 1 2,838 45,0 1,7 1 2,514 44,0 1,4 1 2,146 35,0 1,2 ........................................ 1 2,409 49,0 0,9 113 Il vettore degli Y è ottenibile tramite la relazione [31] Y = Xb per cui il vettore degli errori è ricavato dalla ε = Y - Y Analisi della varianza della regressione Analogamente a quanto ottenuto con il calcolo scalare è possibile effettuare l’ANOVA con le matrici con il prospetto seguente (k = numero di regressori) Fonte gradi di libertà df somma quadrati SS Varianza MS MS regr Regressione k-1 b’X’Y – nY2 Residua n-k Y’Y – b’X’Y Totale n-1 Y’Y – nY2 114 s2 Il coefficiente di determinazione (che rappresenta il quadrato della correlazione fra Y e Y) è calcolabile con la seguente relazione [32] R2 = (b’X’Y – nY2)/(Y’Y – nY2) Impiego della regressione lineare multipla per funzioni linearizzabili Le equazioni linearizzabili sono quelle trasformabili in equazioni lineari multiple. Ad esempio, il polinomio di secondo grado y = a + bx + cx2 è calcolabile con la tecnica della regressione multipla ponendo x2= z per cui la funzione diventa y = a + bx + cz. Una funzione “interessante” che può essere linearizzata è quella proposta da Wood per la descrizione della la curva di lattazione [33] y = axbexp(-cx) in cui y è la produzione di latte al tempo x e a,b,c sono i parametri dell’equazione. Se si passa ai logaritmi, la [33] può essere scritta nel modo seguente [34] log y = log a + b log x - cx. 115 Ponendo log y = Y, log a = A, log x = z, l’equazione [34] diventa la funzione lineare multipla [35] Y = A + bz + cx che consente la stima diretta dei parametri b e c e quella di a = eA La migliore regressione Il ricercatore è mosso da due esigenze: 1) avere la migliore equazione per gli scopi esplicativi e predittivi con tutte le variabili significative incluse nel modello; 2) avere un modello con il minor numero possibile di variabili (economicità dei rilievi). I problemi che dobbiamo affrontare sono: 1) l’interpretazione delle statistiche (R2, valori di b, valori dell’F di Fisher); 2) la selezione della migliore equazione fra quelle disponibili e la correttezza del modello utilizzato; 3) la correlazione fra le variabili indipendenti (multicollinearità). a) L’interpretazione delle statistiche (ovvero le TRAPPOLE della correlazione) 116 La bontà di una regressione è spesso stimata dal valore del coefficiente di determinazione R2 . Il reale significato di questa statistica è quello di misurare l’utilità dei termini presenti nell’equazione al di là del termine b0. L’incremento del valore di R2 è ottenibile semplicemente inserendo nuovi termini al modello (questo è particolarmente pericoloso con osservazioni ripetute!!) I singoli valori dei coefficienti del vettore b possono essere valutati con l’impiego del test t (H0 = bj = 0). Si costruisce la matrice di varianze e covarianze di b V(b) = (X’X)-1σ2 in cui il valore della varianza può essere sostituito dalla sua stima s2 (se non c’è lack of fit) La diagonale della matrice risultante contiene i valori delle varianze dei parametri che elevate a ½ (cioè ridotte alla deviazione standard) possono essere utilizzate nel test t = bj/ds(bj) Un altro aspetto legato ai singoli regressori riguarda l’assorbimento dei quadrati (extra sum of squares). Ciascuna somma di quadrati è fornita in funzione dell’ordine in cui sono elencate le variabili x e la somma è uguale alla MSregr. 117 Il significato è quello di verificare l’apporto della nuova variabile introdotta alla riduzione dei residui quadrati. Il test parziale F misura la significatività dell’introduzione della nuova variabile nella regressione b) La selezione della migliore regressione Esistono molti criteri per selezionare la migliore regressione. a) l’uso della statistica R2 con l’inserimento delle variabili e la verifica dell’aumento del suo valore (attenzione alla trappola n. 1) b) l’uso della statistica Cp di Mallows data dalla relazione Cp = RSSp/s2-(n-2p) in cui RSSp è la somma dei quadrati residui del modello con p parametri (incluso il b0) e s2 è la somma dei quadrati residua del modello con il maggior numero di parametri. Il valore di Cp tende al valore di p, per cui la migliore regressione (eccetto quella completa in cui ovviamente Cp=p) è quella in cui tale circostanza è verificata. Una procedura che unisce i due criteri suesposti è la “Best Subset Regression” che sceglie, fra quelle possibili, le equazioni con il massimo R2 e il Cp più vicino al valore di p. c) una procedura molto popolare è la regressione della “Stepwise” che consiste nell’inserimento delle variabili “a turno” finchè non si ottiene una equazione soddisfacente. 118 L’ordine di inserimento delle variabili è determinato dai coefficienti di correlazione parziale che misurano l’importanza delle variabili che non sono ancora state inserite nella regressione. Un aspetto particolare riguarda la distorsione del modello utilizzato. La validità del modello può essere testata con il lack of fit (LOF-test) applicabile soltanto se nel data-set sono presenti dati ripetuti per alcuni valori di y. d) La multicollienarità La correlazione fra le variabili indipendenti comporta: a) un valore dei singoli coefficienti differente se inseriti singolarmente o simultaneamente nella regressione; b) l’attribuzione del significato biologico piuttosto complessa (a volte regressori palesemente positivi possono assumere valori negativi nei parametri) c) lo scarso peso informativo delle variabili aggiunte alla regressione; d) l’inflazione della varianza dei parametri che rende altamente instabile la regressione (ne mina alla base il suo potere predittivo); come conseguenza non esiste una somma di quadrati che possa essere attribuita univocamente ad un regressore. 119 Una procedura idonea per correggere la multicollinearità è la RIDGE-REGRESSION che consiste nell’introdurre in fattore deflattivo della varianza in modo da trovare una equazione subottimale ma che sia più robusta. 120