Fondamenti di statistica per il miglioramento genetico delle piante Antonio Di Matteo Università Federico II A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Definiamo la statistica Disciplina che ha come fine lo studio quantitativo e qualitativo di un particolare fenomeno in condizioni di non determinismo o incertezza ovvero di non completa conoscenza di esso o parte di esso. Essa: 1) studia come raccogliere i dati e come analizzarli per ottenere l'informazione che permetta di rispondere alle domande che ci poniamo; 2) studia i modi (descritti attraverso formule matematiche) in cui una realtà fenomenica - limitatamente ai fenomeni collettivi - può essere sintetizzata e quindi compresa; 3) consente di associare ad un’osservazione (ipotesi) la probabilità che essa sia reale (oppure non reale). La statistica è una metodologia la cui applicazione rappresenta l’essenza del metodo scientifico. Essa consiste, infatti, nello studiare un fenomeno a partire dall'osservazione e dall'analisi della realtà in modo intelligente e obiettivo. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Modulo 1 Disegno sperimentale, teoria dei campioni, livelli di misurazione e distribuzione delle variabili A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Terminologia Variabili: sono entità o fenomeni misurabili, controllabili o manipolabili nel nostro esperimento - Variabile indipendenti: sono variabili controllate nell’esperimento e quindi in un certo senso sono già date e fisse - Variabili dipendenti o di risposta: sono variabili misurate nell’esperimento Fattore: insieme di differenti trattamenti che definiscono una variabile indipendente Trattamento: qualunque condizione controllata nell’esperimento Varianti o livelli: differenti valori di una variabile indipendente Caso: insieme di osservazioni eseguite sulla stessa unità sperimentale Ripetizione o replica: esperimento o unità sperimentale completamente ripetuta Interazione: effetto di un fattore che dipende dal livello di un altro fattore Unità statistica: la più piccola parte dell’esperimento a cui viene applicato ciascun trattamento caso A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Tipologie di dati dati qualitativi variabili casuali dati quantitativi a) I dati qualitativi sono generati da risposte categoriali (es.: con un test sulla tossicità, le cavie muoiono o sopravvivono; con un farmaco, entro un tempo prefissato i pazienti guariscono o restano ammalati; con esperimenti sulle leggi dell’ereditarietà di Mendel, si possono ottenere fiori rossi o fiori bianchi). b) I dati quantitativi sono il risultato di risposte numeriche (es.: per un’analisi del dimorfismo animale, le dimensioni di organi o il peso di alcuni maschi e di alcune femmine). I dati quantitativi possono essere discreti o continui: i primi derivano da un conteggio (es.: quante foglie sono attaccate ad un ramoscello); i secondi da un processo di misurazione con uno strumento (es.: la lunghezza di un ramoscello; il peso una cavia; il tempo di reazione alla somministrazione di una sostanza tossica). A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Scale di misura Le misure possono essere raggruppate in 4 tipi di scale, che godono di proprietà formali differenti; di conseguenza, esse ammettono operazioni differenti. Nominale o classificatoria Scale di misura Ordinale o per ranghi Scala ad intervalli Scala di rapporti A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Scala nominale o classificatoria 80 60 40 20 0 rugoso liscio La scala nominale o classificatoria è il livello più basso di misurazione; viene utilizzata quando i risultati possono essere classificati o raggruppati in categorie qualitative, nominali, eventualmente identificati con simboli. I caratteri nominali, detti anche “sconnessi”, costituiscono variabili le cui modalità o attributi non assumono alcun ordine precostituito. Nella scala nominale, esiste una sola relazione, quella di identità: gli individui attribuiti a classi diverse sono tra loro differenti, mentre tutti quelli della stessa classe sono tra loro equivalenti, rispetto alla proprietà utilizzata nella classificazione. L’operazione ammessa è il conteggio degli individui o dei dati presenti in ogni categoria. I quesiti statistici che possono essere posti correttamente riguardano le frequenze, sia assolute che relative. Sono possibili confronti tra frequenze osservate (es.: Una classe è significativamente più numerosa dell’altra? Le varie classi hanno tutte lo stesso numero di individui, escludendo le variazioni casuali?) oppure tra le frequenze osservate e le rispettive frequenze attese sulla base di leggi biologiche, ipotesi od altro (es.: I risultati ottenuti da un esperimento sulle leggi di Mendel sono in accordo con la sua distribuzione teorica?). A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Scala ordinale o per ranghi La scala ordinale o per ranghi, rappresenta una misurazione che contiene una quantità di informazione immediatamente superiore a quella nominale, assumendo modalità logicamente sequenziali, non importa se in ordine crescente o decrescente; alla proprietà precedente di equivalenza tra gli individui della stessa classe, si aggiunge una gradazione tra le classi o tra individui con misure diverse. Con la scala per ranghi, le differenti classi possono essere ordinate sulla base dell’intensità del fenomeno. In una scala ordinale, non è possibile quantificare le differenze di intensità tra le osservazioni. Non è possibile valutare quanto sia la distanza tra insufficiente e sufficiente, oppure se sia inferiore o superiore alla distanza tra buono ed ottimo. Se per valutare i componenti di una classe, dopo aver calcolato un punteggio P in forma percentuale, se ne raggruppano i valori nei 5 intervalli A, B, C, D ed E la variabile “punteggio” ottenuta è una variabile ordinale. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Scala ad intervalli La scala ad intervalli alle due caratteristiche della scala ordinale aggiunge quella di misurare le distanze o differenze tra tutte le coppie di valori. La scala di intervalli si fonda su una misura oggettiva e costante, anche se il punto di origine e l'unità di misura sono arbitrari. Esempi classici di scale ad intervalli sono la temperatura (misurata in gradi Celsius o Fahrenheit) ed il tempo (misurato secondo calendari differenti). Valori di temperatura, oltre a poter essere facilmente ordinati secondo l’intensità del fenomeno, godono della proprietà che le differenze tra loro sono direttamente confrontabili e quantificabili; le date in un calendario gregoriano, islamico, ebraico o cinese possono essere tra loro ordinate dalla più antica a quella più recente e le differenze temporali sono misurate con precisione oggettiva. In una scala ad intervalli, solo le differenze tra i valori sono quantità continue ed isomorfiche alla struttura dell’insieme dei numeri reali. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Scala di rapporti La scala di rapporti ha il vantaggio di avere un’origine reale. Sono tipiche scale di rapporti l'altezza, la distanza, l'età, il peso, il reddito, più in generale tutte quelle misure in cui 0 (zero) significa quantità nulla. Non solo le differenze, ma gli stessi valori possono essere moltiplicati o divisi per quantità costanti, senza che l'informazione di maggiore importanza, il rapporto tra essi, ne risulti alterata. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Una corretta impostazione … Per condurre in modo corretto una ricerca scientifica ed applicare la metodologia statistica per la convalida delle ipotesi occorre seguire alcuni passaggi metodologici, riassumibili in 4 fasi: - il disegno sperimentale, - il campionamento, - la descrizione statistica, - la scelta dei test per l’inferenza. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Caratteri essenziali del disegno sperimentale - Replicazione - Randomizzazione - Blocking A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Replicazione o ripetizione Ripetizione o replica: ripetizione dell’unità statistica o dell’esperimento nel suo complesso. Spesso gli esperimenti sono disegnati per verificare l’effetto differenziale di un certo numero di trattamenti su un fenomeno di interesse. In tal caso, le unità dell’esperimento devono essere replicate in modo che il medesimo trattamento sia applicato a più campioni. Campo sperimentale per test resistenza al freddo in avena Più repliche si usano, più piccole sono le differenze che si possono apprezzare tra i trattamenti. In alcuni casi, può essere utile valutare la differenza tra i trattamenti in termini di variabilità generata e l’obiettivo può essere raggiunto solo utilizzando sufficienti repliche di ogni trattamento. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Randomizzazione Rendere casuale il disegno dell’esperimento ha lo scopo di garantire che non sia favorito alcuno dei trattamenti. Esempio 1 Supponiamo che si stia misurando il tempo di fioritura delle piante in un armadio di crescita. Se si dispongono i vasi in modo che tutte le piante di una varietà siano l’una accanto all'altra, e si scopre che una varietà fiorisce prima delle altre, significa che tale varietà è intrinsecamente precoce, o vuol dire che le condizioni di luce di quella parte dell’armadio anticipano la fioritura di qualsiasi varietà? L’esperimento non consentirà di discriminare le cause del fenomeno. Esempio 2 Supponiamo che si stia studiando la resistenza di un certo numero di varietà vegetali ad una malattia crittogamica. L'esperimento prevede che le piante siano disposte in modo che una varietà (A, per esempio) è sempre accanto ad un’altra (B). Le piante di entrambe le varietà risultano molto malate. Questo significa che entrambi sono sensibili, o che uno di loro è difatti più resistente, ma è stato infettato da un gran numero di spore provenienti dal suo vicino più sensibile? Anche in questo caso, nulla si può concludere in proposito. Distribuire casualmente i trattamenti nel tempo e/o nello spazio equivale ad una polizza assicurativa che tenga conto delle variazioni dovute a fattori casuali noti a prescindere o non affatto noti. Tali fattori sono definiti “Confoundings”. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Blocking Randomizzare i trattamenti tra le unità statitiche spesso comporta la creazione di gruppi di unità statistiche a cui si imponga il medesimo trattamento. Per esempio, nel caso di una randomizzata sequenza di genotipi di pianta (A-D) : BBDDCCCBDDAACABABDAC Si può notare che il genotipo A ha la tendenza a concentrarsi , solo per caso, verso la fine della sequenza. Un altro esempio consiste nella disposizione casuale di 4 genotipi di pianta sul banco di una serra: DABDB AACAD CDABD CCCBB Ancora una volta il genotipo C è concentrato sull’angolo in basso a sinistra. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Blocking Comunque, l’effetto raggruppamento può essere evitato fondamentalmente raggruppando le unità in blocchi. Tipicamente, in ciascun blocco viene assegnata una unità ad ogni trattamento ed i trattamenti sono randomizzati tra le unità nell’ambito del blocco. Il disegno che segue è analogo al precedente ma in questo caso i blocchi randomizzati sostituiscono il disegno completamente randomizzato: Blocchi: 1 DCAB 2 CBAD 3 DABC 4 ACDB 5 BDCA Blocchi: 1 2 3 4 5 DCDAB CBACD AABDC BDCBA I blocchi dovrebbero essere utilizzati per controllare fattori che potrebbero inficiare il risultato della prova, che siano o non siano noti a priori. Es.: - profilo stratigrafico, o fertilità, o livello di una falda superficiale, franco di coltivazione, etc.; - Il fattore tempo. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Blinding In un esperimento “cieco” l’operatore ignora a quale unità sono stati assegnati i differenti trattamenti. Analogamente, in un “doppio cieco” sia l’attore principale che le persone con cui questo interagisce ignorano i trattamenti. In un esperimento clinico che prevede la somministrazione di un trattamento a pazienti, il “doppio cieco” si concretizza nella somministrazione del trattamenti senza che medici e pazienti sappiano se il singolo paziente riceve il trattamento o appartiene al gruppo “controllo”. In generale, ricercatore e paziente tendono ad amplificare o a ridimensionare l’effetto del trattamento. Analogamente, un ricercatore che abbia sviluppato un pianta resistente ad un patogeno tenderà a sovrastimare la resistenza. Per tali ragioni occorrerebbe sempre utilizzare esperimenti “doppio cieco” quando possibile. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Il disegno sperimentale Il disegno sperimentale si prefigge di scegliere e programmare in funzione della ricerca e delle ipotesi esplicative le osservazioni in natura e le ripetizioni in laboratorio. Infatti, già nella programmazione dell'esperimento occorre avere chiara a priori la formulazione dell'ipotesi che si intende verificare, alternativa all'ipotesi nulla. Con essa si deve rispondere alle domande: “Le eventuali differenze riscontrate tra due o più gruppi di dati, oppure di una serie di osservazioni con quanto era atteso, possono essere imputabili a fattori causali specifici o solamente a fattori casuali ignoti?” E ancora “Le differenze riscontrate sono generate dalla naturale variabilità delle misure e del materiale utilizzato oppure probabilmente esiste una causa specifica che le ha determinate?” A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Il disegno completamente randomizzato E’ il più semplice dei disegni sperimentali. In tale disegno, ciascun trattamento presenta lo stesso numero di ripetizioni. La randomizzazione completa permette di stimare l’effetto medio dei trattamenti con alta precisione solo in assenza di fonti estranee di variabilità sistematica. c d c a d a b d b a c b Layout di un confronto varietale (4 varietà: a-d) secondo un disegno completamente randomizzato con 4 repliche. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Il disegno a blocchi completamente randomizzati Tale disegno può comprendere uno o più fattori di analisi (es. genotipo e livello di fertilizzazione). Tutti i trattamenti nel disegno ad un fattore, e le combinzioni di trattamenti in quelli a più fattori, sono rappresentati una volta in ciascun blocco. Questo è fondamentalmente il disegno più uilizzato e rappresenta il modo più semplice per controllare fonti estranee di variabilità sistematica. Layout di un confronto varietale (4 varietà: a-d) secondo un disegno a blocchi completamente randomizzati con 4 repliche. Blocco 1 c d b a Blocco 2 c b d a Blocco 3 a b d c Blocco 4 a d c b A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Disegno split plot In un disegno split plot, un fattore viene applicato ad ampie unità sperimentali che prendono il nome di “main-plot”, mentre il secondo fattore viene applicato ad unità più piccole che prendono il nome di “sub-plots”. Questo disegno viene convenientemente applicato nelle prove di resistenza ai patogeni delle varietà vegetali in cui varietà differenti di una specie vegetale sono allevate in “sub-plots” (e.g. vasi in serra o filari in campo) mentre differenti isolati fungini vengono applicati ai “main plots” (gruppi di vasi o file). Di seguito si riporta un disegno con 4 varietà vegetali (A-D) infettate con 3 isolati fungini (P-R) e l’esperimento è replicato in 2 blocchi. Block Main plot P 1 Q R P 2 Q R Sub-plot 1 Sub-plot 2 Sub-plot 3 Sub-plot 4 D C B A A D C B C A D B D A C B D B A C A C B D A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Il quadrato latino Questo disegno risulta particolarmente utile nel solo caso in cui sono note due sorgenti di variabilità sistematica. Un esempio riguarda le camere di crescita con le scaffalature. In tal caso le due sorgenti di variabilità sono rappresentate dall’altezza della mensola e dalla posizione lungo la mensola rispetto alle aperture, entrambe con un effetto significativo sul microclima delle colture in vitro ospitate. In un quadrato latino le unità sono disposte in quadrato ed ogni trattamento è presente una sola volta sia per riga che per colonna. Per esempio, con 4 varietà (A-D): BACD DCBA ABDC CDAB A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Il test statistico e le ipotesi Si tratta di un processo logico-matematico che, mediante il calcolo di probabilità specifiche, porta alla conclusione di non poter respingere oppure di respingere l'ipotesi della casualità. Chiamata ipotesi nulla ed indicata con H0, di norma tale ipotesi afferma che le differenze tra gruppi o le tendenze riscontrate siano imputabili essenzialmente al caso. Per giungere a queste conclusioni si deve ricorrere all’inferenza, che può essere definita come la capacità di trarre conclusioni generali (sulla popolazione od universo) utilizzando solo un numero limitato di dati variabili (campione). A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Inferenza e campionamento La statistica inferenziale,comprende l'insieme dei metodi con cui si possono elaborare i dati dei campioni per dedurne omogeneità o differenze nelle caratteristiche analizzate, al fine di estendere le conclusioni alla popolazione. Una condizione essenziale e preliminare all’uso dei metodi di statistica inferenziale è che il campione sia corretto, che non riporti in modo distorto od alterato la frequenza delle caratteristiche presenti nella popolazione. Il campionamento permette di raccogliere i dati in funzione dello scopo della ricerca, rispettando le caratteristiche della popolazione o universo dei dati. Il problema fondamentale della statistica è come raccogliere solamente un numero limitato di dati (per motivi di risparmio, di tempo, di dati effettivamente disponibili), ma attraverso la loro analisi pervenire ugualmente a conclusioni generali, che possano essere estese a tutta la popolazione. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Campionamento semplice con ripetizione semplice senza ripetizione sistematico stratificato probabilistici a scelta ragionata Campioni non probabilistici per quota tramite testimoni privilegiati A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Campionamento Campionamento probabilistico Il campione probabilistico è quel campione i cui risultati possono essere estesi con un certo livello di fiducia (detto anche livello di confidenza) alla popolazione. -Per campionamento casuale si intende un campionamento creato da un universo al cui interno ogni singola unità ha la stessa probabilità di un altra di essere estratta. Nel caso in cui ogni soggetto estratto non venga più reimmesso per le estrazioni successive, avremo un campionamento casuale semplice. - Nel caso del campionamento sistematico le unità sono estratte in maniera non casuale all’interno di singoli strati (non omogenei tra di loro per variabilità). - Se l'universo della ricerca non è omogeneo per avere una minor variabilità si può ricorrere al campionamento stratificato, combinando più campioni casuali semplici indipendenti e scelti in appropriate proporzioni, da strati omogenei, in una popolazione eterogenea. - Campionamento a grappoli. Si scelgono innanzi tutto delle unità primarie, nell'ambito di queste unità primarie si scelgono delle unità secondarie o di secondo stadio e così via fino a giungere alla unità statistica che l'indagine si prefigge di rilevare. Campionamento non probabilistico Campionamento a testimoni privilegiati. Quando si selezionano all'interno della popolazione gli elementi che il ricercatore ritiene rappresentativi per gli obiettivi della ricerca. Campionamento per quota. Dopo aver deciso quali strati possono essere rilevanti per l'indagine che si deve condurre, si stabilisce per ogni strato una quota proporzionata alla sua consistenza nella popolazione complessiva. Campionamento per scelta ragionata. Specificare tutte le dimensioni (variabili) oggetto della ricerca all'interno della popolazione. Definire una griglia tra queste dimensioni e fare in modo che per ogni possibile combinazione delle diverse dimensioni ci sia almeno un caso, in modo da non avere combinazioni non rappresentate. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Distribuzione Un insieme di misure è detto serie statistica o serie dei dati. Quando la serie non è ordinata, si ha un insieme disordinato di numeri che non evidenzia le caratteristiche fondamentali del fenomeno. Una sua prima ed elementare elaborazione può essere una distribuzione ordinata di tutti i valori, in modo crescente o decrescente, detta seriazione. Il valore minimo e il valore massimo insieme permettono di individuare immediatamente il campo (od intervallo) di variazione. Successivamente, la serie può essere raggruppata in classi, contando quanti valori od unità statistiche appartengono ad ogni gruppo o categoria. Si ottiene una distribuzione di frequenza o di intensità, detta anche semplicemente distribuzione. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Distribuzione Come prima applicazione, è utile considerare un caso semplice: una variabile discreta ottenuta da un conteggio del numero di foglie, germogliate su 45 giovani rami di lunghezza uguale. Il primo passaggio, quasi intuitivo in una distribuzione discreta, consiste nel definire le classi: - è sufficiente identificare il valore minimo (0, nei dati della tabella) e quello massimo (9); - contando quante volte compare ogni modalità di espressione (cioè quanti sono i rami con un numero di foglie uguali). La distribuzione di frequenza offre una lettura rapida delle caratteristiche più importanti della serie di dati. Le distribuzioni di frequenza tendono a mostrare la distribuzione reale del fenomeno solo quando è possibile utilizzare un numero sufficientemente elevato di osservazioni. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Classi di una distribuzione L’esperienza ha insegnato che il numero di classi abitualmente varia da un minimo di 4-5 (con N = 10-15) ad un massimo di 15-20 (con N > 100), in funzione del numero complessivo di osservazioni. Un numero troppo basso di classi, raggruppando eccessivamente i dati, determina una perdita di informazione sulle caratteristiche della distribuzione e la rende non significativa; è intuitivo che una o due sole classi determinano l’impossibilità di evidenziare qualunque caratteristica della distribuzione. Inversamente, ma con un risultato finale simile, un numero troppo elevato di classi disperde i valori e non rende manifesta la forma della distribuzione. Per stimare in modo oggettivo il numero di classi, sono stati proposti vari metodi; tra essi è utile ricordarne due: A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Classi di una distribuzione Rispetto all'elenco grezzo dei dati, la tabella di distribuzione delle frequenze fornisce in modo più chiaro le indicazioni elementari contenute, in particolare la loro - posizione o dimensione (già chiamata anche tendenza centrale) - la variabilità o dispersione. Per evidenziare sia queste che altre caratteristiche della distribuzione dei dati raccolti, sovente è di aiuto una rappresentazione grafica che mostra in modo sintetico soprattutto - la forma, come la simmetria e la curtosi, quando si tratti di grandi gruppi di dati. Indici: - posizione; - dispersione: - forma. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Tipologie di distribuzione binomiale uniforme multinomiale binomiale negativa poissoniana discrete ipergeometrica geometrica Distribuzioni continue di Pascal normale o di Gauss asintotiche A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 La distribuzione normale La più importante distribuzione continua è la curva normale. Il nome deriva dalla convinzione, non sempre corretta, che molti fenomeni, da quelli biologici e quelli fisici, normalmente si distribuiscano secondo la curva gaussiana. La sua denominazione di curva degli errori accidentali, diffusa soprattutto nelle discipline fisiche, deriva dall'osservazione sperimentale che la distribuzione degli errori, commessi quando si misura ripetutamente la stessa grandezza, è molto bene approssimata da tale curva. La distribuzione normale con media μ e varianza s2 è indicata con N(m, s); al variare di questi due parametri che la definiscono compiutamente, si possono avere infinite curve normali. Le caratteristiche più importanti della normale sono una frequenza relativamente più elevata dei valori centrali e frequenze progressivamente minori verso gli estremi. La funzione di densità è simmetrica rispetto alla media: cresce da zero fino alla media e poi decresce fino a +¥. Ha due flessi: il primo, ascendente, nel punto μ-s; il secondo, discendente, nel punto μ+s. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 La distribuzione normale A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 La distribuzione normale A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 La distribuzione normale Nella pratica statistica, le proprietà più utili della distribuzione normale non sono i rapporti tra ascissa ed ordinata, presentati in precedenza, ma le relazioni tra la distanza dalla media e la densità di probabilità sottesa dalla curva. In modo più semplice, è possibile definire quanti sono i dati compresi tra la media ed un determinato valore, misurando la distanza dalla media m in unità di deviazioni standard s. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Normalizzazione di una distribuzione non normale Quando i dati hanno una distribuzione differente dalla normale, spesso una semplice trasformazione conduce ad una distribuzione normale. E' il caso delle trasformazioni con la radice quadrata o cubica, oppure con il reciproco, l’elevamento a potenza o con i logaritmi. Il caso di trasformazione che ricorre forse con frequenza maggiore in biologia e nelle scienze è quella logaritmica X' = log X dove X' diviene una serie di valori distribuiti in buon accordo con la normale. Quando la distribuzione di una variabile X ha una forma simile a quella rappresentata nella precedente Figura, con la trasformazione logaritmica in X’ assume appunto una forma molto simile alla distribuzione normale. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 Verifica della normalità della distribuzione Per verificare la normalità della distribuzione di variabili continue può essere utilizzato il test di KolmogorovSmirnov con la correzione di Lillifors. L’ipotesi nulla è che la popolazione da cui è stato estratto il campione non sia troppo lontana dalla distribuzione di Gauss. Dopo aver calcolato la funzione di ripartizione della legge normale ridotta N(0,1) - si calcola la funzione cumulata delle probabilità - poi la cumulata delle frequenze relative del campione - quindi lo scarto massimo tra le due distribuzioni. Nella tavola dei quantili di Lillifors sono riportati i valori critici per ciascun valore di probabilità. Se lo scarto massimo calcolato è superiore a quello della tabella l’ipotesi nulla è rifiutata e la distribuzione è considerata non “normale”. A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 LE MISURE DI TENDENZA CENTRALE LE MISURE DI TENDENZA CENTRALE LE MISURE DI TENDENZA CENTRALE LE MISURE DI TENDENZA CENTRALE LE MISURE DI TENDENZA CENTRALE LE MISURE DI TENDENZA CENTRALE LE MISURE DI TENDENZA CENTRALE LE MISURE DI TENDENZA CENTRALE LE MISURE DI TENDENZA CENTRALE LE MISURE DI TENDENZA CENTRALE MISURE DI DISPERSIONE O VARIABILITA' La prima misura ad essere stata storicamente utilizzata per descrivere la dispersione o variabilità dei dati è il campo o intervallo di variazione, definito come Intervallo di variazione = Valore massimo - valore minimo La differenza interquartile, la differenza tra il 3 (Q3) ed il 1 (Q1) quartile ha il vantaggio di eliminare i valori estremi, ovviamente collocati nelle code della distribuzione. Tuttavia le proprietà di questa semi-differenza, chiamata anche scarto interquartile, non sono sostanzialmente differenti da quelle del campo di variazione. Come misure di posizione non-centrale, ma con finalità esclusivamente descrittive, sono spesso usati i quantili, chiamati anche frattili, in quanto ogni sottogruppo contiene la stessa frazione di osservazioni. Quelli più comunemente usati sono i decili, che classificano i dati ordinati in decine, ed i percentili, che li suddividono in centesimi. Con i quantili, si possono individuare quali sono i valori che delimitano, nel margine inferiore o superiore della distribuzione, una percentuale o frazione stabilita di valori estremi. MISURE DI DISPERSIONE O VARIABILITA' MISURE DI DISPERSIONE O VARIABILITA' MISURE DI DISPERSIONE O VARIABILITA' MISURE DI DISPERSIONE O VARIABILITA' INDICI DI FORMA: SIMMETRIA E CURTOSI INDICI DI FORMA: SIMMETRIA E CURTOSI INDICI DI FORMA: SIMMETRIA E CURTOSI INDICI DI FORMA: SIMMETRIA E CURTOSI INDICI DI FORMA: SIMMETRIA E CURTOSI INDICI DI FORMA: SIMMETRIA E CURTOSI INDICI DI FORMA: SIMMETRIA E CURTOSI INDICI DI FORMA: SIMMETRIA E CURTOSI INDICI DI FORMA: SIMMETRIA E CURTOSI Nel modulo 1 abbiamo imparato … -Tipologie di dati - Scala delle modalità - Ripetizione, randomizzazione e blocchi - Esperimenti con il “cieco” ed il “doppio cieco” - Il disegno sperimentale - Il test statistico e le ipotesi - Inferenza e campionamento - Tecniche di campionamento - Distribuzione delle variabili e le classi di distribuzione - La distribuzione normale - Verifica della normalità della distribuzione -Normalizzazione di una distribuzione non normale A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013 A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013