Fondamenti di Statistica GenHort - Modulo 2

Fondamenti di statistica
per
il
miglioramento
genetico delle piante
Antonio Di Matteo
Università Federico II
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Modulo 2
Variabili continue
parametrici
e
Metodi
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Distribuzione
Un insieme di misure è detto serie statistica o serie dei dati. Quando la serie non è ordinata, si ha un insieme
disordinato di numeri che non evidenzia le caratteristiche fondamentali del fenomeno.
Una sua prima ed elementare elaborazione può essere una distribuzione ordinata di tutti i valori, in modo
crescente o decrescente, detta seriazione.
Il valore minimo e il valore massimo insieme permettono di individuare immediatamente il campo (od
intervallo) di variazione.
Successivamente, la serie può essere raggruppata in classi, contando quanti valori od unità statistiche
appartengono ad ogni gruppo o categoria.
Si ottiene una distribuzione di frequenza o di intensità, detta anche semplicemente distribuzione.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Distribuzione
Come prima applicazione, è utile considerare un caso semplice: una variabile discreta ottenuta da un
conteggio del numero di foglie, germogliate su 45 giovani rami di lunghezza uguale.
Il primo passaggio, quasi intuitivo in una distribuzione discreta, consiste nel definire le classi:
- è sufficiente identificare il valore minimo (0, nei dati della tabella) e quello massimo (9);
- contando quante volte compare ogni modalità di espressione (cioè quanti sono i rami con un
numero di foglie uguali).
La distribuzione di frequenza offre una lettura rapida delle caratteristiche più importanti della serie di dati.
Le distribuzioni di frequenza tendono a mostrare la distribuzione reale del fenomeno solo quando è
possibile utilizzare un numero sufficientemente elevato di osservazioni.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Distribuzioni
l’inferenza
campionarie
per
1) chi-quadro di Pearson; 2) t di Student; 3) F di Fisher.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
La distribuzione χ2 di Pearson
La distribuzione Chi-quadrato (χ2), il cui uso è stato introdotto dallo statistico inglese Karl Pearson (1857–1936),
può essere fatta derivare dalla distribuzione normale. Date n variabili casuali indipendenti x1, x2, …, xn,
normalmente distribuite con μ = 0 e σ = 1, χ2 è una variabile casuale data dalla somma dei loro quadrati. La
funzione di densità del χ2 è determinata solo dal parametro ν, il numero di gradi di libertà, pertanto viene scritta
come χ2(ν). Cosa sono i gradi di libertà??
La distribuzione χ2 parte da ν uguale a 1 e al suo aumentare assume forme sempre diverse, fino ad una forma
approssimativamente normale per ν =30. Con ν molto grande è possibile dimostrare che si ottiene una nuova
variabile casuale
- normalmente distribuita,
-con media μ uguale a 0
e
-deviazione standard σ uguale a 1.
Per cui, nell’ipotesi di una popolazione di valori X, la sua standardizzazione genera
Si dimostra che per ogni singolo valore x,
e
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
La distribuzione χ2 di Pearson
per n osservazioni
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
La distribuzione χ2 di Pearson
Il χ2 può servire per valutare se la varianza σ2 di una popolazione, dalla quale sia stato estratto un
campione con varianza s2, sia uguale o diversa da un valore predeterminato σ20 . Questi concetti sono
espressi nell’ipotesi nulla H0
Per decidere alla probabilità a tra le due ipotesi, si stima un valore del chi quadrato
e questo valore, alla probabilità desiderata viene confrontato con il valore della distribuzione χ2 .
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
La distribuzione t di Student
La distribuzione t di Student (pseudonimo del chimico inglese Gosset che ne propose l’applicazione al
confronto tra medie campionarie) considera le relazioni tra media e varianza, in campioni di piccole
dimensioni, quando si utilizza la varianza del campione (quando quella della popolazione sia ignota).
Se una serie di medie campionarie (x) è tratta da una distribuzione normale ridotta (μ = 0, σ = 1) e la
varianza del campione è s2, con distribuzione χ2 e ν gdl, è possibile derivare la v.c. t di Student, tramite
la relazione
e
t=(x- μ)/(s
)
dove i gdl ν corrispondono a N –1, con N uguale al numero totale di dati.
La curva corrispondente è simmetrica, leggermente più bassa della normale e con frequenze maggiori
agli estremi, quando il numero di gdl (ν) è molto piccolo.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
La distribuzione F di Fisher
Un’altra distribuzione di notevole interesse pratico, sulla quale è fondata l’inferenza di molta parte
della statistica parametrica, è la distribuzione F. Essa corrisponde alla distribuzione del rapporto di 2
variabili casuali chi-quadrato indipendenti (A e B), divise per i rispettivi gradi di libertà (m e n).
La curva dipende sia dal valore di ν1 e ν2, tenendo conto delle probabilità α; di conseguenza, in
quanto definita da tre parametri, la distribuzione dei valori di F ha tre dimensioni. Il valore di F in
teoria può quindi variare da 1 a +∞. In realtà sono molto rari i casi in cui supera 10; avviene solo
quando i gradi di libertà sono pochi.
Storicamente, la distribuzione F è stata proposta dopo la distribuzione t e ne rappresenta una
generalizzazione. Tra esse esistono rapporti precisi. Il quadrato di una v.c. t di Student con ν gradi di
libertà è uguale ad una distribuzione F di Fisher con gradi di libertà 1 e ν.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Il test t di Student
Quando la media della popolazione (μ) non è nota, di norma anche la sua varianza (s 2 ) è ignota; di
conseguenza, occorre utilizzare un sostituto della varianza della popolazione e la varianza del
campione (s2 ) ne rappresenta la stima più logica ed attendibile.
Con σ ignota ed il ricorso all’uso di s in sua sostituzione, la distribuzione delle probabilità non è più
fornita dalla distribuzione normale z ma da quella del t, detta t di Student.
La distribuzione t può essere ottenuta, con un campione costante di dati (n), dalle variazioni
determinate dal rapporto
Rispetto alla normale, la distribuzione t di Student tiene conto anche della variazione di
campionamento della deviazione standard (s) ed i metodi che utilizzano il test t di Student (basato
sulla distribuzione t) si riferiscono esclusivamente a piccoli campioni.
Non vi è una sola curva t a differenza di quanto osservato per la gaussiana ma esiste una intera
famiglia di distribuzioni t, una per ogni grado di libertà.
Come per il chi quadrato, anche per la distribuzione t abitualmente si utilizza una sola tavola sinottica,
una pagina ordinata di sintesi, che riporta i valori critici più importanti.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Valori critici del t di Student
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Il test t di Student
Nella statistica applicata, il test t è utilizzato in quattro casi: per il confronto tra
1 - la media di un campione e la media dell’universo o una generica media attesa;
2 – un singolo dato e la media di un campione, per verificare se possono appartenere alla stessa
popolazione;
3 - la media delle differenze di due campioni dipendenti con una differenza attesa;
4 - le medie di due campioni indipendenti.
Un test è unilaterale o a una coda, quando il ricercatore si chiede se una media è maggiore dell'altra,
escludendo a priori che essa possa essere minore.
Un test è bilaterale o a due code, quando il ricercatore si chiede se tra le due medie esista una
differenza significativa, senza che egli abbia indicazioni su quali sia la maggiore o la minore.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Confronto tra una media osservata
ed una attesa
La distribuzione t con n-1 gdl (indicata con tn-1) è data dal rapporto
Per verificare l’ipotesi relativa alla media x di un campione rispetto ad una media attesa, l’ipotesi nulla H0
generalmente è scritta come
Dalla formula in alto si può derivare quella dell'intervallo di confidenza, entro il quale alla probabilità α è
compresa la media reale μ della popolazione dalla quale è estratto il campione. La formula per il calcolo
dell’intervallo fiduciale diventa
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Test t di Student: esempio 1
In un appezzamento di terreno adibito a vivaio, sono coltivate pianticelle della specie A; una lunga serie di misure
ha dimostrato che dopo due mesi dalla semina raggiungono un’altezza media di 25 centimetri. A causa di un
incidente, su quel terreno sono state disperse sostanze tossiche; si ritiene che esse incidano negativamente sulla
crescita di alcune specie, tra le quali la specie A.
Per una verifica di tale ipotesi, vengono seminate sul terreno inquinato 7 pianticelle che, controllate dopo 2 mesi,
raggiungono le seguenti altezze in cm.: 22, 25, 21, 23, 24, 25, 21.
Si intende rispondere a due quesiti.
1 - Si può sostenere che le sostanze tossiche disperse inibiscano la crescita della specie A?
2 - Quale è la media reale dell’altezza delle piante dell’età di due mesi, nella nuova condizione del
terreno?
E’ un test ad una coda in cui l’ipotesi nulla è
Scegliendo una probabilità a uguale a 0.05 e applicando la formula
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Test t di Student: esempio 1
Il segno negativo indica solamente che la differenza è negativa rispetto al valore atteso; ai fini della significatività,
il valore di t viene preso in modulo.
Per un test ad una coda, il valore critico del t alla probabilità (0.05/2)=0.025 con 6 gdl è uguale a 2,447.
Il valore calcolato in modulo è superiore a quello riportato nella tabella sinottica della distribuzione t.
Pertanto, con probabilità inferiore a 0.05 (di commettere un errore) si rifiuta l’ipotesi nulla e si accetta l’ipotesi
alternativa: le sostanze tossiche disperse inibiscono la crescita delle piante della specie A in modo significativo.
2 - L’altezza media reale m della popolazione dalla quale sono stati estratti i 7 dati può essere stimata
mediante l’intervallo fiduciale
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Test t di Student a 2 campioni indipendenti
Nel caso di 2 campioni indipendenti, i gradi di libertà del t sono uguali a (nA–1) + (nB-1), che possono anche
essere scritti come (nA + nB - 2) oppure (N-2).
Il valore del t è ottenuto mediante
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Condizioni del test t di Student
Il t di Student è un test di statistica parametrica. Affinché possa essere ritenuto valido, come nel caso di un
campione, devono essere rispettate le condizioni essenziali che
- i dati (o gli scarti rispetto alla media) siano distribuiti normalmente,
- le osservazioni siano raccolte in modo indipendente.
Con due campioni indipendenti, per calcolare la s2 pooled si ha l’ulteriore condizione essenziale, più importante
delle precedenti, perché rispetto ad essa il test t è meno robusto, di
- omoschedasticità o omoscedasticità, cioè che le due varianze siano statisticamente uguali.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Il test di Levene
Analisi della varianza (ANOVA)
Nella ricerca sperimentale è frequente il confronto simultaneo tra le medie di più di due gruppi, formati da
soggetti sottoposti a trattamenti differenti o con dati raccolti in condizioni diverse. Nell’analisi della varianza, con
apparente paradosso dei termini, il confronto è tra due o più medie. Essa permette il confronto simultaneo tra
esse, mantenendo invariata la probabilità a complessiva prefissata.
L'ipotesi nulla H0 afferma che le medie delle popolazioni dalle quali sono estratti casualmente i vari campioni
sono tra loro tutte uguali oppure che tutti i campioni a confronto sono stati estratti dalla medesima popolazione.
La metodologia sviluppata per verificare la significatività delle differenze tra le medie aritmetiche di vari gruppi,
chiamata analisi della varianza e sintetizzata in ANOVA dall’acronimo dell'inglese ANalysis Of VAriance, utilizza la
distribuzione F.
Il modello più semplice di analisi della varianza, è detto ad un criterio di classificazione: ogni dato è classificato
solo sulla base del trattamento o del gruppo al quale appartiene.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Analisi della Varianza (ANOVA)
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Analisi della Varianza (ANOVA)
Le assunzioni di validità del test F dipendono dagli errori eij , che
- devono essere tra loro indipendenti,
- devono essere distribuiti normalmente; inoltre
- le varianze dei vari gruppi devono essere omogenee.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Analisi della Varianza (ANOVA)
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Analisi della Varianza (ANOVA)
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Analisi della Varianza (ANOVA)
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Analisi della Varianza (ANOVA)
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Analisi della Varianza (ANOVA)
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Analisi della Varianza (ANOVA)
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Analisi della Varianza (ANOVA)
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Esempio ANOVA
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Esempio ANOVA
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Esempio ANOVA
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Esempio ANOVA
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Esempio ANOVA
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Esempio ANOVA
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Esempio ANOVA
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Esempio ANOVA
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Esempio ANOVA
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014
Nel modulo 2 abbiamo imparato …
- La distribuzione chi quadrato
- La distribuzione t di Student
- La distribuzione F di Fisher
- Il t test di Student
- Il test ANOVA
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 07/01/2014