Fondamenti di Statistica GenHort - Modulo 1

Fondamenti di statistica
per
il
miglioramento
genetico delle piante
Antonio Di Matteo
Università Federico II
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Definiamo la statistica
Disciplina che ha come fine lo studio quantitativo e qualitativo di un particolare fenomeno in condizioni di
non determinismo o incertezza ovvero di non completa conoscenza di esso o parte di esso.
Essa:
1) studia come raccogliere i dati e come analizzarli per ottenere l'informazione che permetta di rispondere alle
domande che ci poniamo;
2) studia i modi (descritti attraverso formule matematiche) in cui una realtà fenomenica - limitatamente ai
fenomeni collettivi - può essere sintetizzata e quindi compresa;
3) consente di associare ad un’osservazione (ipotesi) la probabilità che essa sia reale (oppure non reale).
La statistica è una metodologia la cui applicazione rappresenta l’essenza del metodo scientifico. Essa consiste, infatti,
nello studiare un fenomeno a partire dall'osservazione e dall'analisi della realtà in modo intelligente e obiettivo.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Modulo 1
Disegno sperimentale, teoria dei
campioni, livelli di misurazione e
distribuzione delle variabili
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Terminologia
Variabili: sono entità o fenomeni misurabili, controllabili o manipolabili nel nostro esperimento
- Variabile indipendenti: sono variabili controllate nell’esperimento e quindi in un certo senso sono già
date e fisse
- Variabili dipendenti o di risposta: sono variabili misurate nell’esperimento
Fattore: insieme di differenti trattamenti che definiscono una variabile indipendente
Trattamento: qualunque condizione controllata nell’esperimento
Varianti o livelli: differenti valori di una variabile indipendente
Caso: insieme di osservazioni eseguite sulla stessa unità sperimentale
Ripetizione o replica: esperimento o unità sperimentale completamente ripetuta
Interazione: effetto di un fattore che
dipende dal livello di un altro fattore
Unità statistica: la più piccola parte
dell’esperimento a cui viene applicato
ciascun trattamento
caso
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Tipologie di dati
dati qualitativi
variabili casuali
dati quantitativi
a) I dati qualitativi sono generati da risposte categoriali (es.: con un test sulla tossicità, le cavie muoiono o
sopravvivono; con un farmaco, entro un tempo prefissato i pazienti guariscono o restano ammalati; con
esperimenti sulle leggi dell’ereditarietà di Mendel, si possono ottenere fiori rossi o fiori bianchi).
b) I dati quantitativi sono il risultato di risposte numeriche (es.: per un’analisi del dimorfismo animale, le
dimensioni di organi o il peso di alcuni maschi e di alcune femmine).
I dati quantitativi possono essere discreti o continui: i primi derivano da un conteggio (es.: quante
foglie sono attaccate ad un ramoscello); i secondi da un processo di misurazione con uno
strumento (es.: la lunghezza di un ramoscello; il peso una cavia; il tempo di reazione alla
somministrazione di una sostanza tossica).
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Scale di misura
Le misure possono essere raggruppate in 4 tipi di scale, che godono di proprietà formali differenti; di
conseguenza, esse ammettono operazioni differenti.
Nominale o classificatoria
Scale di misura
Ordinale o per ranghi
Scala ad intervalli
Scala di rapporti
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Scala nominale o classificatoria
80
60
40
20
0
rugoso
liscio
La scala nominale o classificatoria è il livello più basso di misurazione; viene utilizzata quando i
risultati possono essere classificati o raggruppati in categorie qualitative, nominali, eventualmente
identificati con simboli. I caratteri nominali, detti anche “sconnessi”, costituiscono variabili le cui
modalità o attributi non assumono alcun ordine precostituito. Nella scala nominale, esiste una sola
relazione, quella di identità: gli individui attribuiti a classi diverse sono tra loro differenti, mentre tutti
quelli della stessa classe sono tra loro equivalenti, rispetto alla proprietà utilizzata nella
classificazione.
L’operazione ammessa è il conteggio degli individui o dei dati presenti in ogni categoria. I quesiti
statistici che possono essere posti correttamente riguardano le frequenze, sia assolute che relative.
Sono possibili confronti tra frequenze osservate (es.: Una classe è significativamente più numerosa
dell’altra? Le varie classi hanno tutte lo stesso numero di individui, escludendo le variazioni casuali?)
oppure tra le frequenze osservate e le rispettive frequenze attese sulla base di leggi biologiche, ipotesi
od altro (es.: I risultati ottenuti da un esperimento sulle leggi di Mendel sono in accordo con la sua
distribuzione teorica?).
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Scala ordinale o per ranghi
La scala ordinale o per ranghi, rappresenta una misurazione che contiene una quantità di
informazione immediatamente superiore a quella nominale, assumendo modalità logicamente
sequenziali, non importa se in ordine crescente o decrescente; alla proprietà precedente di
equivalenza tra gli individui della stessa classe, si aggiunge una gradazione tra le classi o tra
individui con misure diverse. Con la scala per ranghi, le differenti classi possono essere ordinate sulla
base dell’intensità del fenomeno. In una scala ordinale, non è possibile quantificare le differenze di
intensità tra le osservazioni. Non è possibile valutare quanto sia la distanza tra insufficiente e
sufficiente, oppure se sia inferiore o superiore alla distanza tra buono ed ottimo.
Se per valutare i componenti di una classe, dopo aver calcolato un punteggio P in forma percentuale,
se ne raggruppano i valori nei 5 intervalli A, B, C, D ed E la variabile “punteggio” ottenuta è una
variabile ordinale.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Scala ad intervalli
La scala ad intervalli alle due caratteristiche della scala ordinale aggiunge quella di
misurare le distanze o differenze tra tutte le coppie di valori. La scala di intervalli si fonda su
una misura oggettiva e costante, anche se il punto di origine e l'unità di misura sono arbitrari.
Esempi classici di scale ad intervalli sono la temperatura (misurata in gradi Celsius o
Fahrenheit) ed il tempo (misurato secondo calendari differenti). Valori di temperatura, oltre a
poter essere facilmente ordinati secondo l’intensità del fenomeno, godono della proprietà che
le differenze tra loro sono direttamente confrontabili e quantificabili; le date in un
calendario gregoriano, islamico, ebraico o cinese possono essere tra loro ordinate dalla più
antica a quella più recente e le differenze temporali sono misurate con precisione oggettiva. In
una scala ad intervalli, solo le differenze tra i valori sono quantità continue ed
isomorfiche alla struttura dell’insieme dei numeri reali.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Scala di rapporti
La scala di rapporti ha il vantaggio di avere un’origine reale. Sono tipiche scale di rapporti
l'altezza, la distanza, l'età, il peso, il reddito, più in generale tutte quelle misure in cui 0
(zero) significa quantità nulla. Non solo le differenze, ma gli stessi valori possono essere
moltiplicati o divisi per quantità costanti, senza che l'informazione di maggiore
importanza, il rapporto tra essi, ne risulti alterata.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Una corretta impostazione …
Per condurre in modo corretto una ricerca scientifica ed applicare la metodologia statistica per la
convalida delle ipotesi occorre seguire alcuni passaggi metodologici, riassumibili in 4 fasi:
- il disegno sperimentale,
- il campionamento,
- la descrizione statistica,
- la scelta dei test per l’inferenza.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Caratteri essenziali
del disegno sperimentale
- Replicazione
- Randomizzazione
- Blocking
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Replicazione o ripetizione
Ripetizione o replica: ripetizione dell’unità statistica o dell’esperimento nel suo complesso.
Spesso gli esperimenti sono disegnati per verificare l’effetto differenziale di un certo numero di trattamenti su un
fenomeno di interesse. In tal caso, le unità dell’esperimento devono essere replicate in modo che il medesimo
trattamento sia applicato a più campioni.
Campo sperimentale per test
resistenza al freddo in avena
Più repliche si usano, più piccole sono le differenze che si possono apprezzare tra i trattamenti. In alcuni
casi, può essere utile valutare la differenza tra i trattamenti in termini di variabilità generata e l’obiettivo può
essere raggiunto solo utilizzando sufficienti repliche di ogni trattamento.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Randomizzazione
Rendere casuale il disegno dell’esperimento ha lo scopo di garantire che non sia favorito alcuno dei trattamenti.
Esempio 1
Supponiamo che si stia misurando il tempo di fioritura delle piante in un armadio di crescita. Se si dispongono i vasi in
modo che tutte le piante di una varietà siano l’una accanto all'altra, e si scopre che una varietà fiorisce prima delle
altre, significa che tale varietà è intrinsecamente precoce, o vuol dire che le condizioni di luce di quella parte
dell’armadio anticipano la fioritura di qualsiasi varietà? L’esperimento non consentirà di discriminare le cause del
fenomeno.
Esempio 2
Supponiamo che si stia studiando la resistenza di un certo numero di varietà vegetali ad una malattia crittogamica.
L'esperimento prevede che le piante siano disposte in modo che una varietà (A, per esempio) è sempre accanto ad
un’altra (B). Le piante di entrambe le varietà risultano molto malate. Questo significa che entrambi sono sensibili, o
che uno di loro è difatti più resistente, ma è stato infettato da un gran numero di spore provenienti dal suo vicino più
sensibile? Anche in questo caso, nulla si può concludere in proposito.
Distribuire casualmente i trattamenti nel tempo e/o nello spazio equivale ad una polizza assicurativa che tenga conto
delle variazioni dovute a fattori casuali noti a prescindere o non affatto noti. Tali fattori sono definiti “Confoundings”.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Blocking
Randomizzare i trattamenti tra le unità statitiche spesso comporta la creazione di gruppi di unità statistiche a cui
si imponga il medesimo trattamento. Per esempio, nel caso di una randomizzata sequenza di genotipi di pianta
(A-D) :
BBDDCCCBDDAACABABDAC
Si può notare che il genotipo A ha la tendenza a concentrarsi , solo per caso, verso la fine della sequenza.
Un altro esempio consiste nella disposizione casuale di 4 genotipi di pianta sul banco di una serra:
DABDB
AACAD
CDABD
CCCBB
Ancora una volta il genotipo C è concentrato sull’angolo in basso a sinistra.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Blocking
Comunque, l’effetto raggruppamento può essere evitato fondamentalmente raggruppando le unità in blocchi.
Tipicamente, in ciascun blocco viene assegnata una unità ad ogni trattamento ed i trattamenti sono
randomizzati tra le unità nell’ambito del blocco. Il disegno che segue è analogo al precedente ma in questo caso i
blocchi randomizzati sostituiscono il disegno completamente randomizzato:
Blocchi:
1
DCAB
2
CBAD
3
DABC
4
ACDB
5
BDCA
Blocchi: 1 2 3 4 5
DCDAB
CBACD
AABDC
BDCBA
I blocchi dovrebbero essere utilizzati per controllare fattori che potrebbero inficiare il risultato della prova, che
siano o non siano noti a priori.
Es.: - profilo stratigrafico, o fertilità, o livello di una falda superficiale, franco di coltivazione, etc.;
- Il fattore tempo.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Blinding
In un esperimento “cieco” l’operatore ignora a quale unità sono stati assegnati i differenti trattamenti.
Analogamente, in un “doppio cieco” sia l’attore principale che le persone con cui questo interagisce ignorano i
trattamenti.
In un esperimento clinico che prevede la somministrazione di un trattamento a pazienti, il “doppio cieco” si
concretizza nella somministrazione del trattamenti senza che medici e pazienti sappiano se il singolo paziente
riceve il trattamento o appartiene al gruppo “controllo”. In generale, ricercatore e paziente tendono ad
amplificare o a ridimensionare l’effetto del trattamento. Analogamente, un ricercatore che abbia sviluppato un
pianta resistente ad un patogeno tenderà a sovrastimare la resistenza. Per tali ragioni occorrerebbe sempre
utilizzare esperimenti “doppio cieco” quando possibile.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Il disegno sperimentale
Il disegno sperimentale si prefigge di scegliere e programmare in funzione della ricerca e delle ipotesi esplicative
le osservazioni in natura e le ripetizioni in laboratorio. Infatti, già nella programmazione dell'esperimento occorre
avere chiara a priori la formulazione dell'ipotesi che si intende verificare, alternativa all'ipotesi nulla.
Con essa si deve rispondere alle domande: “Le eventuali differenze riscontrate tra due o più gruppi di dati,
oppure di una serie di osservazioni con quanto era atteso, possono essere imputabili a fattori causali specifici o
solamente a fattori casuali ignoti?” E ancora “Le differenze riscontrate sono generate dalla naturale variabilità
delle misure e del materiale utilizzato oppure probabilmente esiste una causa specifica che le ha determinate?”
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Il disegno completamente
randomizzato
E’ il più semplice dei disegni sperimentali. In tale disegno, ciascun trattamento presenta lo stesso numero di
ripetizioni. La randomizzazione completa permette di stimare l’effetto medio dei trattamenti con alta precisione
solo in assenza di fonti estranee di variabilità sistematica.
c
d
c
a
d
a
b
d
b
a
c
b
Layout di un confronto varietale (4 varietà: a-d) secondo
un disegno completamente randomizzato con 4 repliche.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Il disegno a blocchi completamente
randomizzati
Tale disegno può comprendere uno o più fattori di analisi (es. genotipo e livello di fertilizzazione). Tutti i
trattamenti nel disegno ad un fattore, e le combinzioni di trattamenti in quelli a più fattori, sono rappresentati
una volta in ciascun blocco. Questo è fondamentalmente il disegno più uilizzato e rappresenta il modo più
semplice per controllare fonti estranee di variabilità sistematica.
Layout di un confronto varietale (4 varietà: a-d) secondo un disegno a blocchi completamente randomizzati con 4 repliche.
Blocco 1
c
d
b
a
Blocco 2
c
b
d
a
Blocco 3
a
b
d
c
Blocco 4
a
d
c
b
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Disegno split plot
In un disegno split plot, un fattore viene applicato ad ampie unità sperimentali che prendono il nome di “main-plot”,
mentre il secondo fattore viene applicato ad unità più piccole che prendono il nome di “sub-plots”. Questo disegno
viene convenientemente applicato nelle prove di resistenza ai patogeni delle varietà vegetali in cui varietà differenti di
una specie vegetale sono allevate in “sub-plots” (e.g. vasi in serra o filari in campo) mentre differenti isolati fungini
vengono applicati ai “main plots” (gruppi di vasi o file).
Di seguito si riporta un disegno con 4 varietà vegetali (A-D) infettate con 3 isolati fungini (P-R) e l’esperimento è replicato in 2 blocchi.
Block
Main plot
P
1
Q
R
P
2
Q
R
Sub-plot 1
Sub-plot 2
Sub-plot 3
Sub-plot 4
D
C
B
A
A
D
C
B
C
A
D
B
D
A
C
B
D
B
A
C
A
C
B
D
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Il quadrato latino
Questo disegno risulta particolarmente utile nel solo caso in cui sono note due sorgenti di variabilità
sistematica. Un esempio riguarda le camere di crescita con le scaffalature. In tal caso le due sorgenti di variabilità
sono rappresentate dall’altezza della mensola e dalla posizione lungo la mensola rispetto alle aperture, entrambe
con un effetto significativo sul microclima delle colture in vitro ospitate.
In un quadrato latino le unità sono disposte in quadrato ed ogni trattamento è presente una sola volta sia per
riga che per colonna. Per esempio, con 4 varietà (A-D):
BACD
DCBA
ABDC
CDAB
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Il test statistico e le ipotesi
Si tratta di un processo logico-matematico che, mediante il calcolo di probabilità specifiche, porta alla
conclusione di non poter respingere oppure di respingere l'ipotesi della casualità.
Chiamata ipotesi nulla ed indicata con H0, di norma tale ipotesi afferma che le differenze tra gruppi o le
tendenze riscontrate siano imputabili essenzialmente al caso. Per giungere a queste conclusioni si deve
ricorrere all’inferenza, che può essere definita come la capacità di trarre conclusioni generali (sulla
popolazione od universo) utilizzando solo un numero limitato di dati variabili (campione).
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Inferenza e campionamento
La statistica inferenziale,comprende l'insieme dei metodi con cui si possono elaborare i dati dei
campioni per dedurne omogeneità o differenze nelle caratteristiche analizzate, al fine di
estendere le conclusioni alla popolazione.
Una condizione essenziale e preliminare all’uso dei metodi di statistica inferenziale è che il campione
sia corretto, che non riporti in modo distorto od alterato la frequenza delle caratteristiche presenti nella
popolazione.
Il campionamento permette di raccogliere i dati in funzione dello scopo della ricerca, rispettando le
caratteristiche della popolazione o universo dei dati.
Il problema fondamentale della statistica è come raccogliere solamente un numero limitato di dati (per motivi di
risparmio, di tempo, di dati effettivamente disponibili), ma attraverso la loro analisi pervenire ugualmente a
conclusioni generali, che possano essere estese a tutta la popolazione.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Campionamento
semplice con ripetizione
semplice senza ripetizione
sistematico
stratificato
probabilistici
a scelta ragionata
Campioni
non probabilistici
per quota
tramite testimoni privilegiati
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Campionamento
Campionamento probabilistico
Il campione probabilistico è quel campione i cui risultati possono essere estesi con un certo livello di
fiducia (detto anche livello di confidenza) alla popolazione.
-Per campionamento casuale si intende un campionamento creato da un universo al cui interno ogni singola unità
ha la stessa probabilità di un altra di essere estratta. Nel caso in cui ogni soggetto estratto non venga più
reimmesso per le estrazioni successive, avremo un campionamento casuale semplice.
- Nel caso del campionamento sistematico le unità sono estratte in maniera non casuale all’interno di singoli
strati (non omogenei tra di loro per variabilità).
- Se l'universo della ricerca non è omogeneo per avere una minor variabilità si può ricorrere al campionamento
stratificato, combinando più campioni casuali semplici indipendenti e scelti in appropriate proporzioni, da strati
omogenei, in una popolazione eterogenea.
- Campionamento a grappoli. Si scelgono innanzi tutto delle unità primarie, nell'ambito di queste unità primarie
si scelgono delle unità secondarie o di secondo stadio e così via fino a giungere alla unità statistica che l'indagine
si prefigge di rilevare.
Campionamento non probabilistico
Campionamento a testimoni privilegiati. Quando si selezionano all'interno della popolazione gli elementi che il
ricercatore ritiene rappresentativi per gli obiettivi della ricerca.
Campionamento per quota. Dopo aver deciso quali strati possono essere rilevanti per l'indagine che si deve
condurre, si stabilisce per ogni strato una quota proporzionata alla sua consistenza nella popolazione complessiva.
Campionamento per scelta ragionata. Specificare tutte le dimensioni (variabili) oggetto della ricerca all'interno
della popolazione. Definire una griglia tra queste dimensioni e fare in modo che per ogni possibile combinazione
delle diverse dimensioni ci sia almeno un caso, in modo da non avere combinazioni non rappresentate.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Distribuzione
Un insieme di misure è detto serie statistica o serie dei dati. Quando la serie non è ordinata, si ha un insieme
disordinato di numeri che non evidenzia le caratteristiche fondamentali del fenomeno.
Una sua prima ed elementare elaborazione può essere una distribuzione ordinata di tutti i valori, in modo
crescente o decrescente, detta seriazione.
Il valore minimo e il valore massimo insieme permettono di individuare immediatamente il campo (od
intervallo) di variazione.
Successivamente, la serie può essere raggruppata in classi, contando quanti valori od unità statistiche
appartengono ad ogni gruppo o categoria.
Si ottiene una distribuzione di frequenza o di intensità, detta anche semplicemente distribuzione.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Distribuzione
Come prima applicazione, è utile considerare un caso semplice: una variabile discreta ottenuta da un
conteggio del numero di foglie, germogliate su 45 giovani rami di lunghezza uguale.
Il primo passaggio, quasi intuitivo in una distribuzione discreta, consiste nel definire le classi:
- è sufficiente identificare il valore minimo (0, nei dati della tabella) e quello massimo (9);
- contando quante volte compare ogni modalità di espressione (cioè quanti sono i rami con un
numero di foglie uguali).
La distribuzione di frequenza offre una lettura rapida delle caratteristiche più importanti della serie di dati.
Le distribuzioni di frequenza tendono a mostrare la distribuzione reale del fenomeno solo quando è
possibile utilizzare un numero sufficientemente elevato di osservazioni.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Classi di una distribuzione
L’esperienza ha insegnato che il numero di classi abitualmente varia da un minimo di 4-5 (con N = 10-15) ad
un massimo di 15-20 (con N > 100), in funzione del numero complessivo di osservazioni.
Un numero troppo basso di classi, raggruppando eccessivamente i dati, determina una perdita di
informazione sulle caratteristiche della distribuzione e la rende non significativa; è intuitivo che una o due
sole classi determinano l’impossibilità di evidenziare qualunque caratteristica della distribuzione.
Inversamente, ma con un risultato finale simile, un numero troppo elevato di classi disperde i valori e non
rende manifesta la forma della distribuzione.
Per stimare in modo oggettivo il numero di classi, sono stati proposti vari metodi; tra essi è utile ricordarne
due:
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Classi di una distribuzione
Rispetto all'elenco grezzo dei dati, la tabella di distribuzione delle frequenze fornisce in modo più
chiaro le indicazioni elementari contenute, in particolare la loro
- posizione o dimensione (già chiamata anche tendenza centrale)
- la variabilità o dispersione.
Per evidenziare sia queste che altre caratteristiche della distribuzione dei dati raccolti, sovente è di
aiuto una rappresentazione grafica che mostra in modo sintetico soprattutto
- la forma, come la simmetria e la curtosi, quando si tratti di grandi gruppi di dati.
Indici:
- posizione;
- dispersione:
- forma.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Tipologie di distribuzione
binomiale
uniforme
multinomiale
binomiale negativa
poissoniana
discrete
ipergeometrica
geometrica
Distribuzioni
continue
di Pascal
normale o di Gauss
asintotiche
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
La distribuzione normale
La più importante distribuzione continua è la curva normale. Il nome deriva dalla convinzione, non sempre
corretta, che molti fenomeni, da quelli biologici e quelli fisici, normalmente si distribuiscano secondo la curva
gaussiana. La sua denominazione di curva degli errori accidentali, diffusa soprattutto nelle discipline fisiche,
deriva dall'osservazione sperimentale che la distribuzione degli errori, commessi quando si misura
ripetutamente la stessa grandezza, è molto bene approssimata da tale curva.
La distribuzione normale con media μ e varianza s2 è indicata con N(m, s); al variare di questi due parametri
che la definiscono compiutamente, si possono avere infinite curve normali.
Le caratteristiche più importanti della normale sono una frequenza relativamente più elevata dei valori
centrali e frequenze progressivamente minori verso gli estremi. La funzione di densità è simmetrica rispetto
alla media: cresce da zero fino alla media e poi decresce fino a +¥. Ha due flessi: il primo, ascendente, nel
punto μ-s; il secondo, discendente, nel punto μ+s.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
La distribuzione normale
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
La distribuzione normale
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
La distribuzione normale
Nella pratica statistica, le proprietà più utili della distribuzione normale non sono i rapporti tra ascissa ed
ordinata, presentati in precedenza, ma le relazioni tra la distanza dalla media e la densità di probabilità
sottesa dalla curva. In modo più semplice, è possibile definire quanti sono i dati compresi tra la media ed un
determinato valore, misurando la distanza dalla media m in unità di deviazioni standard s.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Normalizzazione di una distribuzione
non normale
Quando i dati hanno una distribuzione differente dalla normale, spesso una semplice trasformazione conduce ad
una distribuzione normale. E' il caso delle trasformazioni con la radice quadrata o cubica, oppure con il reciproco,
l’elevamento a potenza o con i logaritmi.
Il caso di trasformazione che ricorre forse con frequenza maggiore in biologia e nelle scienze è quella logaritmica
X' = log X dove
X' diviene una serie di valori distribuiti in buon accordo con la normale.
Quando la distribuzione di una variabile X ha una forma simile a quella rappresentata nella precedente
Figura, con la trasformazione logaritmica in X’ assume appunto una forma molto simile alla distribuzione normale.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
Verifica della normalità della
distribuzione
Per verificare la normalità della distribuzione di variabili continue può essere utilizzato il test di KolmogorovSmirnov con la correzione di Lillifors. L’ipotesi nulla è che la popolazione da cui è stato estratto il campione non sia
troppo lontana dalla distribuzione di Gauss.
Dopo aver calcolato la funzione di ripartizione della legge normale ridotta N(0,1)
- si calcola la funzione cumulata delle probabilità
- poi la cumulata delle frequenze relative del campione
- quindi lo scarto massimo tra le due distribuzioni.
Nella tavola dei quantili di Lillifors sono riportati i valori critici per ciascun valore di probabilità. Se lo scarto
massimo calcolato è superiore a quello della tabella l’ipotesi nulla è rifiutata e la distribuzione è considerata non
“normale”.
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
LE MISURE DI TENDENZA
CENTRALE
LE MISURE DI TENDENZA CENTRALE
LE MISURE DI TENDENZA CENTRALE
LE MISURE DI TENDENZA CENTRALE
LE MISURE DI TENDENZA CENTRALE
LE MISURE DI TENDENZA CENTRALE
LE MISURE DI TENDENZA CENTRALE
LE MISURE DI TENDENZA CENTRALE
LE MISURE DI TENDENZA CENTRALE
LE MISURE DI TENDENZA CENTRALE
MISURE DI DISPERSIONE O VARIABILITA'
La prima misura ad essere stata storicamente utilizzata per descrivere la dispersione o
variabilità dei dati è il campo o intervallo di variazione, definito come
Intervallo di variazione = Valore massimo - valore minimo
La differenza interquartile, la differenza tra il 3 (Q3) ed il 1 (Q1) quartile ha il
vantaggio di eliminare i valori estremi, ovviamente collocati nelle code della distribuzione.
Tuttavia le proprietà di questa semi-differenza, chiamata anche scarto interquartile, non
sono sostanzialmente differenti da quelle del campo di variazione.
Come misure di posizione non-centrale, ma con finalità esclusivamente descrittive, sono spesso
usati i quantili, chiamati anche frattili, in quanto ogni sottogruppo contiene la stessa frazione di
osservazioni. Quelli più comunemente usati sono i decili, che classificano i dati ordinati in
decine, ed i percentili, che li suddividono in centesimi. Con i quantili, si possono individuare
quali sono i valori che delimitano, nel margine inferiore o superiore della distribuzione, una
percentuale o frazione stabilita di valori estremi.
MISURE DI DISPERSIONE O VARIABILITA'
MISURE DI DISPERSIONE O VARIABILITA'
MISURE DI DISPERSIONE O VARIABILITA'
MISURE DI DISPERSIONE O VARIABILITA'
INDICI DI FORMA: SIMMETRIA E CURTOSI
INDICI DI FORMA: SIMMETRIA E CURTOSI
INDICI DI FORMA: SIMMETRIA E CURTOSI
INDICI DI FORMA: SIMMETRIA E CURTOSI
INDICI DI FORMA: SIMMETRIA E CURTOSI
INDICI DI FORMA: SIMMETRIA E CURTOSI
INDICI DI FORMA: SIMMETRIA E CURTOSI
INDICI DI FORMA: SIMMETRIA E CURTOSI
INDICI DI FORMA: SIMMETRIA E CURTOSI
Nel modulo 1 abbiamo imparato …
-Tipologie di dati
- Scala delle modalità
- Ripetizione, randomizzazione e blocchi
- Esperimenti con il “cieco” ed il “doppio cieco”
- Il disegno sperimentale
- Il test statistico e le ipotesi
- Inferenza e campionamento
- Tecniche di campionamento
- Distribuzione delle variabili e le classi di distribuzione
- La distribuzione normale
- Verifica della normalità della distribuzione
-Normalizzazione di una distribuzione non normale
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013
A. Di Matteo – Fondamenti di statistica per il miglioramento genetico delle piante- Corso GenHort - Portici 11/12/2013