INFORMATICA APPLICATA AI PROCESSI BIOTECNOLOGICI

INFORMATICA APPLICATA
AI PROCESSI
BIOTECNOLOGICI
Fabio Scotti
Universita' degli studi
Dipartimento di tecnologie dell'informazione e
Dipartimento di biotecnologie
Analisi dei dati
METODOLOGIA (cosa fare)
STRUMENTI INFORMATICI (come farlo)
Fabio Scotti - Informatica applicata ai processi biotecnologici
2
Analisi dei dati: passi classici
1. Importazione, controllo e impostazione del
tipo di dato
2. Visualizzazione e analisi qualitativa
3. Media e varianza
4. Statistica descrittiva
5. Test statistici
3
Fabio Scotti - Informatica applicata ai processi biotecnologici
Analisi dei dati:
1) Importazione e controllo
File
Dati
Sensori
Archivi
Email, file, altri formati
Editor di testo
Fabio Scotti - Informatica applicata ai processi biotecnologici
Impostare il corretto
formato del dato
4
Analisi dei dati:
2) analisi qualitativa
Andamento temperature fermentatore
395
390
Gradi Kelvin
385
380
375
370
365
360
355
1
6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96 101 106 111 116
campioni
ANALISI QUALITATIVA – Esempi di osservazioni
• In che intervallo varia la grandezza in esame?
• Come e’ l’andamento della grandezza?
• E’ presente rumore di acquisizione? E’ valutabile?
• Ha delle componenti periodiche? Di che periodo?
• E’ possibile ricostruire l’asse temporale?
•…
5
Fabio Scotti - Informatica applicata ai processi biotecnologici
Analisi dei dati:
3) Media e deviaz. stand.
Dati:
X = 371.22, 372.45, 372.01, 373.44, 374.2, …
X = X1,
X2,
X3 ,
X4,
X5, …
possiamo calcolare media e varianza campionaria
Alcune proprietà di media e
var. campionanaria
Fabio Scotti - Informatica applicata ai processi biotecnologici
6
Analisi dei dati:
3) Media e deviaz. stand.
Deviazione Standard = radice dello Scarto quadratico medio =
= radice quadrata della Varianza
Significato fisico: variabilità del segnale o dei dati
Andamento temperature fermentatore
395
390
std(X)
Gradi Kelvin
385
380
mean(X)
375
370
365
360
355
1
6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96 101 106 111 116
campioni
7
Fabio Scotti - Informatica applicata ai processi biotecnologici
Analisi dei dati:
3) Media e deviaz. stand.
Un esempio di analisi basato su media e deviazione standard
Confronto fra pazienti sani (*) e trapiantati (•) rispetto alla media (mean) e
alla deviazione standard (std) del tratto RR misurato in millisecondi
140
healthy
heart transp.
Il grafico rivela che
i pazienti sani del
gruppo hanno una
variabilità del tratto
RR (std, asse y)
maggiore dei
trapiantati.
120
std, msec
100
80
60
I cuori dei
trapiantati battono
più regolarmente
40
20
650
700
750
800
mean, msec
850
Fabio Scotti - Informatica applicata ai processi biotecnologici
900
950
8
Analisi dei dati:
4) Statistica descrittiva
Column1
Mean
Standard Error
Andamento temperature fermentatore
379,725
0,444065
Median
380
Mode
378
395
390
Gradi Kelvin
385
380
Standard Deviation
4,864487
Sample Variance
23,66324
Kurtosis
-0,63292
Skewness
0,106953
375
370
365
360
355
1
6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96 101 106 111 116
campioni
Range
21
Minimum
370
Maximum
391
Sum
Count
Fabio Scotti - Informatica applicata ai processi biotecnologici
45567
120
9
Analisi dei dati:
5) Test statistici
1. Test di student
2. Ki Test
3. F Test
4. …
Fabio Scotti - Informatica applicata ai processi biotecnologici
10
Strumenti e ambienti informatici per
la valutazione di parametri statistici
Excel
Matlab
R
Programmi ad hoc
Fabio Scotti - Informatica applicata ai processi biotecnologici
11
EDITING DATI
Problema:
esaminare una sequenza temporale di
temperature proveniente da uno strumento
digitale.
Dati in un file TESTO (temperature1.txt)
Visualizzazione/Editing
„
„
„
„
Notepad
Word (…no)
Editor testuali
Excel
Fabio Scotti - Informatica applicata ai processi biotecnologici
12
EDITING DATI
Esempio ad una variabile
Fabio Scotti - Informatica applicata ai processi biotecnologici
13
EDITING DATI
Esempio ad una variabile
(tab separated)
Fabio Scotti - Informatica applicata ai processi biotecnologici
14
EDITING DATI
Esempio ad una variabile (tab separated)
Fabio Scotti - Informatica applicata ai processi biotecnologici
15
GESTIONE DATI EXCEL
CARICARE IL FILE (open, all files)
Fabio Scotti - Informatica applicata ai processi biotecnologici
16
EXCEL
GESTIONE DATI EXCEL
Abbiamo i dati.
Fabio Scotti - Informatica applicata ai processi biotecnologici
18
Esempio di analisi di dati
Attività:
Analisi di una sequenza temporale di dati
Esempi:
Un fermentatore ed un sensore di
temperatura.
Dati degli esami ematici di un gruppo di
laboratori.
La temperatura nel tempo di un corpo
misurata con immagini all’infrarosso
Fabio Scotti - Informatica applicata ai processi biotecnologici
19
Analisi qualitativa in Excel
Fabio Scotti - Informatica applicata ai processi biotecnologici
20
Media e varianza in EXCEL
Inseriamo
la funzione
Fabio Scotti - Informatica applicata ai processi biotecnologici
21
Media e varianza in EXCEL
Uppure inseriamo il comando a mano
=AVERAGE(A1:A120)
Fabio Scotti - Informatica applicata ai processi biotecnologici
22
Media e varianza in EXCEL
Deviazione standard
=STDEV(A1:A120)
Fabio Scotti - Informatica applicata ai processi biotecnologici
23
Media e varianza EXCEL
Il sistema e’ controllato adeguatamente
in temperatura?
Fabio Scotti - Informatica applicata ai processi biotecnologici
24
Ulteriori analisi
Per rispondere meglio possiamo avvalerci
del toolbox statistico di Excel
Fabio Scotti - Informatica applicata ai processi biotecnologici
25
ISTOGRAMMA con EXCEL
Per rispondere meglio possimo avvalerci
del toolbox statistico di Excel
(ToolsÆAddinsÆSelezionare Analysis tool)
Inserite il toolPAK
Preparate i “bin”
dell’istogramma
Selezionate istogramma
Fabio Scotti - Informatica applicata ai processi biotecnologici
26
ISTOGRAMMA con EXCEL
Fabio Scotti - Informatica applicata ai processi biotecnologici
27
Valutazione Della forma
della distribuzione
Fabio Scotti - Informatica applicata ai processi biotecnologici
28
Valutazione Della forma
della distribuzione con EXCEL
Bin larghi 2 gradi
Troppo pochi campioni per poter leggere
bene la forma dell’istogramma.
Meglio allargare il bin
Bin larghi 5 gradi
La forma dell’istogramma è più leggibile
probabilmente è non simmetrico
(controllare il parametro Skewness)
Fabio Scotti - Informatica applicata ai processi biotecnologici
29
RIASSUNTO STATISTICO con
EXCEL
Column1
Mean
379,725
Standard Error
0,444065
Median
380
Mode
378
Standard Deviation 4,864487
Sample Variance
23,66324
Kurtosis
-0,632918
Skewness
0,106953
Range
21
Minimum
370
Maximum
391
Sum
45567
Count
120
Fabio Scotti - Informatica applicata ai processi biotecnologici
30