INFORMATICA APPLICATA AI PROCESSI BIOTECNOLOGICI Fabio Scotti Universita' degli studi Dipartimento di tecnologie dell'informazione e Dipartimento di biotecnologie Analisi dei dati METODOLOGIA (cosa fare) STRUMENTI INFORMATICI (come farlo) Fabio Scotti - Informatica applicata ai processi biotecnologici 2 Analisi dei dati: passi classici 1. Importazione, controllo e impostazione del tipo di dato 2. Visualizzazione e analisi qualitativa 3. Media e varianza 4. Statistica descrittiva 5. Test statistici 3 Fabio Scotti - Informatica applicata ai processi biotecnologici Analisi dei dati: 1) Importazione e controllo File Dati Sensori Archivi Email, file, altri formati Editor di testo Fabio Scotti - Informatica applicata ai processi biotecnologici Impostare il corretto formato del dato 4 Analisi dei dati: 2) analisi qualitativa Andamento temperature fermentatore 395 390 Gradi Kelvin 385 380 375 370 365 360 355 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 campioni ANALISI QUALITATIVA – Esempi di osservazioni • In che intervallo varia la grandezza in esame? • Come e’ l’andamento della grandezza? • E’ presente rumore di acquisizione? E’ valutabile? • Ha delle componenti periodiche? Di che periodo? • E’ possibile ricostruire l’asse temporale? •… 5 Fabio Scotti - Informatica applicata ai processi biotecnologici Analisi dei dati: 3) Media e deviaz. stand. Dati: X = 371.22, 372.45, 372.01, 373.44, 374.2, … X = X1, X2, X3 , X4, X5, … possiamo calcolare media e varianza campionaria Alcune proprietà di media e var. campionanaria Fabio Scotti - Informatica applicata ai processi biotecnologici 6 Analisi dei dati: 3) Media e deviaz. stand. Deviazione Standard = radice dello Scarto quadratico medio = = radice quadrata della Varianza Significato fisico: variabilità del segnale o dei dati Andamento temperature fermentatore 395 390 std(X) Gradi Kelvin 385 380 mean(X) 375 370 365 360 355 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 campioni 7 Fabio Scotti - Informatica applicata ai processi biotecnologici Analisi dei dati: 3) Media e deviaz. stand. Un esempio di analisi basato su media e deviazione standard Confronto fra pazienti sani (*) e trapiantati (•) rispetto alla media (mean) e alla deviazione standard (std) del tratto RR misurato in millisecondi 140 healthy heart transp. Il grafico rivela che i pazienti sani del gruppo hanno una variabilità del tratto RR (std, asse y) maggiore dei trapiantati. 120 std, msec 100 80 60 I cuori dei trapiantati battono più regolarmente 40 20 650 700 750 800 mean, msec 850 Fabio Scotti - Informatica applicata ai processi biotecnologici 900 950 8 Analisi dei dati: 4) Statistica descrittiva Column1 Mean Standard Error Andamento temperature fermentatore 379,725 0,444065 Median 380 Mode 378 395 390 Gradi Kelvin 385 380 Standard Deviation 4,864487 Sample Variance 23,66324 Kurtosis -0,63292 Skewness 0,106953 375 370 365 360 355 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 campioni Range 21 Minimum 370 Maximum 391 Sum Count Fabio Scotti - Informatica applicata ai processi biotecnologici 45567 120 9 Analisi dei dati: 5) Test statistici 1. Test di student 2. Ki Test 3. F Test 4. … Fabio Scotti - Informatica applicata ai processi biotecnologici 10 Strumenti e ambienti informatici per la valutazione di parametri statistici Excel Matlab R Programmi ad hoc Fabio Scotti - Informatica applicata ai processi biotecnologici 11 EDITING DATI Problema: esaminare una sequenza temporale di temperature proveniente da uno strumento digitale. Dati in un file TESTO (temperature1.txt) Visualizzazione/Editing Notepad Word (…no) Editor testuali Excel Fabio Scotti - Informatica applicata ai processi biotecnologici 12 EDITING DATI Esempio ad una variabile Fabio Scotti - Informatica applicata ai processi biotecnologici 13 EDITING DATI Esempio ad una variabile (tab separated) Fabio Scotti - Informatica applicata ai processi biotecnologici 14 EDITING DATI Esempio ad una variabile (tab separated) Fabio Scotti - Informatica applicata ai processi biotecnologici 15 GESTIONE DATI EXCEL CARICARE IL FILE (open, all files) Fabio Scotti - Informatica applicata ai processi biotecnologici 16 EXCEL GESTIONE DATI EXCEL Abbiamo i dati. Fabio Scotti - Informatica applicata ai processi biotecnologici 18 Esempio di analisi di dati Attività: Analisi di una sequenza temporale di dati Esempi: Un fermentatore ed un sensore di temperatura. Dati degli esami ematici di un gruppo di laboratori. La temperatura nel tempo di un corpo misurata con immagini all’infrarosso Fabio Scotti - Informatica applicata ai processi biotecnologici 19 Analisi qualitativa in Excel Fabio Scotti - Informatica applicata ai processi biotecnologici 20 Media e varianza in EXCEL Inseriamo la funzione Fabio Scotti - Informatica applicata ai processi biotecnologici 21 Media e varianza in EXCEL Uppure inseriamo il comando a mano =AVERAGE(A1:A120) Fabio Scotti - Informatica applicata ai processi biotecnologici 22 Media e varianza in EXCEL Deviazione standard =STDEV(A1:A120) Fabio Scotti - Informatica applicata ai processi biotecnologici 23 Media e varianza EXCEL Il sistema e’ controllato adeguatamente in temperatura? Fabio Scotti - Informatica applicata ai processi biotecnologici 24 Ulteriori analisi Per rispondere meglio possiamo avvalerci del toolbox statistico di Excel Fabio Scotti - Informatica applicata ai processi biotecnologici 25 ISTOGRAMMA con EXCEL Per rispondere meglio possimo avvalerci del toolbox statistico di Excel (ToolsÆAddinsÆSelezionare Analysis tool) Inserite il toolPAK Preparate i “bin” dell’istogramma Selezionate istogramma Fabio Scotti - Informatica applicata ai processi biotecnologici 26 ISTOGRAMMA con EXCEL Fabio Scotti - Informatica applicata ai processi biotecnologici 27 Valutazione Della forma della distribuzione Fabio Scotti - Informatica applicata ai processi biotecnologici 28 Valutazione Della forma della distribuzione con EXCEL Bin larghi 2 gradi Troppo pochi campioni per poter leggere bene la forma dell’istogramma. Meglio allargare il bin Bin larghi 5 gradi La forma dell’istogramma è più leggibile probabilmente è non simmetrico (controllare il parametro Skewness) Fabio Scotti - Informatica applicata ai processi biotecnologici 29 RIASSUNTO STATISTICO con EXCEL Column1 Mean 379,725 Standard Error 0,444065 Median 380 Mode 378 Standard Deviation 4,864487 Sample Variance 23,66324 Kurtosis -0,632918 Skewness 0,106953 Range 21 Minimum 370 Maximum 391 Sum 45567 Count 120 Fabio Scotti - Informatica applicata ai processi biotecnologici 30