1. RIASSUNTI DI ALCUNI LAVORI. N.B.: In tutti i lavori, la parte informatica è stata personalmente realizzata e curata dal Prof. M.Chiodi, tramite implementazione di apposite procedure in diversi linguaggi di programmazione e/o software dedicato. Nei lavori scritti in collaborazione con specialisti medici dell' Università di Palermo, il contributo del Prof. M.Chiodi è costituito da tutte le elaborazioni ed analisi statistiche. 1. DI ALCUNE PROPRIETÀ OTTIMALI DEL METODO DI RAGGRUPPAMENTO DELLE CLASSI NATURALI. In: "Alcuni lavori di analisi statistica multivariata" a cura di Renato Leoni; Società Italiana di Statistica, Commissione "Analisi Statistiche multiple". Firenze, Aprile 1982, pagg. 25-40. Vengono evidenziate alcune proprietà ottimali del metodo di raggruppamento in classi delle classi naturali, con riferimento alla migliore aderenza del test X² ad una v.c. ², in particolare per quanto riguarda la minimizzazione della perdita di informazione dovuta al raggruppamento. Il test X² viene impiegato per saggiare ipotesi di tipo funzionale; quando alcuni dei parametri sono incogniti, occorre stimarli dal campione; inoltre, se la varabile statistica in esame è di tipo continuo, occorre preliminarmente ottenere una partizione dell'asse reale, in modo da raggruppare le osservazioni in k classi. E' noto che la distribuzione di X² dipende dal metodo con il quale sono stati stimati i parametri incogniti della distribuzione: infatti se le stime dei parametri sono quelle di massima verosimiglianza valutate sul campione raggruppato, la distribuzione di X² è quella di una v.c. ² con k-s-1 gradi di libertà, essendo s il numero dei parametri stimati dal campione. Se invece, come spesso si preferisce, le stime sono quelle di max. verosimiglianza ottenute dal campione non raggruppato, alla v.c. ² va aggiunta una somma ponderata dei quadrati di s v.c. normali standardizzati, con pesi i. Tali pesi sono le soluzioni di una particolare equazione ai determinanti che coinvolge le matrici di informazione delle stime sul campione raggruppato e sul campione non raggruppato, e risultano essere gli autovalori di una matrice che esprime, in ultima analisi, la perdita di informazione dovuta al raggruppamento. Nel lavoro si mostra, anche mediante l'ausilio di simulazioni, come tali autovalori siano molto piccoli per il metodo delle classi naturali, se confrontati con quelli ottenuti con il metodo delle classi di ampiezza uguale e di probabilità uguale. Il confronto è effettuato anche sulla base della distorsione indotta nel livello di significatività , quandola distribuzione nulla di X² viene approssimata mediante una v.c. ², trascurando il contributo degli autovalori i . Curriculum del Prof. Marcello Chiodi pag. 2 PROCEDURES FOR GENERATING PSEUDO-RANDOM NUMBERS FROM A NORMAL DISTRIBUTION OF ORDER P (P>1). Rivista di Statistica Applicata, Milano, vol.19, n.1, 1986, pagg. 7-26. In questo lavoro sono presentati tre metodi per la generazione di scarti normali standardizzati di ordine p. L' impiego di tali metodi è risultato utile in molti studi di simulazione condotti col metodo di Montecarlo allo scopo di mostrare la validità generale del modello normale di ordine p per descrivere gli errori di tipo accidentale da cui sono affetti i dati osservati. Il metodo A, che rappresenta la proposta essenziale del lavoro, scaturisce da una generalizzazione del noto metodo di Box - Muller per la generazione di coppie di numeri casuali normali standardizzati ed indipendenti. La generazione del singolo valore k, numero pseudo casuale normale standardizzato di ordine p, avviene in due fasi: in una prima fase si genera un numero pseudo casuale da una distribuzione Beta di parametri 1/p e 1-1/p con un metodo del tipo accettazione - rifiuto; quindi si moltiplica per un'altra componente casuale, ottenuta per trasformazione diretta di un numero casuale uniforme. Complessivamente occorrono quattro numeri casuali indipendenti uniformi per la generazione di un numero k , con una efficienza teorica (ossia probabilità di accettazione) che non scende mai sotto il 79%; il metodo si è dimostrato particolarmente efficiente, per tutto l'intervallo dei valori assunti da p (1-4), anche sulla base delle indicazioni fornite dai numerosi tests effettuati riportati nel lavoro, per saggiare la bontà delle sequenze ottenute. L'ANALISI PRELIMINARE MULTIVARIATI. DI DATI LONGITUDINALI ANTROPOMETRICI Atti della XXXIV Riunione Scientifica della S.I.S.; Siena, Aprile 1988, vol.3, pagg. 69-76. Viene esposta una applicazione del metodo di analisi dei gruppi per dati longitudinali multivariati (lavoro n.4) su un insieme di dati antropometrici, al fine di ottenere una separazione dei soggetti secondo lo stadio dello sviluppo puberale raggiunto. Il problema dell'identificazione di eventuali tipologie morfologiche ed evolutive è cruciale quando le rilevazioni sono state fatte nel periodo dello sviluppo puberale, che ha una dinamica del tutto speciale, ma in stadi diversi di tale sviluppo. E' noto infatti che individui diversi si differenziano, rispetto ad esempio all'altezza, per diversi fattori: il momento di inizio dello scatto di crescita; il momento in cui si raggiunge il picco della velocità; l'entità della crescita (in buona parte indipendente dal livello staturale antecedente la pubertà) ed infine la durata di tale evoluzione. Pertanto le variabilità fra soggetti osservati in questo periodo sono in generale molto maggiori di quelle osservabili nell'infanzia o nella maturità. Nel lavoro vengono esposti i risultati di un'applicazione del metodo di analisi dei gruppi per dati longitudinali multivariati (lavoro n.4) ad un insieme di 116 ragazzi fra i 10 ed i 14 anni, su cui erano state rilevate altezza e apertura delle braccia (selezionate fra numerose variabili antropometriche ed andrologiche) in cinque tempi diversi su un intervallo di due anni. Vengono riportati essenzialmente le curve evolutive medie , insieme con gli incrementi medi semestrali, nei cinque gruppi trovati. Le spezzate empirche sintetiche dei vari gruppi si differenziano sia per l'entità degli incrementi, che per le forme, che corrispondono approssimativamente a segmenti diversi di una curva logistica e a fasi diverse dell'evoluzione puberale maschile. La metodologia proposta si è pertanto rivelata utile anche in considerazione del fatto che l'andamento evolutivo non era in generale correlato con l'età cronologica iniziale dei soggetti. Curriculum del Prof. Marcello Chiodi pag. 3 THE CLUSTERING OF LONGITUDINAL MULTIVARIATE DATA WHEN TIME SERIES ARE SHORT. Dal volume: Multiway data analysis. Ed. R.Coppi, S.bolasco. Elsevier Science Publisher B.V. (North-Holland ), 1989 Viene presentato un' approccio all'analisi dei gruppi di dati longitudinali multivariati, mediante il quale le unità vengono raggruppate secondo la somiglianza delle curve evolutive di p diversi caratteri quantitativi; il metodo risulta utile in particolare quando i dati sono relativi ad intervalli temporali piuttosto limitati, e non è quindi possibile seguire un approccio analitico per ricavare un indicazione sintetica delle p curve di crescita individuale (logistica, polinomiale o altro). Inoltre, dal momento che il metodo è concepito per la fase preliminare di analisi statistica di particolari matrici a tre vie (di tipo cubico), va considerata la possibilità di errori d'osservazione, che possono essere molto importanti con serie storiche brevi, dal momento che un errore al tempo t influenza la valutazione degli incrementi nei periodi t-1,t e t,t+1. Pertanto nel valutare la similarità fra due individui occorrerà considerare le loro curve evolutive complete, che vengono valutate simili se presentano andamenti simili, a prescindere dall'entità assoluta delle variabili. In dettaglio come misura (della dissimilarità) viene presa la varianza delle differenze osservate fra le due unità nelle T occasioni rilevate. Tali misure sono poi opportunamente ponderate, all' interno dei gruppi e standardizzate per costruire la funzione obiettivo da minimizzare. L'algoritmo iterativo parte dal calcolo di una prima partizione ottenuta calcolando per ciascun individuo gli incrementi globali per tutte le variabili (valore al tempo T - valore al tempo 1). Su queste nuove variabili viene implementato l'algoritmo di Mineo per una scelta razionale della partizione iniziale. Quindi nella seconda fase vengono considerate le curve evolutive complete, ed ogni unità viene spostata di gruppo fin quando non è più possibile decrementare il valore del criterio di raggruppamento. Ad ogni passo il nuovo valore della funzione obiettivo viene calcolato mediante semplici formule di aggirnamento, che rendono l'algoritmo sufficientemente veloce. Infine vengono riportati i risultati di un applicazione condotta su un insieme di 116 ragazzi in età puberale, su ciascuno dei quali erano state rilevate due variabili in cinque distinte occasioni, in un arco di due anni. Il metodo ha fornito utili indicazioni per l'identificazione di possibili tipologie evolutive. Risultati più dettagliati sul contesto applicativo si trovano nei lavori n.8 e n.10. Curriculum del Prof. Marcello Chiodi pag. 4 SULLE DISTRIBUZIONI DI CAMPIONAMENTO DELLE STIME DI MASSIMA VEROSIMIGLIANZA DEI PARAMETRI DELLE CURVE NORMALI DI ORDINE P. Pubblicato il 21-12-1988 presso l'ufficio stampa della Prefettura di Palermo e presso l'Ufficio stampa della Procura della Repubblica di Palermo ai sensi dell' Art.1 D.L. 31-8-1945,n.660. Viene proposta un' approssimazione per la distribuzione di campionamento dello stimatore di massima verosimiglianza del parametro di scala di una curva normale di ordine p, con p>1, quando la media è stimata dal campione. Le stime Mp e ;^p;p di massima verosimiglianza dei parametri di locazione e di scala, sono ottenute risolvendo le equazioni: |xi - Mp|p-1sign(xi - Mp)=0, e |xi - Mp| p =n;^p;p, Mediante uno sviluppo in serie (troncato al secondo termine) viene ricavata un'approssimazione del valor medio teorico di ;^p;p, data da : E(;^p;p)=p;p (n-p/2)/n+ O(n-3/2). Partendo da questo risultato viene trovata un' approssimazione della distribuzione di ;^ p ;p secondo una Gamma di parametri l=n/(pp;p) e c=n/p-1/2, che per p=2 fornisce il noto risultato esatto (ossia una v.c. 2 con n-1 gradi di libertà). E' anche riportato un test per la verifica di un' ipotesi concernente la media, quando il parametro di scala è incognito. Tale test viene ricavato dal rapporto delle verosimiglianze e, sfruttando anche i precedenti risultati relativi alla distribuzione campionaria di ;^p;p, si ottiene anche la distribuzione nulla approssimata di tale test, riconducibile, mediante trasformazioni, a quella di una v.c. Beta. La bontà delle approssimazioni è verificata mediante numerose simulazioni che mostrano come anche per piccoli valori di n, tali risultati siano soddisfacenti. Curriculum del Prof. Marcello Chiodi pag. 5 A PARTITION TYPE METHOD FOR CLUSTERING MIXED DATA. Su:Rivista di Statistica Applicata,; Vol. 2,n.2, 1990, pagg.135-147 Viene proposto un metodo non gerarchico per suddividere in m gruppi omogenei un insieme di n unità, su ciascuna delle quali è stato osservato un vettore di p variabili, fra cui alcune numeriche ed altre non numeriche. Inizialmente vengono segnalati gli approcci principali per raggruppare dati misti, che consistono a) nel trasformare le variabili in nuove variabili tutte dello stesso tipo; b) nell'effettuare analisi separate per ogni tipo di variabile, per poi unificare le partizioni finali; c) sfruttare metodi che trattino simultaneamente variabili numeriche e mutabili. Il metodo proposto appartiene a quest'ultima categoria, e si fonda sulla definizione di un particolare indice di distanza medio standardizzato, che tiene conto della diversa natura delle variabili. In breve, la funzione obiettivo da minimizzare è del tipo: f (Gm) = Error! Error! D k j (1). dove Gm è la generica partizione delle n unità in m gruppi e Dkj è una misura standardizzata della diversità media delle unità nel k-esimo gruppo misurata per la jesima variabile data da: Dkj = nkVkj/(nV. j). Gli indici Vkj e V. j misurano la diversità media della j-esima variabile nel k-esimo gruppo e sull'intero insieme dei dati . Utilizzando un'approccio unificato per la distanza interelementi otteniamo un indice V proporzionale alla varianza per le variabili numeriche (e per le mutabili ordinabili, avendone considerato i ranghi) ed all'indice di eterogeneità del Gini per le mutabili sconnesse. Per trovare la partizione ottima, ossia per minimizzare la (1), abbiamo impiegato un algoritmo iterativo che si fonda su una scelta razionale di una partizione iniziale, ottenuta utilizzando il metodo di Mineo (1985) per le variabili numeriche, ed un metodo fondato sull'esame delle distribuzione di frequenza per le mutabili sconnesse. Nel lavoro viene mostrato come questo criterio di scelta razionale risulti superiore ad una scelta casuale della partizione iniziale. Infine sono riportati i risultati di un applicazione su dati andrologici, concernente 580 ragazzi, su ciascuno dei quali erano state rilevate 8 variabili, fra cui 3 numeriche e 5 qualitative sconnesse. Si vede come una suddivisione in tre gruppi permette di identificare tre diversi stadi dello sviluppo puberale, mentre l'analisi dei contributi standardizzati al criterio di raggruppamento permette di identificare la rilevanza delle diverse variabili nella suddivisione in gruppi. Curriculum del Prof. Marcello Chiodi pag. 6 ANALISI DEI GRUPPI DI DATI MISTI IN PRESENZA DI DATI INCOMPLETI. "Atti delle giornate di studio su Classificazione e Analisi dei dati ", Pescara 11/12 ottobre 1990. Accade di frequente che, nelle indagini su dati reali, una parte delle osservazioni risulti incompleta, per cui alcune unità sono in realtà costituite da un vettore con meno di p elementi, essendo p il numero totale di variabili rilevate, fra le quali alcune numeriche ed altre mutabili anche sconnesse. Spesso si vogliono determinare m gruppi caratterizzati da una forte omogeneità interna, prima di procedere ad ulteriori analisi sui dati misti multivariati. Sorge il problema del trattamento delle unità incomplete, ammesso comunque che una frazione delle osservazioni sia comunque completa, e possa quindi essere presa come insieme di riferimento. L' approccio proposto nel lavoro consiste nel determinare inizialmente una partizione delle sole unità complete (col metodo di analisi dei gruppi per variabili miste proposto nel lavoro n.6), di modo che si possa ottenere intanto qualche informazione sulla struttura di variabilità dei dati, inizialmente non nota, per stabilire se una suddivione in gruppi è opportuna ed eventualmente qual è il numero m di gruppi più appropriato. Successivamente ciascuna unità incompleta va attribuita, sulla base delle sole informazioni disponibili per quella osservazione, alla partizione trovata sui dati completi, indipendentemente dal tipo di variabili rilevate, numeriche e non; l'eventuale stima dei valori mancanti con opportune tecniche, potrà essere effettuata in modo più efficiente all' interno dei gruppi trovati. Nel lavoro viene illustrato il procedimento seguito per l'attribuzione delle unità incomplete alla partizione trovata, insieme con alcune caratteristiche dell'algoritmo impiegato; infine vengono riportati i risultati di un'applicazione del metodo ad un insieme di 1521 ragazzi, su ciascuno dei quali erano state rilevate 8 variabili, di cui soltanto tre erano quantitative; inoltre, 941 osservazioni risultavano incomplete, con diversa percentuale di valori mancanti per le diverse variabili. Sono riportati dei confronti su indici sintetici calcolati sul totale dei 580 dati completi e sui dati incompleti, riattribuiti ai gruppi secondo il procedimento proposto. Inoltre sono riportate le distribuzioni di frequenza delle cinque mutabili sconnesse per i 580 dati completi e per i dati incompleti riattribuiti. Da un confronto empirico si nota che le medie delle tre variabili nei tre gruppi, valutate sui dati completi, sono pressocchè uguali a quelle calcolate sui dati incompleti riattribuiti ai tre gruppi. Inoltre si nota come anche le distribuzioni di frequenze relative delle mutabili, valutate sui dati completi, sono piuttosto vicine a quelle ricavate dai dati incompleti, suddivisi nei tre gruppi. Curriculum del Prof. Marcello Chiodi pag. 7 APPROSSIMAZIONI SADDLEPOINT ALLE DISTRIBUZIONI CAMPIONARIE DEGLI STIMATORI DI MASSIMA VEROSIMIGLIANZA DEI PARAMETRI DELLE CURVE NORMALI DI ORDINE P PER PICCOLI CAMPIONI. Atti della XXXVII Riunione Scientifica della SIS, San Remo 6-8 Aprile 1994, ed. CISU, vol.II, pagg. 139-146. In questo lavoro vengono fornite delle approssimazioni, mediante determinazione del saddlepoint (punto di sella), alle distribuzioni campionarie degli stimatori di massima verosimiglianza dei parametri di posizione e di scala delle curve normali di ordine p. Dopo un breve richiamo sulle curve normali di ordine p e sugli stimatori di massima verosimiglianza dei parametri di posizione e di scala, e dopo un cenno alla tecnica della determinazione del saddlepoint per gli stimatori di tipo M, classe nella quale rientrano gli stimatori di massima verosimiglianza, nel lavoro vengono esposte le peculiarità dell' applicazione al nostro caso; infine vengono riportati alcuni esempi di approssimazioni alle densità ed alle probabilità integrali dei suddetti stimatori che sono risultate più che soddisfacenti già per n=5 e in corrispondenza di un ampio range di valori di p. Tali approssimazioni sono state confrontate con le distribuzioni campionarie ottenute tramite simulazione effettuata su 1.000.000 di campioni per ciascuna coppia di valori di p e n. A TEACHING EXPERIENCE THROUGH THE DEVELOPMENT OF HYPERTEXTS AND OBJECT ORIENTED SOFTWARE. Proceedings del Convegno “NGUS’95 III International meeting: new trends in theory, software and application of multidimensional data analysis” editi a cura di F. Mola (Univ. Di Napoli) e stampati dal CISIA di Parigi. In questo lavoro vengono presentate alcune nuove esperienze di insegnamento di argomenti statistici, concernenti lo sviluppo di un ipertesto e di software didattico, sviluppato con tecnologia orientata agli oggetti in ambiente grafico, principalmente in tema di simulazioni statistiche. L’ipertetsto è risultato utile durante i miei corsi di statistica matematica, come supporto al materiale didattico ordinario. Il software in ambiente grafico mi ha dato la possibilità di introdurre alcuni argomenti formalmente complessi mediante un approccio grafico: il software sulle simulazioni è stato usato anche per visualizzare distribuzioni campionarie simulate (in campioni univariati e nella regressione lineare e non lineare); questa possibilità mi è stata didatticamente utile sia per corsi avanzati, sia per corsi introduttivi di statistica, per dare alcune idee di base sull’inferenza statistica, senza fare ricorso a molte formule; viene anche mostrata la distribuzione campionaria simulata della media aritmetica per campioni provenienti da differenti popolazioni. Curriculum del Prof. Marcello Chiodi pag. 8 GENERATION OF PSEUDO RANDOM VARIATES FROM A NORMAL DISTRIBUTION OF ORDER P. Pubblicato su Statistica Applicata (Italian Journal of Applied Statistics) 1995, Vol.7, n.4, pagg. 401-416 Negli studi di simulazione riguardanti il comportamento di particolari stimatori in caso di allontanamento dalle ipotesi di normalità, la famiglia delle curve normali di ordine p svolge un ruolo fondamentale, dal momento che al variare del parametro di forma p (con p1), rappresenta una famiglia di curve simmetriche molto utile per la descrizione di errori accidentali. Esistono molti metodi per la generazione di numeri pseuso-casuali da questa famiglia di curve, fondati su trasformazioni di variabili casuali, su metodi di accettazione-rifiuto o su metodi fondati su rapporti di numeri uniformi. In un precedente lavoro (Chiodi, 1986) abbiamo presentato un metodo fondato su una generalizzazione della nota formula di Box-Muller; nel presente lavoro viene prima presentato un miglioramento di questa routine, che ha il grande pregio di essere codificabile con poche istruzioni; nel seguito del lavoro vengono presentati due nuovi algoritmi fondati su regole di accettazionerifiuto basati su tecniche di compressione della funzione di densità. Le prestazioni di questi nuovi metodi vengono confrontate con quelle di altri metodi noti in letteratura, sia dal punto di vista della velocità che da quello della bontà statistica delle sequenze ottenute. Gli algoritmi fondati su metodi di accettazione rifiuto proposti, sebbene richiedano una codifica piuttosto lunga, sono risultati di gran lunga i più veloci. THE ANALYSIS OF AUXOLOGICAL DATA BY MEANS OF NONLINEAR MULTIVARIATE GROWTH CURVES (coautore.A.M. Mineo) in corso di pubblicazione sugli atti del convegno del gruppo italiano della IFCS, Pescara luglio 1997; Springer-Verlag edit. Nel lavoro viene trattato il problema dell'analisi di dati costituiti da curve di crescita multivariate rilevate su diversi soggetti, per cui in effetti si stanno trattando matrici a tre vie. Tuttavia non sempre è possibile utilizzare le diverse tecniche fattoriali proposte per analizzare matrici a tre vie, in particolare se i tempi delle rilevazioni sono differenti per i diversi soggetti e se sono diversi anche gli intervalli fra osservazioni successive. Un approccio multilivello basato su modelli polinomiali si rivela inoltre inadeguato con modelli di crescita intrinsecamente non lineari. Nel lavoro viene proposta una tecnica di analisi di dati auxologici multivariati che tiene conto della non linearità intrinseca delle curve di crescita e della autocorrelazione presente nella componente residua per osservazioni longitudinali rilevate in tempi qualsiasi. Viene presentata un'applicazione ad un insieme di dati reali concernenti le misure di un campione di bambini osservate durante i primi anni di vita; la tecnica proposta è risultata abbastanza flessibile, ed in grado di fornire risultati di interpretazione relativamente semplice. Curriculum del Prof. Marcello Chiodi pag. 9 TECNICHE DI SIMULAZIONE IN STATISTICA. volume in corso di pubblicazione nella Collana del Dipartimento di Matematica e Statistica dell'Università degli Studi di Napoli Federico II-Serie didattica. pagine n. 226 E' un volume nato raccogliendo il materiale di diverse esperienze didattiche e di ricerca dell'autore nel campo delle simulazioni. Sommario degli argomenti: PRESENTAZIONE. SIMULAZIONI E METODO MONTECARLO: Simulazioni in statistica. Simulazione di modelli deterministici. GENERAZIONE DI NUMERI PSEUDO-CASUALI DA UNA DISTRIBUZIONE UNIFORME: Algoritmi di generazione di numeri pseudo-casuali uniformi. Test di casualità. Altri test di casualità. GENERAZIONE DI NUMERI PSEUDO-CASUALI DA DISTRIBUZIONI QUALSIASI: Metodo dell’ inversione della funzione di ripartizione. Inversione della funzione di ripartizione per variabili continue. METODI BASATI SU TRASFORMAZIONI DI VARIABILI ALEATORIE: Distribuzione normale: formula di Box-Muller. Generazione di numeri pseudo-casuali da distribuzioni Gamma e Beta. Generazione di numeri casuali da distribuzioni normali di ordine p (p>1). Generazione di numeri aleatori da particolari distribuzioni discrete. Test di casualità per sequenze non uniformi.METODO DI ACCETTAZIONE-RIFIUTO E TECNICHE COLLEGATE: Metodo di accettazione rifiuto: caso generale. Esempi sulle tecniche di compressione per variabili continue. Metodo di accettazione-rifiuto per variabili discrete.Metodi composti. Rapporto di uniformi GENERAZIONE DI VETTORI DI NUMERI PSEUDOCASUALI: Distribuzioni a contorni ellissoidali. Generazione di vettori casuali da una distribuzione normale multivariata qualsiasi. Miscugli di distribuzioni normali multivariate. Generazione di vettori casuali da una particolare distribuzione beta multivariata (distribuzione di Dirichlet). Generazione di tavole di contingenza. INTEGRAZIONE CON TECNICHE DI TIPO MONTECARLO IN R1 E IN Rn: Integrazione con la tecnica Montecarlo "hit or miss". Tecnica Montecarlo pura. Tecniche di riduzione della varianza. Integrazione di funzioni di più variabili. Metodo Montecarlo per catene di Markov: "Gibbs sampler". Metodi quasi-Montecarlo. SIMULAZIONI IN STATISTICA: Simulazioni di distribuzioni campionarie di stimatori e test. Schema di algoritmo di simulazione di distribuzioni campionarie. Schemi di simulazione diversi dal campionamento casuale semplice. Distribuzione delle medie e delle varianze simulate e relativi intervalli di confidenza. Simulazioni e inferenza. Simulazione di distribuzioni campionarie di test. Banda di confidenza per la distribuzione di frequenza empirica. Livelli di copertura empirici di intervalli di confidenza. Esempi. Altri usi delle tecniche di simulazione in Statistica. APPENDICE E COMPLEMENTI: Test di casualità su generatori congruenziali. Esercizi e temi di studio-tavole. Algoritmo di compressione per la generazione di numeri casuali da una distribuzione normale di ordine p. Riferimenti bibliografici. Indice analitico degli argomenti. Curriculum del Prof. Marcello Chiodi pag. 10 ALCUNE CONSIDERAZIONI IN TEMA DI ANALISI DEI GRUPPI. A cura dell' Istituto di Statistica della Facoltà di Economia e Commercio di Palermo; pubblicato il 22.6.1982 presso l'ufficio stampa della Prefettura di Palermo e presso l'Ufficio stampa della Procura della Repubblica di Palermo ai sensi dell' Art.1 D.L. 31-8-1945, n.660. In questo lavoro, tratto in parte dalla tesi di laurea, vengono affrontati alcuni dei punti cruciali della cluster analysis: scelta della funzione obiettivo e della metrica, il problema del numero dei gruppi e della scelta dell' algoritmo. In generale fra i metodi di analisi dei gruppi rientrano tutte quelle tecniche impiegate per riconoscere, in un insieme di dati multivariati, supposto non omogeneo, dei gruppi o sottoinsiemi con una forte omogeneità interna. Per ottenere una definizione meno vaga occorre fare riferimento alla natura dei dati in esame (ossia alle informazioni a priori sulla loro struttura di variabilità) ed agli scopi dell'analisi. Nella definizione del problema interviene comunque il concetto di omogeneità interna, che non è definibile in modo unico, ma soltanto in funzione della struttura interna dei dati, che a priori (ossia prima dell'analisi) non è nota. Nel lavoro viene discussa l'interdipendenza fra la funzione scelta per misurare l'omogeneità interna, la metrica e la funzione obiettivo, da minimizzare rispetto a tutte le possibili partizioni delle n unità in k gruppi. Inoltre vengono esaminati i vantaggi e gli svantaggi di alcune fra le metriche (e funzioni obiettivo collegate) più usate, insieme al problema della determinazione del miglior numero k di gruppi . Viene sottolineato nelle conclusioni il fatto che qualsiasi algoritmo di analisi dei gruppi tende ad imporre una determinata struttura ai dati, per cui risulta impossibile un'applicazione corretta di tali metodi senza un minimo di conoscenza della struttura di variabilità interna dei dati. UN METODO PER LA GENERAZIONE DI SCARTI NORMALI STANDARDIZZATI DI ORDINE R. Annali della Facoltà di Economia e Commercio, Palermo, XXXV, n.3-4, 1981, pagg. 155-163. Viene esposto un primo metodo per la generazione di scarti normali standardizzati di ordine r (o ordine p). La proposta verrà migliorata e perfezionata nel lavoro n°4. Curriculum del Prof. Marcello Chiodi pag. 11 L' ANALISI DELLE CORRISPONDENZE: UN ESAME CRITICO. Atti della XXXIII Riunione Scientifica della S.I.S, Bari, vol.2, 1986, pagg. 221228. Coautore: Prof. A. Mineo. In questo lavoro vengono messe in risalto alcune carenze logiche di questo metodo di analisi di una tavola di contingenza, insieme ad alcune pratiche poco ortodosse seguite spesso nell' applicazione pratica di tale metodica. Una prima osservazione riguarda l'originalità del metodo che è stato adottato e diffuso principalmente da diversi Autori della scuola francese nella cosiddetta analyse des donnèes . Secondo tali autori l' originalità dell' approccio starebbe anche nella facilità di interpretazione dei risultati anche da parte di non statistici. Un'altra osservazione rigurda la pratica, a nostro avviso poco condivisibile, di ricondurre qualsiasi tipo di variabile con alto potere informativo a mutabili sconnesse, con più basso potere informativo, per potere applicare tale metodica, in quanto la perdita di informazione sarebbe compensata dalla bontà delle analisi sintetiche fornite dall' analisi delle corrispondenze. L' obiezione principale riguarda comunque il modo in cui vengono spesso interpretati i risultati sul piano determinato dai primi due fattori: le modalità di A ( o di B) che risultano molto vicine vengono considerate molto omogenee, ed eterogenee quelle distanti, mentre il giusto significato da dare a punti Ai , Bj molto vicini, è quello di una dipendenza massima fra le modalità dei due caratteri ad essi corrispondenti. Tale errore di interpretazione è indotto dall' avere assimilato l'indice X2, che misura l'allontanamento dall' indipendenza fra due mutabili, ad una distanza euclidea classica. Fra le altre cose viene anche segnalato che una scomposizione fattoriale andrebbe preceduta sempre da un test sulla significatività del valore osservato di X 2, viceversa si rischia di scomporre ed analizzare una associazione che è stata osservata solo per errori di rilevazione o per errori di campionamento. LA PUBERTÀ MASCHILE A PRELIMINARE. PALERMO: EPIDEMIOLOGIA E ANALISI STATISTICA Dagli Atti del V Congresso Nazionale della Soc. Ital. di Andrologia. Bologna, Marzo 1987; ACTA MEDICA Ed., 1987; pagg. 1037-1053. Vengono esposte alcune tecniche esplorative di dati concernenti lo sviluppo puberale maschile, rilevato trasversalmente e longitudinalmente tramite un grande campione di ragazzi palermitani. In questo primo lavoro è affrontato il problema della scelta delle variabili più rappresentative dello sviluppo puberale. L'insieme dei dati complessivo era costituito da 1521 ragazzi, su ciascuno dei quali erano rilevate 60 variabili, fisiologiche e patologiche. Fra le variabili antropometriche sono state identificate, mediante un metodo di scelta delle variabili, quelle che meglio descrivevano la variabilità complessiva, per ciascuno dei semestri di età dei soggetti. Lo stesso è stato fatto per alcune variabili andrologiche, riuscendo a selezionare gruppi di variabili che spiegano il 90% della variabilità, senza bisogno di ricorrere a trasformazioni in componenti principali, la cui interpretazione in termini antropometrici ed andrologici sarebbe stata ardua. Successivamente vengono esaminate le incidenze delle diverse patologie puberali, in funzione di diversi fattori. Curriculum del Prof. Marcello Chiodi pag. 12 PRESENZA, CONSISTENZA E MODALITÀ D'USO DELLE BIBLIOTECHE NELLE SCUOLE SICILIANE" PRESENZA E QUALITÀ DELLE ATTREZZATURE DEI GABINETTI SCIENTIFICI NELLE SCUOLE SICILIANE". Da: Indagine campionaria sul patrimonio tecnico bibliotecario ed informatico delle scuole siciliane, condotta, per conto dell' I.R.R.S.A.E. Sicilia, dal C.C.R.S. della Fac. di Econ. e Comm. Univ. di Palermo, diretto dal Prof. A. Mineo; Palermo, Febbraio 1988. Si analizzano le risposte ad un questionario inviato alle scuole siciliane per indagare sul grado di impiego delle biblioteche e dei gabinetti scientifici: le analisi effettuate sui singoli items e sulle loro interrelazioni hanno permesso di mostrare alcune carenze strutturali del patrimonio bibliotecario e tecnico. L'indagine è stata effettuata su un grosso campione e per le caratteristiche più importanti sono state calcolate le stime per punto e per intervallo delle corrispondenti quantità nel totale delle scuole siciliane. Le tecniche utilizzate sono state molteplici, in funzione del tipo di informazione disponibile per ciascuna variabile: per finalità descrittive sono state riportate numerose tavole a doppia e tripla entrata con distribuzioni di frequenza assoluta e percentuale, insieme a numerosi indici sintetici (medie, varianze, etc.) per le variabili quantitative, riportati in tavole riassuntive suddivise secondo numerose caratteristiche, quali tipo di scuola, provincia etc. Per la verifica della presenza di dipendenza fra i vari items, sono stati prevalentemente impiegati il test X2 ed il rapporto di correlazione. Per quanto riguarda le biblioteche sono state analizzate numerose caratteristiche, quali la consistenza del patrimonio librario, l' organizzazione, il personale, il tipo di archiviazione, il grado di sfruttamento sia in assoluto che in termini di prestiti per singolo studente e per singolo docente. Queste caratteristiche sono state esaminate singolarmente, ma anche in funzione del tipo di scuola (elementare, medie e superiori) e della provincia. Sono state esaminate anche le realzioni incrociate fra i caratteri più interessanti, quali, ad esempio, tipo di scuola, popolazione studentesca, numero di libri, numero di addetti e numero prestiti. Una caratteristica delle risposte è stata la grande mole di dati mancanti, che ha reso difficoltosa l'analisi di alcuni items; comunque, si è visto che in generale la consistenza assoluta del patrimonio librario è soddisfacente e varia significativamente secondo il tipo di scuola e secondo la popolazione studentesca. I dati preoccupanti vengono invece dall'impiego delle biblioteche in termini di organizzazione e di servizio prestiti: il numero dei prestiti non appare in generale strettamente collegato al numero degli studenti nè al tipo di scuola; inoltre è in generale basso il numero medio di prestiti per studente, da collegare probabilmente con lo scarsissimo livello organizzativo (in termini di archivio e di numero di addetti) riscontrato. Per quanto riguarda i gabinetti scientifici sono state esaminate alcune caratteristiche quali la presenza, l'impiego nella didattica ed il giudizio dato sul valore e sull'attualità delle attrezzature. In generale l'impiego delle attrezzature nella didattica è diffuso, ma il giudizio sulla qualità e sul valore è sostanzialmente negativo, e non appare essere significativamente diverso fra le nove provincie siciliane. Curriculum del Prof. Marcello Chiodi pag. 13 POSSIBILITÀ DI IDENTIFICAZIONE DI TIPOLOGIE EVOLUTIVE DEL PERIODO PUBERALE; PROPOSTA DI UNA METODICA PER FINALITÀ PREDITTIVE. Su: Rivista di pediatria preventiva e sociale-Nipiologia ; Edizioni Minerva Medica - Torino, 1988. Si analizzano le relazioni fra le evoluzioni di variabili antropometriche, e le evoluzioni di variabili andrologiche nel periodo puberale. Le variabili antropometriche sono preliminarmente scelte secondo la capacità di identificare dei gruppi con evoluzioni simili. Vengono estesi ed ampliati i risultati preliminarmente commentati nel lavoro n.8, incentrando l'attenzione sulle caratteristiche di tipo andrologico, collegate con le caratteristiche antropometriche che sono state impiegate per una separazione dei soggetti in cinque gruppi secondo curve di crescita simili. Vengono analizzate le singole curve di crescita per tutti i caratteri, identificando, per ciascun gruppo, le spezzate empiriche che più si allontanano dall'evoluzione media del gruppo. Inoltre sono riportate le matrici di correlazione fra le variabili all'interno dei gruppi, opportunamente ponderate su tutti i soggetti. Si evidenziano, in corrispondenza ai gruppi, strutture evolutive e morfologiche simili, che hanno rivestito una notevole importanza clinica per lo studio e l'identificazione di eventuali patologie soggettive nell'evoluzione puberale di qualche carattere. DUE TESTS PER LA VERIFICA DELLE IPOTESI DI OMOGENEITÀ ED OMOSCEDASTICITÀ PER CAMPIONI PROVENIENTI DA DISTRIBUZIONI NORMALI DI ORDINE P. Pubblicato il 21-12-1988 presso l'ufficio stampa della Prefettura di Palermo e presso l'Ufficio stampa della Procura della Repubblica di Palermo ai sensi dell' Art.1 D.L. 31-8-1945, n.660. Quando si vogliono verificare le ipotesi di uguaglianza delle medie di k popolazioni, con parametro di scala incognito, o l'ipotesi di omoscedasticità, essendo incognite le medie, se le popolazioni hanno delle distribuzioni normali di ordine p, non possono impiegarsi i tests F e di Bartlett, validi per le curve normali di ordine p=2. In questo lavoro vengono pertanto ricavati, dal rapporto delle verosimiglianze, due tests per la verifica dell'ipotesi di omogeneità e di omoscedasticità per campioni provenienti da curve normali di ordine p, con p in generale diverso da 2, disponendo delle informazioni provenienti da k campioni anche di diversa numerosità. Le approssimazioni alle distribuzioni di campionamento dei due tests proposti sono ricavate in parte anche dai risultati del lavoro precedente, sulla distribuzione di ;^p;p. La distribuzione nulla del test per l'ipotesi di omogeneità di k medie è ricondotta a quella di una v.c. Beta, mentre quella del test riguardante l'uguaglianza di k parametri di scala è approssimata mediante una v.c. gamma. I parametri di tale v.c. gamma sono funzione di p, k e delle numerosità campionarie, e sono ottenuti imponendo la condizione che i primi due momenti dei test coincidano con quelli di dette distribuzioni teoriche. Quando p=2, i due test coincidono con il test F e con quello di Bartlett, mentre per valori di n molto grandi si ottengono le note approssimazioni alla distribuzione del logaritmo del rapporto delle verosimiglianze tramite una v.c. 2 . Le approssimazioni alle distribuzioni di campionamento dei due tests proposti sono verificate anche mediante simulazioni, condotte per diversi valori di p, k ed n. Curriculum del Prof. Marcello Chiodi pag. 14 VARICOCELE AND PUBERTY, A TRANSVERSAL AND LONGITUDINAL SURVEY. In: Acta Europaea Fertilitatis , Vol.19, n.4, 1988, pagg. 189-199. Vengono analizzate alcune caratteristiche relative al varicocele sinistro maschile, patologia che influenza la fertilità, sulla base di un' indagine condotta su 1488 soggetti, e di una condotta longitudinalmente su 154 soggetti osservati per due anni. Le relazioni osservate fra il grado di varicocele ed altre variabili andrologiche hanno fornito agli specialisti delle utili indicazioni quantitative sulla influenza del periodo puberale nella manifestazione della patologia. Le analisi condotte rappresentano un'estensione sui soggetti dell'indagine palermitana (trasversale e longitudinale) presentata nel lavoro n.15. In particolare è esaminata, per l'indagine longitudinale, la dipendenza del grado del varicocele (in termini anche di momento di inizio della patologia) dalla comparsa e dall' evoluzione di alcuni caratteri andrologici che identificano lo sviluppo puberale (comparsa delle erezioni e della peluria pubica, volume testicolare). Si è potuta così esplorare in dettaglio la relazione fra il varicocele e le fasi dello sviluppo puberale. EPIDEMIOLOGIA DEL VARICOCELE. Dal volume: "Il Varicocele - fisiopatologia clinica e terapia", a cura dei Proff. M.A. Latteri e F Gattuccio. USES edizioni scientifiche Firenze, 1989. Questo lavoro è inserito in un volume, curato dai Proff. Latteri e Gattuccio del Policlinico di Palermo, sulla fisiopatologia del varicocele, che raccoglie contributi di numerosissimi studiosi. In questo lavoro viene esaminata l'epidemiologia del varicocele, sfruttando i dati di due grosse indagini effettuate a Palermo su un campione di 1521 ragazzi ed a Padova su un campione di 1433 soggetti. Sono state prese in considerazione le distribuzioni del varicocele (distinto in diversi gradi e in destro e sinistro) secondo l'età, il grado di sviluppo puberale misurato dal volume testicolare, dal grado di peluria pubica e da altri indicatori, quali la differenza di volume testicolare destro e sinistro. Inoltre sono presentate delle analisi condotte su un campione esaminato longitudinalmente per due anni, per cercare un collegamento fra l'insorgere del varicocele e il momento d'inizio dello sviluppo puberale. NUOVE TECNOLOGIE PER L’INSEGNAMENTO DELLA STATISTICA. Intervento invitato a Perugia (Novembre 1995) ad una tavola rotonda su: “Nuove tecnologie informatiche nell’insegnamento della statistica”, organizzata dal Prof. Corrado Provasi nell’ambito di un convegno del CIRDIS (Centro interdipartimentale per la didattica della statistica). In questa breve comunicazione vengono succintamente descritte alcune recenti esperienze dell'autore in tema di sperimentazione didattica; in particolare ci si sofferma sull'impatto positivo sulla didattica di software interattivo appositamente elaborato, quali ipertesti e software di simulazioni. ALL’INTERNO DI UNO STUDIO EFFETTUATO DAL CIRPIET (Centro Interdipartimentale di Ricerche sulla Programmazione Informatica dell’Economia e delle Tecnologie) nell’ambito di una convenzione con la Regione Siciliana, nella sub-ricerca Modalità di formazione dell’imprenditoria siciliana coordinata dal Prof. A.Mineo, ha curato le parti concernenti: Localizzazione geografica dell’imprenditoria media attuale-Individuazione dei caratteri delle matrici sociali e delle relative modalità di intervista-Formulazione di un questionario e strutturazione del campione di medie imprese. Curriculum del Prof. Marcello Chiodi pag. 15 DIFFERENT HEART RATE PATTERNS IN OBSTRUCTIVE APNEAS DURING NREM SLEEP. (coautori: M.R. Bonsignore, S. Romano, O. Marrone, G. Bonsignore). Pubblicato su Sleep, 1997 E' stata condotta un'analisi per studiare i fattori che influenzano le differenze fra iritmi cardiaci durante i periodi di apnea ostruttiva di un gruppo di pazienti tenuti sotto osservazione durante il sonno.