riassunti - Dipartimento di Scienze Statistiche e Matematiche

1. RIASSUNTI DI ALCUNI LAVORI.
N.B.:
 In tutti i lavori, la parte informatica è stata personalmente realizzata e curata
dal Prof. M.Chiodi, tramite implementazione di apposite procedure in diversi
linguaggi di programmazione e/o software dedicato.

Nei lavori scritti in collaborazione con specialisti medici dell' Università di
Palermo, il contributo del Prof. M.Chiodi è costituito da tutte le elaborazioni
ed analisi statistiche.
1. DI
ALCUNE PROPRIETÀ OTTIMALI DEL METODO DI RAGGRUPPAMENTO
DELLE CLASSI NATURALI.
In: "Alcuni lavori di analisi statistica multivariata" a cura di Renato Leoni;
Società Italiana di Statistica, Commissione "Analisi Statistiche multiple".
Firenze, Aprile 1982, pagg. 25-40.
Vengono evidenziate alcune proprietà ottimali del metodo di raggruppamento in classi
delle classi naturali, con riferimento alla migliore aderenza del test X² ad una v.c. ², in
particolare per quanto riguarda la minimizzazione della perdita di informazione dovuta al
raggruppamento.
Il test X² viene impiegato per saggiare ipotesi di tipo funzionale; quando alcuni dei
parametri sono incogniti, occorre stimarli dal campione; inoltre, se la varabile statistica in
esame è di tipo continuo, occorre preliminarmente ottenere una partizione dell'asse reale,
in modo da raggruppare le osservazioni in k classi.
E' noto che la distribuzione di X² dipende dal metodo con il quale sono stati stimati i
parametri incogniti della distribuzione: infatti se le stime dei parametri sono quelle di
massima verosimiglianza valutate sul campione raggruppato, la distribuzione di X² è
quella di una v.c. ² con k-s-1 gradi di libertà, essendo s il numero dei parametri stimati
dal campione. Se invece, come spesso si preferisce, le stime sono quelle di max.
verosimiglianza ottenute dal campione non raggruppato, alla v.c. ² va aggiunta una
somma ponderata dei quadrati di s v.c. normali standardizzati, con pesi i. Tali pesi sono
le soluzioni di una particolare equazione ai determinanti che coinvolge le matrici di
informazione delle stime sul campione raggruppato e sul campione non raggruppato, e
risultano essere gli autovalori di una matrice che esprime, in ultima analisi, la perdita di
informazione dovuta al raggruppamento.
Nel lavoro si mostra, anche mediante l'ausilio di simulazioni, come tali autovalori siano
molto piccoli per il metodo delle classi naturali, se confrontati con quelli ottenuti con il
metodo delle classi di ampiezza uguale e di probabilità uguale.
Il confronto è effettuato anche sulla base della distorsione indotta nel livello di
significatività , quandola distribuzione nulla di X² viene approssimata mediante una
v.c. ², trascurando il contributo degli autovalori i .
Curriculum del Prof. Marcello Chiodi
pag. 2
PROCEDURES
FOR GENERATING PSEUDO-RANDOM NUMBERS FROM A NORMAL
DISTRIBUTION OF ORDER P (P>1).
Rivista di Statistica Applicata, Milano, vol.19, n.1, 1986, pagg. 7-26.
In questo lavoro sono presentati tre metodi per la generazione di scarti normali
standardizzati di ordine p.
L' impiego di tali metodi è risultato utile in molti studi di simulazione condotti col
metodo di Montecarlo allo scopo di mostrare la validità generale del modello normale di
ordine p per descrivere gli errori di tipo accidentale da cui sono affetti i dati osservati.
Il metodo A, che rappresenta la proposta essenziale del lavoro, scaturisce da una
generalizzazione del noto metodo di Box - Muller per la generazione di coppie di numeri
casuali normali standardizzati ed indipendenti. La generazione del singolo valore k,
numero pseudo casuale normale standardizzato di ordine p, avviene in due fasi: in una
prima fase si genera un numero pseudo casuale da una distribuzione Beta di parametri
1/p e 1-1/p con un metodo del tipo accettazione - rifiuto; quindi si moltiplica per un'altra
componente casuale, ottenuta per trasformazione diretta di un numero casuale uniforme.
Complessivamente occorrono quattro numeri casuali indipendenti uniformi per la
generazione di un numero k , con una efficienza teorica (ossia probabilità di
accettazione) che non scende mai sotto il 79%; il metodo si è dimostrato particolarmente
efficiente, per tutto l'intervallo dei valori assunti da p (1-4), anche sulla base delle
indicazioni fornite dai numerosi tests effettuati riportati nel lavoro, per saggiare la bontà
delle sequenze ottenute.
L'ANALISI
PRELIMINARE
MULTIVARIATI.
DI
DATI
LONGITUDINALI
ANTROPOMETRICI
Atti della XXXIV Riunione Scientifica della S.I.S.; Siena, Aprile 1988, vol.3,
pagg. 69-76.
Viene esposta una applicazione del metodo di analisi dei gruppi per dati longitudinali
multivariati (lavoro n.4) su un insieme di dati antropometrici, al fine di ottenere una
separazione dei soggetti secondo lo stadio dello sviluppo puberale raggiunto.
Il problema dell'identificazione di eventuali tipologie morfologiche ed evolutive è
cruciale quando le rilevazioni sono state fatte nel periodo dello sviluppo puberale, che ha
una dinamica del tutto speciale, ma in stadi diversi di tale sviluppo.
E' noto infatti che individui diversi si differenziano, rispetto ad esempio all'altezza, per
diversi fattori: il momento di inizio dello scatto di crescita; il momento in cui si
raggiunge il picco della velocità; l'entità della crescita (in buona parte indipendente dal
livello staturale antecedente la pubertà) ed infine la durata di tale evoluzione.
Pertanto le variabilità fra soggetti osservati in questo periodo sono in generale molto
maggiori di quelle osservabili nell'infanzia o nella maturità.
Nel lavoro vengono esposti i risultati di un'applicazione del metodo di analisi dei gruppi
per dati longitudinali multivariati (lavoro n.4) ad un insieme di 116 ragazzi fra i 10 ed i
14 anni, su cui erano state rilevate altezza e apertura delle braccia (selezionate fra
numerose variabili antropometriche ed andrologiche) in cinque tempi diversi su un
intervallo di due anni. Vengono riportati essenzialmente le curve evolutive medie ,
insieme con gli incrementi medi semestrali, nei cinque gruppi trovati. Le spezzate
empirche sintetiche dei vari gruppi si differenziano sia per l'entità degli incrementi, che
per le forme, che corrispondono approssimativamente a segmenti diversi di una curva
logistica e a fasi diverse dell'evoluzione puberale maschile. La metodologia proposta si è
pertanto rivelata utile anche in considerazione del fatto che l'andamento evolutivo non
era in generale correlato con l'età cronologica iniziale dei soggetti.
Curriculum del Prof. Marcello Chiodi
pag. 3
THE
CLUSTERING OF LONGITUDINAL MULTIVARIATE DATA WHEN TIME SERIES
ARE SHORT.
Dal volume: Multiway data analysis. Ed. R.Coppi, S.bolasco. Elsevier Science
Publisher B.V. (North-Holland ), 1989
Viene presentato un' approccio all'analisi dei gruppi di dati longitudinali multivariati,
mediante il quale le unità vengono raggruppate secondo la somiglianza delle curve
evolutive di p diversi caratteri quantitativi; il metodo risulta utile in particolare quando i
dati sono relativi ad intervalli temporali piuttosto limitati, e non è quindi possibile seguire
un approccio analitico per ricavare un indicazione sintetica delle p curve di crescita
individuale (logistica, polinomiale o altro). Inoltre, dal momento che il metodo è
concepito per la fase preliminare di analisi statistica di particolari matrici a tre vie (di tipo
cubico), va considerata la possibilità di errori d'osservazione, che possono essere molto
importanti con serie storiche brevi, dal momento che un errore al tempo t influenza la
valutazione degli incrementi nei periodi t-1,t e t,t+1.
Pertanto nel valutare la similarità fra due individui occorrerà considerare le loro curve
evolutive complete, che vengono valutate simili se presentano andamenti simili, a
prescindere dall'entità assoluta delle variabili. In dettaglio come misura (della
dissimilarità) viene presa la varianza delle differenze osservate fra le due unità nelle T
occasioni rilevate. Tali misure sono poi opportunamente ponderate, all' interno dei gruppi
e standardizzate per costruire la funzione obiettivo da minimizzare.
L'algoritmo iterativo parte dal calcolo di una prima partizione ottenuta calcolando per
ciascun individuo gli incrementi globali per tutte le variabili (valore al tempo T - valore
al tempo 1). Su queste nuove variabili viene implementato l'algoritmo di Mineo per una
scelta razionale della partizione iniziale. Quindi nella seconda fase vengono considerate
le curve evolutive complete, ed ogni unità viene spostata di gruppo fin quando non è più
possibile decrementare il valore del criterio di raggruppamento. Ad ogni passo il nuovo
valore della funzione obiettivo viene calcolato mediante semplici formule di
aggirnamento, che rendono l'algoritmo sufficientemente veloce. Infine vengono riportati i
risultati di un applicazione condotta su un insieme di 116 ragazzi in età puberale, su
ciascuno dei quali erano state rilevate due variabili in cinque distinte occasioni, in un
arco di due anni. Il metodo ha fornito utili indicazioni per l'identificazione di possibili
tipologie evolutive. Risultati più dettagliati sul contesto applicativo si trovano nei lavori
n.8 e n.10.
Curriculum del Prof. Marcello Chiodi
pag. 4
SULLE
DISTRIBUZIONI DI CAMPIONAMENTO DELLE STIME DI MASSIMA
VEROSIMIGLIANZA DEI PARAMETRI DELLE CURVE NORMALI DI ORDINE P.
Pubblicato il 21-12-1988 presso l'ufficio stampa della Prefettura di Palermo e
presso l'Ufficio stampa della Procura della Repubblica di Palermo ai sensi dell'
Art.1 D.L. 31-8-1945,n.660.
Viene proposta un' approssimazione per la distribuzione di campionamento dello
stimatore di massima verosimiglianza del parametro di scala di una curva normale di
ordine p, con p>1, quando la media è stimata dal campione.
Le stime Mp e ;^p;p di massima verosimiglianza dei parametri di locazione e di scala,
sono ottenute risolvendo le equazioni:
 |xi - Mp|p-1sign(xi - Mp)=0, e  |xi - Mp| p =n;^p;p,
Mediante uno sviluppo in serie (troncato al secondo termine) viene ricavata
un'approssimazione del valor medio teorico di ;^p;p, data da :
E(;^p;p)=p;p (n-p/2)/n+ O(n-3/2).
Partendo da questo risultato viene trovata un' approssimazione della distribuzione di ;^
p
;p secondo una Gamma di parametri l=n/(pp;p) e c=n/p-1/2, che per p=2 fornisce il noto
risultato esatto (ossia una v.c. 2 con n-1 gradi di libertà).
E' anche riportato un test per la verifica di un' ipotesi concernente la media, quando il
parametro di scala è incognito.
Tale test viene ricavato dal rapporto delle verosimiglianze e, sfruttando anche i
precedenti risultati relativi alla distribuzione campionaria di ;^p;p, si ottiene anche la
distribuzione nulla approssimata di tale test, riconducibile, mediante trasformazioni, a
quella di una v.c. Beta.
La bontà delle approssimazioni è verificata mediante numerose simulazioni che mostrano
come anche per piccoli valori di n, tali risultati siano soddisfacenti.
Curriculum del Prof. Marcello Chiodi
pag. 5
A PARTITION TYPE METHOD FOR CLUSTERING MIXED DATA.
Su:Rivista di Statistica Applicata,; Vol. 2,n.2, 1990, pagg.135-147
Viene proposto un metodo non gerarchico per suddividere in m gruppi omogenei un
insieme di n unità, su ciascuna delle quali è stato osservato un vettore di p variabili, fra
cui alcune numeriche ed altre non numeriche.
Inizialmente vengono segnalati gli approcci principali per raggruppare dati misti, che
consistono a) nel trasformare le variabili in nuove variabili tutte dello stesso tipo; b)
nell'effettuare analisi separate per ogni tipo di variabile, per poi unificare le partizioni
finali; c) sfruttare metodi che trattino simultaneamente variabili numeriche e mutabili.
Il metodo proposto appartiene a quest'ultima categoria, e si fonda sulla definizione di un
particolare indice di distanza medio standardizzato, che tiene conto della diversa natura
delle variabili. In breve, la funzione obiettivo da minimizzare è del tipo:
f (Gm) =
Error! Error! D k j (1).
dove Gm è la generica partizione delle n unità in m gruppi e Dkj è una misura
standardizzata della diversità media delle unità nel k-esimo gruppo misurata per la jesima variabile data da: Dkj = nkVkj/(nV. j). Gli indici Vkj e V. j misurano la diversità media
della j-esima variabile nel k-esimo gruppo e sull'intero insieme dei dati . Utilizzando
un'approccio unificato per la distanza interelementi otteniamo un indice V proporzionale
alla varianza per le variabili numeriche (e per le mutabili ordinabili, avendone
considerato i ranghi) ed all'indice di eterogeneità del Gini per le mutabili sconnesse.
Per trovare la partizione ottima, ossia per minimizzare la (1), abbiamo impiegato un
algoritmo iterativo che si fonda su una scelta razionale di una partizione iniziale, ottenuta
utilizzando il metodo di Mineo (1985) per le variabili numeriche, ed un metodo fondato
sull'esame delle distribuzione di frequenza per le mutabili sconnesse. Nel lavoro viene
mostrato come questo criterio di scelta razionale risulti superiore ad una scelta casuale
della partizione iniziale. Infine sono riportati i risultati di un applicazione su dati
andrologici, concernente 580 ragazzi, su ciascuno dei quali erano state rilevate 8
variabili, fra cui 3 numeriche e 5 qualitative sconnesse. Si vede come una suddivisione in
tre gruppi permette di identificare tre diversi stadi dello sviluppo puberale, mentre
l'analisi dei contributi standardizzati al criterio di raggruppamento permette di
identificare la rilevanza delle diverse variabili nella suddivisione in gruppi.
Curriculum del Prof. Marcello Chiodi
pag. 6
ANALISI DEI GRUPPI DI DATI MISTI IN PRESENZA DI DATI INCOMPLETI.
"Atti delle giornate di studio su Classificazione e Analisi dei dati ", Pescara
11/12 ottobre 1990.
Accade di frequente che, nelle indagini su dati reali, una parte delle osservazioni risulti
incompleta, per cui alcune unità sono in realtà costituite da un vettore con meno di p
elementi, essendo p il numero totale di variabili rilevate, fra le quali alcune numeriche ed
altre mutabili anche sconnesse.
Spesso si vogliono determinare m gruppi caratterizzati da una forte omogeneità interna,
prima di procedere ad ulteriori analisi sui dati misti multivariati. Sorge il problema del
trattamento delle unità incomplete, ammesso comunque che una frazione delle
osservazioni sia comunque completa, e possa quindi essere presa come insieme di
riferimento.
L' approccio proposto nel lavoro consiste nel determinare inizialmente una partizione
delle sole unità complete (col metodo di analisi dei gruppi per variabili miste proposto
nel lavoro n.6), di modo che si possa ottenere intanto qualche informazione sulla
struttura di variabilità dei dati, inizialmente non nota, per stabilire se una suddivione in
gruppi è opportuna ed eventualmente qual è il numero m di gruppi più appropriato.
Successivamente ciascuna unità incompleta va attribuita, sulla base delle sole
informazioni disponibili per quella osservazione, alla partizione trovata sui dati completi,
indipendentemente dal tipo di variabili rilevate, numeriche e non; l'eventuale stima dei
valori mancanti con opportune tecniche, potrà essere effettuata in modo più efficiente all'
interno dei gruppi trovati.
Nel lavoro viene illustrato il procedimento seguito per l'attribuzione delle unità
incomplete alla partizione trovata, insieme con alcune caratteristiche dell'algoritmo
impiegato; infine vengono riportati i risultati di un'applicazione del metodo ad un
insieme di 1521 ragazzi, su ciascuno dei quali erano state rilevate 8 variabili, di cui
soltanto tre erano quantitative; inoltre, 941 osservazioni risultavano incomplete, con
diversa percentuale di valori mancanti per le diverse variabili. Sono riportati dei
confronti su indici sintetici calcolati sul totale dei 580 dati completi e sui dati incompleti,
riattribuiti ai gruppi secondo il procedimento proposto. Inoltre sono riportate le
distribuzioni di frequenza delle cinque mutabili sconnesse per i 580 dati completi e per i
dati incompleti riattribuiti.
Da un confronto empirico si nota che le medie delle tre variabili nei tre gruppi, valutate
sui dati completi, sono pressocchè uguali a quelle calcolate sui dati incompleti riattribuiti
ai tre gruppi. Inoltre si nota come anche le distribuzioni di frequenze relative delle
mutabili, valutate sui dati completi, sono piuttosto vicine a quelle ricavate dai dati
incompleti, suddivisi nei tre gruppi.
Curriculum del Prof. Marcello Chiodi
pag. 7
APPROSSIMAZIONI
SADDLEPOINT ALLE DISTRIBUZIONI CAMPIONARIE DEGLI
STIMATORI DI MASSIMA VEROSIMIGLIANZA DEI PARAMETRI DELLE CURVE
NORMALI DI ORDINE P PER PICCOLI CAMPIONI.
Atti della XXXVII Riunione Scientifica della SIS, San Remo 6-8 Aprile 1994, ed.
CISU, vol.II, pagg. 139-146.
In questo lavoro vengono fornite delle approssimazioni, mediante determinazione del
saddlepoint (punto di sella), alle distribuzioni campionarie degli stimatori di massima
verosimiglianza dei parametri di posizione e di scala delle curve normali di ordine p.
Dopo un breve richiamo sulle curve normali di ordine p e sugli stimatori di massima
verosimiglianza dei parametri di posizione e di scala, e dopo un cenno alla tecnica della
determinazione del saddlepoint per gli stimatori di tipo M, classe nella quale rientrano gli
stimatori di massima verosimiglianza, nel lavoro vengono esposte le peculiarità dell'
applicazione al nostro caso; infine vengono riportati alcuni esempi di approssimazioni
alle densità ed alle probabilità integrali dei suddetti stimatori che sono risultate più che
soddisfacenti già per n=5 e in corrispondenza di un ampio range di valori di p. Tali
approssimazioni sono state confrontate con le distribuzioni campionarie ottenute tramite
simulazione effettuata su 1.000.000 di campioni per ciascuna coppia di valori di p e n.
A
TEACHING EXPERIENCE THROUGH THE DEVELOPMENT OF HYPERTEXTS AND
OBJECT ORIENTED SOFTWARE.
Proceedings del Convegno “NGUS’95 III International meeting: new trends in
theory, software and application of multidimensional data analysis” editi a cura
di F. Mola (Univ. Di Napoli) e stampati dal CISIA di Parigi.
In questo lavoro vengono presentate alcune nuove esperienze di insegnamento di
argomenti statistici, concernenti lo sviluppo di un ipertesto e di software didattico,
sviluppato con tecnologia orientata agli oggetti in ambiente grafico, principalmente in
tema di simulazioni statistiche. L’ipertetsto è risultato utile durante i miei corsi di
statistica matematica, come supporto al materiale didattico ordinario. Il software in
ambiente grafico mi ha dato la possibilità di introdurre alcuni argomenti formalmente
complessi mediante un approccio grafico: il software sulle simulazioni è stato usato
anche per visualizzare distribuzioni campionarie simulate (in campioni univariati e nella
regressione lineare e non lineare); questa possibilità mi è stata didatticamente utile sia per
corsi avanzati, sia per corsi introduttivi di statistica, per dare alcune idee di base
sull’inferenza statistica, senza fare ricorso a molte formule; viene anche mostrata la
distribuzione campionaria simulata della media aritmetica per campioni provenienti da
differenti popolazioni.
Curriculum del Prof. Marcello Chiodi
pag. 8
GENERATION OF PSEUDO RANDOM VARIATES FROM A NORMAL DISTRIBUTION
OF ORDER P.
Pubblicato su Statistica Applicata (Italian Journal of Applied Statistics) 1995,
Vol.7, n.4, pagg. 401-416
Negli studi di simulazione riguardanti il comportamento di particolari stimatori in caso di
allontanamento dalle ipotesi di normalità, la famiglia delle curve normali di ordine p
svolge un ruolo fondamentale, dal momento che al variare del parametro di forma p (con
p1), rappresenta una famiglia di curve simmetriche molto utile per la descrizione di
errori accidentali.
Esistono molti metodi per la generazione di numeri pseuso-casuali da questa famiglia di
curve, fondati su trasformazioni di variabili casuali, su metodi di accettazione-rifiuto o su
metodi fondati su rapporti di numeri uniformi. In un precedente lavoro (Chiodi, 1986)
abbiamo presentato un metodo fondato su una generalizzazione della nota formula di
Box-Muller; nel presente lavoro viene prima presentato un miglioramento di questa
routine, che ha il grande pregio di essere codificabile con poche istruzioni; nel seguito
del lavoro vengono presentati due nuovi algoritmi fondati su regole di accettazionerifiuto basati su tecniche di compressione della funzione di densità. Le prestazioni di
questi nuovi metodi vengono confrontate con quelle di altri metodi noti in letteratura, sia
dal punto di vista della velocità che da quello della bontà statistica delle sequenze
ottenute. Gli algoritmi fondati su metodi di accettazione rifiuto proposti, sebbene
richiedano una codifica piuttosto lunga, sono risultati di gran lunga i più veloci.
THE ANALYSIS OF AUXOLOGICAL DATA BY MEANS OF NONLINEAR
MULTIVARIATE GROWTH CURVES
(coautore.A.M. Mineo) in corso di pubblicazione sugli atti del convegno del
gruppo italiano della IFCS, Pescara luglio 1997; Springer-Verlag edit.
Nel lavoro viene trattato il problema dell'analisi di dati costituiti da curve di crescita
multivariate rilevate su diversi soggetti, per cui in effetti si stanno trattando matrici a tre
vie. Tuttavia non sempre è possibile utilizzare le diverse tecniche fattoriali proposte per
analizzare matrici a tre vie, in particolare se i tempi delle rilevazioni sono differenti per i
diversi soggetti e se sono diversi anche gli intervalli fra osservazioni successive. Un
approccio multilivello basato su modelli polinomiali si rivela inoltre inadeguato con
modelli di crescita intrinsecamente non lineari. Nel lavoro viene proposta una tecnica di
analisi di dati auxologici multivariati che tiene conto della non linearità intrinseca delle
curve di crescita e della autocorrelazione presente nella componente residua per
osservazioni longitudinali rilevate in tempi qualsiasi. Viene presentata un'applicazione ad
un insieme di dati reali concernenti le misure di un campione di bambini osservate
durante i primi anni di vita; la tecnica proposta è risultata abbastanza flessibile, ed in
grado di fornire risultati di interpretazione relativamente semplice.
Curriculum del Prof. Marcello Chiodi
pag. 9
TECNICHE DI SIMULAZIONE IN STATISTICA.
volume in corso di pubblicazione nella Collana del Dipartimento di Matematica e
Statistica dell'Università degli Studi di Napoli Federico II-Serie didattica. pagine
n. 226
E' un volume nato raccogliendo il materiale di diverse esperienze didattiche e di ricerca
dell'autore nel campo delle simulazioni. Sommario degli argomenti:
PRESENTAZIONE. SIMULAZIONI E METODO MONTECARLO: Simulazioni in
statistica. Simulazione di modelli deterministici. GENERAZIONE DI NUMERI
PSEUDO-CASUALI DA UNA DISTRIBUZIONE UNIFORME: Algoritmi di
generazione di numeri pseudo-casuali uniformi. Test di casualità. Altri test di casualità.
GENERAZIONE DI NUMERI PSEUDO-CASUALI DA DISTRIBUZIONI
QUALSIASI: Metodo dell’ inversione della funzione di ripartizione. Inversione della
funzione di ripartizione per variabili continue. METODI BASATI SU
TRASFORMAZIONI DI VARIABILI ALEATORIE: Distribuzione normale: formula di
Box-Muller. Generazione di numeri pseudo-casuali da distribuzioni Gamma e Beta.
Generazione di numeri casuali da distribuzioni normali di ordine p (p>1). Generazione di
numeri aleatori da particolari distribuzioni discrete. Test di casualità per sequenze non
uniformi.METODO DI ACCETTAZIONE-RIFIUTO E TECNICHE COLLEGATE:
Metodo di accettazione rifiuto: caso generale. Esempi sulle tecniche di compressione per
variabili continue. Metodo di accettazione-rifiuto per variabili discrete.Metodi composti.
Rapporto di uniformi GENERAZIONE DI VETTORI DI NUMERI PSEUDOCASUALI: Distribuzioni a contorni ellissoidali. Generazione di vettori casuali da una
distribuzione normale multivariata qualsiasi. Miscugli di distribuzioni normali
multivariate. Generazione di vettori casuali da una particolare distribuzione beta
multivariata (distribuzione di Dirichlet). Generazione di tavole di contingenza.
INTEGRAZIONE CON TECNICHE DI TIPO MONTECARLO IN R1 E IN Rn:
Integrazione con la tecnica Montecarlo "hit or miss". Tecnica Montecarlo pura. Tecniche
di riduzione della varianza. Integrazione di funzioni di più variabili. Metodo Montecarlo
per catene di Markov: "Gibbs sampler". Metodi quasi-Montecarlo. SIMULAZIONI IN
STATISTICA: Simulazioni di distribuzioni campionarie di stimatori e test. Schema di
algoritmo di simulazione di distribuzioni campionarie. Schemi di simulazione diversi dal
campionamento casuale semplice. Distribuzione delle medie e delle varianze simulate e
relativi intervalli di confidenza. Simulazioni e inferenza. Simulazione di distribuzioni
campionarie di test. Banda di confidenza per la distribuzione di frequenza empirica.
Livelli di copertura empirici di intervalli di confidenza. Esempi. Altri usi delle tecniche
di simulazione in Statistica. APPENDICE E COMPLEMENTI: Test di casualità su
generatori congruenziali. Esercizi e temi di studio-tavole. Algoritmo di compressione per
la generazione di numeri casuali da una distribuzione normale di ordine p. Riferimenti
bibliografici. Indice analitico degli argomenti.
Curriculum del Prof. Marcello Chiodi
pag. 10
ALCUNE CONSIDERAZIONI IN TEMA DI ANALISI DEI GRUPPI.
A cura dell' Istituto di Statistica della Facoltà di Economia e Commercio di
Palermo; pubblicato il 22.6.1982 presso l'ufficio stampa della Prefettura di
Palermo e presso l'Ufficio stampa della Procura della Repubblica di Palermo ai
sensi dell' Art.1 D.L. 31-8-1945, n.660.
In questo lavoro, tratto in parte dalla tesi di laurea, vengono affrontati alcuni dei punti
cruciali della cluster analysis: scelta della funzione obiettivo e della metrica, il problema
del numero dei gruppi e della scelta dell' algoritmo.
In generale fra i metodi di analisi dei gruppi rientrano tutte quelle tecniche impiegate per
riconoscere, in un insieme di dati multivariati, supposto non omogeneo, dei gruppi o
sottoinsiemi con una forte omogeneità interna. Per ottenere una definizione meno vaga
occorre fare riferimento alla natura dei dati in esame (ossia alle informazioni a priori
sulla loro struttura di variabilità) ed agli scopi dell'analisi.
Nella definizione del problema interviene comunque il concetto di omogeneità interna,
che non è definibile in modo unico, ma soltanto in funzione della struttura interna dei
dati, che a priori (ossia prima dell'analisi) non è nota.
Nel lavoro viene discussa l'interdipendenza fra la funzione scelta per misurare
l'omogeneità interna, la metrica e la funzione obiettivo, da minimizzare rispetto a tutte le
possibili partizioni delle n unità in k gruppi. Inoltre vengono esaminati i vantaggi e gli
svantaggi di alcune fra le metriche (e funzioni obiettivo collegate) più usate, insieme al
problema della determinazione del miglior numero k di gruppi .
Viene sottolineato nelle conclusioni il fatto che qualsiasi algoritmo di analisi dei gruppi
tende ad imporre una determinata struttura ai dati, per cui risulta impossibile
un'applicazione corretta di tali metodi senza un minimo di conoscenza della struttura di
variabilità interna dei dati.
UN
METODO PER LA GENERAZIONE DI SCARTI NORMALI STANDARDIZZATI DI
ORDINE R.
Annali della Facoltà di Economia e Commercio, Palermo, XXXV, n.3-4, 1981,
pagg. 155-163.
Viene esposto un primo metodo per la generazione di scarti normali standardizzati di
ordine r (o ordine p). La proposta verrà migliorata e perfezionata nel lavoro n°4.
Curriculum del Prof. Marcello Chiodi
pag. 11
L' ANALISI DELLE CORRISPONDENZE: UN ESAME CRITICO.
Atti della XXXIII Riunione Scientifica della S.I.S, Bari, vol.2, 1986, pagg. 221228. Coautore: Prof. A. Mineo.
In questo lavoro vengono messe in risalto alcune carenze logiche di questo metodo di
analisi di una tavola di contingenza, insieme ad alcune pratiche poco ortodosse seguite
spesso nell' applicazione pratica di tale metodica.
Una prima osservazione riguarda l'originalità del metodo che è stato adottato e diffuso
principalmente da diversi Autori della scuola francese nella cosiddetta analyse des
donnèes . Secondo tali autori l' originalità dell' approccio starebbe anche nella facilità di
interpretazione dei risultati anche da parte di non statistici.
Un'altra osservazione rigurda la pratica, a nostro avviso poco condivisibile, di ricondurre
qualsiasi tipo di variabile con alto potere informativo a mutabili sconnesse, con più basso
potere informativo, per potere applicare tale metodica, in quanto la perdita di
informazione sarebbe compensata dalla bontà delle analisi sintetiche fornite dall' analisi
delle corrispondenze.
L' obiezione principale riguarda comunque il modo in cui vengono spesso interpretati i
risultati sul piano determinato dai primi due fattori: le modalità di A ( o di B) che
risultano molto vicine vengono considerate molto omogenee, ed eterogenee quelle
distanti, mentre il giusto significato da dare a punti Ai , Bj molto vicini, è quello di una
dipendenza massima fra le modalità dei due caratteri ad essi corrispondenti. Tale errore
di interpretazione è indotto dall' avere assimilato l'indice X2, che misura l'allontanamento
dall' indipendenza fra due mutabili, ad una distanza euclidea classica.
Fra le altre cose viene anche segnalato che una scomposizione fattoriale andrebbe
preceduta sempre da un test sulla significatività del valore osservato di X 2, viceversa si
rischia di scomporre ed analizzare una associazione che è stata osservata solo per errori
di rilevazione o per errori di campionamento.
LA
PUBERTÀ MASCHILE A
PRELIMINARE.
PALERMO: EPIDEMIOLOGIA
E ANALISI STATISTICA
Dagli Atti del V Congresso Nazionale della Soc. Ital. di Andrologia. Bologna,
Marzo 1987; ACTA MEDICA Ed., 1987; pagg. 1037-1053.
Vengono esposte alcune tecniche esplorative di dati concernenti lo sviluppo puberale
maschile, rilevato trasversalmente e longitudinalmente tramite un grande campione di
ragazzi palermitani. In questo primo lavoro è affrontato il problema della scelta delle
variabili più rappresentative dello sviluppo puberale.
L'insieme dei dati complessivo era costituito da 1521 ragazzi, su ciascuno dei quali erano
rilevate 60 variabili, fisiologiche e patologiche.
Fra le variabili antropometriche sono state identificate, mediante un metodo di scelta
delle variabili, quelle che meglio descrivevano la variabilità complessiva, per ciascuno
dei semestri di età dei soggetti. Lo stesso è stato fatto per alcune variabili andrologiche,
riuscendo a selezionare gruppi di variabili che spiegano il 90% della variabilità, senza
bisogno di ricorrere a trasformazioni in componenti principali, la cui interpretazione in
termini antropometrici ed andrologici sarebbe stata ardua.
Successivamente vengono esaminate le incidenze delle diverse patologie puberali, in
funzione di diversi fattori.
Curriculum del Prof. Marcello Chiodi
pag. 12
PRESENZA,
CONSISTENZA E MODALITÀ D'USO DELLE BIBLIOTECHE NELLE
SCUOLE SICILIANE"
PRESENZA
E QUALITÀ DELLE ATTREZZATURE DEI GABINETTI SCIENTIFICI
NELLE SCUOLE SICILIANE".
Da: Indagine campionaria sul patrimonio tecnico bibliotecario ed informatico
delle scuole siciliane, condotta, per conto dell' I.R.R.S.A.E. Sicilia, dal C.C.R.S.
della Fac. di Econ. e Comm. Univ. di Palermo, diretto dal Prof. A. Mineo;
Palermo, Febbraio 1988.
Si analizzano le risposte ad un questionario inviato alle scuole siciliane per indagare sul
grado di impiego delle biblioteche e dei gabinetti scientifici: le analisi effettuate sui
singoli items e sulle loro interrelazioni hanno permesso di mostrare alcune carenze
strutturali del patrimonio bibliotecario e tecnico.
L'indagine è stata effettuata su un grosso campione e per le caratteristiche più importanti
sono state calcolate le stime per punto e per intervallo delle corrispondenti quantità nel
totale delle scuole siciliane.
Le tecniche utilizzate sono state molteplici, in funzione del tipo di informazione
disponibile per ciascuna variabile: per finalità descrittive sono state riportate numerose
tavole a doppia e tripla entrata con distribuzioni di frequenza assoluta e percentuale,
insieme a numerosi indici sintetici (medie, varianze, etc.) per le variabili quantitative,
riportati in tavole riassuntive suddivise secondo numerose caratteristiche, quali tipo di
scuola, provincia etc.
Per la verifica della presenza di dipendenza fra i vari items, sono stati prevalentemente
impiegati il test X2 ed il rapporto di correlazione.
Per quanto riguarda le biblioteche sono state analizzate numerose caratteristiche, quali la
consistenza del patrimonio librario, l' organizzazione, il personale, il tipo di
archiviazione, il grado di sfruttamento sia in assoluto che in termini di prestiti per singolo
studente e per singolo docente. Queste caratteristiche sono state esaminate singolarmente,
ma anche in funzione del tipo di scuola (elementare, medie e superiori) e della provincia.
Sono state esaminate anche le realzioni incrociate fra i caratteri più interessanti, quali, ad
esempio, tipo di scuola, popolazione studentesca, numero di libri, numero di addetti e
numero prestiti.
Una caratteristica delle risposte è stata la grande mole di dati mancanti, che ha reso
difficoltosa l'analisi di alcuni items; comunque, si è visto che in generale la consistenza
assoluta del patrimonio librario è soddisfacente e varia significativamente secondo il tipo
di scuola e secondo la popolazione studentesca.
I dati preoccupanti vengono invece dall'impiego delle biblioteche in termini di
organizzazione e di servizio prestiti: il numero dei prestiti non appare in generale
strettamente collegato al numero degli studenti nè al tipo di scuola; inoltre è in generale
basso il numero medio di prestiti per studente, da collegare probabilmente con lo
scarsissimo livello organizzativo (in termini di archivio e di numero di addetti)
riscontrato.
Per quanto riguarda i gabinetti scientifici sono state esaminate alcune caratteristiche quali
la presenza, l'impiego nella didattica ed il giudizio dato sul valore e sull'attualità delle
attrezzature.
In generale l'impiego delle attrezzature nella didattica è diffuso, ma il giudizio sulla
qualità e sul valore è sostanzialmente negativo, e non appare essere significativamente
diverso fra le nove provincie siciliane.
Curriculum del Prof. Marcello Chiodi
pag. 13
POSSIBILITÀ DI IDENTIFICAZIONE DI TIPOLOGIE EVOLUTIVE DEL PERIODO
PUBERALE; PROPOSTA DI UNA METODICA PER FINALITÀ PREDITTIVE.
Su: Rivista di pediatria preventiva e sociale-Nipiologia ; Edizioni Minerva
Medica - Torino, 1988.
Si analizzano le relazioni fra le evoluzioni di variabili antropometriche, e le evoluzioni di
variabili andrologiche nel periodo puberale. Le variabili antropometriche sono
preliminarmente scelte secondo la capacità di identificare dei gruppi con evoluzioni
simili.
Vengono estesi ed ampliati i risultati preliminarmente commentati nel lavoro n.8,
incentrando l'attenzione sulle caratteristiche di tipo andrologico, collegate con le
caratteristiche antropometriche che sono state impiegate per una separazione dei soggetti
in cinque gruppi secondo curve di crescita simili.
Vengono analizzate le singole curve di crescita per tutti i caratteri, identificando, per
ciascun gruppo, le spezzate empiriche che più si allontanano dall'evoluzione media del
gruppo. Inoltre sono riportate le matrici di correlazione fra le variabili all'interno dei
gruppi, opportunamente ponderate su tutti i soggetti. Si evidenziano, in corrispondenza ai
gruppi, strutture evolutive e morfologiche simili, che hanno rivestito una notevole
importanza clinica per lo studio e l'identificazione di eventuali patologie soggettive
nell'evoluzione puberale di qualche carattere.
DUE
TESTS PER LA VERIFICA DELLE IPOTESI DI OMOGENEITÀ ED
OMOSCEDASTICITÀ PER CAMPIONI PROVENIENTI DA DISTRIBUZIONI NORMALI DI
ORDINE P.
Pubblicato il 21-12-1988 presso l'ufficio stampa della Prefettura di Palermo e
presso l'Ufficio stampa della Procura della Repubblica di Palermo ai sensi dell'
Art.1 D.L. 31-8-1945, n.660.
Quando si vogliono verificare le ipotesi di uguaglianza delle medie di k popolazioni, con
parametro di scala incognito, o l'ipotesi di omoscedasticità, essendo incognite le medie,
se le popolazioni hanno delle distribuzioni normali di ordine p, non possono impiegarsi i
tests F e di Bartlett, validi per le curve normali di ordine p=2.
In questo lavoro vengono pertanto ricavati, dal rapporto delle verosimiglianze, due tests
per la verifica dell'ipotesi di omogeneità e di omoscedasticità per campioni provenienti
da curve normali di ordine p, con p in generale diverso da 2, disponendo delle
informazioni provenienti da k campioni anche di diversa numerosità.
Le approssimazioni alle distribuzioni di campionamento dei due tests proposti sono
ricavate in parte anche dai risultati del lavoro precedente, sulla distribuzione di ;^p;p. La
distribuzione nulla del test per l'ipotesi di omogeneità di k medie è ricondotta a quella di
una v.c. Beta, mentre quella del test riguardante l'uguaglianza di k parametri di scala è
approssimata mediante una v.c. gamma. I parametri di tale v.c. gamma sono funzione di
p, k e delle numerosità campionarie, e sono ottenuti imponendo la condizione che i primi
due momenti dei test coincidano con quelli di dette distribuzioni teoriche. Quando p=2, i
due test coincidono con il test F e con quello di Bartlett, mentre per valori di n molto
grandi si ottengono le note approssimazioni alla distribuzione del logaritmo del rapporto
delle verosimiglianze tramite una v.c. 2 .
Le approssimazioni alle distribuzioni di campionamento dei due tests proposti sono
verificate anche mediante simulazioni, condotte per diversi valori di p, k ed n.
Curriculum del Prof. Marcello Chiodi
pag. 14
VARICOCELE AND PUBERTY, A TRANSVERSAL AND LONGITUDINAL SURVEY.
In: Acta Europaea Fertilitatis , Vol.19, n.4, 1988, pagg. 189-199.
Vengono analizzate alcune caratteristiche relative al varicocele sinistro maschile,
patologia che influenza la fertilità, sulla base di un' indagine condotta su 1488 soggetti, e
di una condotta longitudinalmente su 154 soggetti osservati per due anni. Le relazioni
osservate fra il grado di varicocele ed altre variabili andrologiche hanno fornito agli
specialisti delle utili indicazioni quantitative sulla influenza del periodo puberale nella
manifestazione della patologia.
Le analisi condotte rappresentano un'estensione sui soggetti dell'indagine palermitana
(trasversale e longitudinale) presentata nel lavoro n.15.
In particolare è esaminata, per l'indagine longitudinale, la dipendenza del grado del
varicocele (in termini anche di momento di inizio della patologia) dalla comparsa e dall'
evoluzione di alcuni caratteri andrologici che identificano lo sviluppo puberale
(comparsa delle erezioni e della peluria pubica, volume testicolare). Si è potuta così
esplorare in dettaglio la relazione fra il varicocele e le fasi dello sviluppo puberale.
EPIDEMIOLOGIA DEL VARICOCELE.
Dal volume: "Il Varicocele - fisiopatologia clinica e terapia", a cura dei Proff.
M.A. Latteri e F Gattuccio. USES edizioni scientifiche Firenze, 1989.
Questo lavoro è inserito in un volume, curato dai Proff. Latteri e Gattuccio del
Policlinico di Palermo, sulla fisiopatologia del varicocele, che raccoglie contributi di
numerosissimi studiosi.
In questo lavoro viene esaminata l'epidemiologia del varicocele, sfruttando i dati di due
grosse indagini effettuate a Palermo su un campione di 1521 ragazzi ed a Padova su un
campione di 1433 soggetti.
Sono state prese in considerazione le distribuzioni del varicocele (distinto in diversi gradi
e in destro e sinistro) secondo l'età, il grado di sviluppo puberale misurato dal volume
testicolare, dal grado di peluria pubica e da altri indicatori, quali la differenza di volume
testicolare destro e sinistro.
Inoltre sono presentate delle analisi condotte su un campione esaminato
longitudinalmente per due anni, per cercare un collegamento fra l'insorgere del varicocele
e il momento d'inizio dello sviluppo puberale.
NUOVE TECNOLOGIE PER L’INSEGNAMENTO DELLA STATISTICA.
Intervento invitato a Perugia (Novembre 1995) ad una tavola rotonda su:
“Nuove tecnologie informatiche nell’insegnamento della statistica”, organizzata
dal Prof. Corrado Provasi nell’ambito di un convegno del CIRDIS (Centro
interdipartimentale per la didattica della statistica).
In questa breve comunicazione vengono succintamente descritte alcune recenti
esperienze dell'autore in tema di sperimentazione didattica; in particolare ci si sofferma
sull'impatto positivo sulla didattica di software interattivo appositamente elaborato, quali
ipertesti e software di simulazioni.
ALL’INTERNO DI UNO STUDIO EFFETTUATO DAL CIRPIET
(Centro Interdipartimentale di Ricerche sulla Programmazione Informatica
dell’Economia e delle Tecnologie) nell’ambito di una convenzione con la Regione
Siciliana, nella sub-ricerca Modalità di formazione dell’imprenditoria siciliana
coordinata dal Prof. A.Mineo, ha curato le parti concernenti: Localizzazione
geografica dell’imprenditoria media attuale-Individuazione dei caratteri delle
matrici sociali e delle relative modalità di intervista-Formulazione di un
questionario e strutturazione del campione di medie imprese.
Curriculum del Prof. Marcello Chiodi
pag. 15
DIFFERENT HEART RATE PATTERNS IN OBSTRUCTIVE APNEAS DURING NREM
SLEEP.
(coautori: M.R. Bonsignore, S. Romano, O. Marrone, G. Bonsignore).
Pubblicato su Sleep, 1997
E' stata condotta un'analisi per studiare i fattori che influenzano le differenze fra iritmi
cardiaci durante i periodi di apnea ostruttiva di un gruppo di pazienti tenuti sotto
osservazione durante il sonno.