Università degli studi di Palermo Dipartimento di metodi quantitativi per le scienze umane. Tel. 091-6626286 Facoltà di Economia Corso annuale dell’insegnamento di: BIOMETRIA (Cod. 20031) - Prof. F. GARGANO (Anno Accademico 2003 -2004) Corso di Laurea in Scienze Statistiche ed Economiche. Diploma Universitario in Statistica ed Informatica per le Amministrazioni Pubbliche (SIAP). Corso di Laurea in Statistica ed Informatica per la Gestione e l’Analisi dei Dati (SIGAD). Lo scopo fondamentale di un’indagine biometrica è la ricerca dei tipi esistenti in un prestabilito tempo ed in un determinato ambiente geografico e di effettuare la ricerca del tipo ideale che si traduce, in pratica, nella ricerca del tipo molto frequente, detto anche normale, o regolare. Pertanto è necessario censire e classificare, rispetto a prestabilite qualità distintive, un insieme d’esseri viventi caratterizzati, di solito, dalla bio – diversità. È raro, infatti, il caso in cui, in occasione di un censimento, non sia necessario classificare la popolazione degli oggetti materiali di riferimento, a causa della loro omogeneità rispetto ad una qualità ben nota collegabile, secondo la logica comune, ad un carattere metrico. Il corso ha come obiettivo fondamentale la trattazione di alcuni argomenti del metodo statistico inerente una classe, od un insieme limitato, d’oggetti omogenei e, quindi, utili per l’indagine statistica con un processo per così dire completo riferito, cioè, all’unità biologica, caso mai ancora esista, come la razza, la specie o la varietà. Intende, perciò, privilegiare la trattazione di un criterio statistico necessario per la verifica dell’omogeneità che caratterizzerebbe determinati oggetti raggruppati in base alla diagnosi di una prestabilita qualità distintiva della popolazione complessiva di riferimento. A tal riguardo, spesso, nelle indagini epidemiologiche, la diagnosi del cattivo stato di salute degli individui si basa sull’anormalità statistica, anziché sull’anormalità clinica, poiché esiste, rispetto agli individui omogenei, il problema degli individui border - line, che sono quelli con le misure anomale del carattere metrico collegabile alla qualità valutabile e, quindi, esterne alle misure estreme dalla moda. In tal caso, perciò, può essere utile un criterio statistico per separare una prestabilita quota percentuale da considerare, per convenzione, un ottimo livello d’affidabilità sulla qualità, degli oggetti omogenei che costituiscono un insieme limitato, in quanto le misure del carattere metrico degli oggetti che costituiscono tale quota sarebbero perturbate, probabilmente, dagli errori casuali standardizzati non molto distanti dall’errore nullo. Codeste misure potrebbero essere considerate, quindi, regolari, o normali, in quanto concentrate in prossimità del massimo di frequenza cui corrisponde la moda della distribuzione empirica della cosiddetta variabile statistica non casuale, o casuale, semplice, potenzialmente continua. Abbiamo richiamato alcuni elementi del calcolo delle probabilità e del metodo dell’inferenza statistica con il processo per così dire incompleto riferito, cioè, ad un sotto insieme d’oggetti scelti con un meccanismo di sorteggio casuale che presuppone la stima dei parametri di una funzione di probabilità a priori. Inoltre, abbiamo introdotto alcuni elementi di quello che potrebbe essere, secondo il nostro punto di vista, il metodo d’inferenza statistica con un processo per così dire completo riferito, cioè, ad una classe, oppure ad un insieme limitato, d’oggetti omogenei, rispetto ad una qualità valutabile in base all’esperienza e con l’ausilio dell’informazione statistica (1) costituita dalla misura di un carattere metrico con la quale, spesso, un esperto emette la diagnosi di un fenomeno qualitativo. Questo metodo presuppone il calcolo di due coefficienti (2) “ caratteristici o sintetici” che dovrebbero servire a dare un’idea riassuntiva della cosiddetta variabile statistica non casuale, o causale, semplice potenzialmente (1) Costituita, come si è detto, dalla misurazione di un carattere metrico collegabile - secondo la logica comune - ad un fenomeno qualitativo naturale od artificiale. I caratteri misurabili sono continui e sono esprimibili mediante numeri anche frazionari e irrazionali e spesso ammettono gradi infinitesimi, da una manifestazione all’altra. La continuità, però, non è una regola assoluta valida per i fenomeni misurabili. Un’eccezione è fornita, infatti, dalle sorgenti elementari di energia, le cui radiazioni variano per quantità discrete dette quanti (cfr. Boldrini M. Statistica. Teoria e Metodi. Ed Giuffrè. Milano. 1962, pag.117). (2) Il primo dei quali è una media di posizione della predetta distribuzione empirica di frequenza, ossia la moda, mw , ' regola o norma e, quindi, la misura più attendibile, essendo la più frequente della grandezza misurabile e, perciò, da considerare l’origine della variabilità delle misure del carattere metrico collegabile al fenomeno qualitativo. L’altro parametro dovrebbe essere quello che dovrebbe consentire di calcolare la dispersione, rispetto alla norma, del carattere metrico collegabile alla qualità valutabile, denominato indice approssimato della deviazione dalla moda della cosiddetta variabile statistica non casuale o causale semplice, potenzialmente continua, ed espresso con la radice quadrata di un momento medio per così dire “sui generis” : 1 continua. Essi dovrebbero specificare, cioè, la funzione della teorica frequenza della variabile statistica non casuale, o causale, semplice standardizzata, utile per rappresentare analiticamente la distribuzione empirica di frequenza, definita in occasione della diagnosi di un fenomeno qualitativo effettuata, come già detto, in base all’esperienza e con l’ausilio della misura di un carattere metrico collegabile, secondo la logica comune, alla qualità stessa. Tale funzione dovrebbe avere, cioè, come argomento la cosiddetta variabile statistica non casuale, o causale, semplice (potenzialmente continua), denominata dal Brambilla (3) variabile statistica “di partenza” che abbiamo espresso con ' = x mw ' ' , standardizzata rispetto all’indice (approssimato) della deviazione dalla moda della predetta variabile statistica non casuale semplice. Tale funzione statistica, anziché probabilistica, sarebbe descrittiva perché descrittivi sarebbero i coefficienti che la dovrebbero specificare. Infatti tali coefficienti si potrebbero calcolare, anziché stimare, in base alla distribuzione empirica unimodale di frequenza delle misure del carattere metrico collegabile al fenomeno qualitativo, o collettivo (4). Pertanto, si sottolinea che la forma di tale distribuzione empirica non dovrebbe essere, in realtà, simmetrica e mesocurtica (5) , ma di forma asimmetrica, dato che la variabilità, stabile in sé, rispetto ' '2 2 2 x n x1 2 ' ' ' ' ' mw',2 w M w mw M w mw k n k1 . Cfr. Gargano F. (1997) L’indice approssimato della deviazione standard di una variabile statistica non casuale. Atti del XX Congresso dell’Associazione Antropologica Italiana. In “Rivista di Antropologia Contemporanea”.Vol.20. n°1.2.3. pp.123 - 126. Tale parametro implica l’idea della variabilità, stabile in sé, rispetto alla moda di un caratere metrico collegabile ad una qualità valutabile che è una causa sistematica difficilmente separabile dalle cause accidentali non prevedibili che si tradurrebbero, in pratica, nei cosiddetti errori casuali più o meno, ma non illimitatamente, grandi delle misure del carattere metrico collegabile al fenomeno qualitativo. Tale indice asoluto di variabilità, per così dire totale, sarebbe da collocare nell’ambito del metodo statistico descrittivo, o investigativo vero e proprio, e sarebbe utile, fra l’altro, in Epidemiologia, in Climatologia applicata, in Geotecnica, ecc. (3) Cfr. Brambilla F. (1968) Trattato di Statistica. I. La variabilità. UTET. Torino, pag. 9 e pag. 539. (4) Codesta distribuzione empirica di frequenza è priva, quindi, di distribuzione di probabilità a priori ed, in particolare, è libera dall’ipotesi distributiva gaussiana mesocurtica che implica – come è noto – l’idea della stabilità di variabilità imputabile ad una serie di cause accidentali e, quindi, di errori casuali, più o meno ed anche illimitatamente grandi, delle teoriche misure di un carattere metrico (grandezza astratta) dell’immaginario collettivo. (5) Come è noto, la teoria sulla stabilità della variabilità imputabile a cause accidentali esiste da quando è stato enunciato il teorema di Bernoulli, noto anche come “legge dei grandi numeri“, o “legge empirica del caso”. Se si tiene conto, perciò, della concezione frequentista della probabilità, anziché di quella classica, e se in particolare si tiene conto della cosiddetta “legge dei grandi numeri ”, la probabilità può essere considerata come il valore attorno al quale tenderebbe a stabilizzarsi la teorica frequenza relativa dei successi, se il numero delle prove indipendenti, da effettuate a parità di condizioni, tendesse all’infinito. Per la legge dei grandi numeri, la frequenza relativa di un evento fortuito in una teorica serie di esperienze fatte nelle stesse condizioni tenderebbe, perciò, con il crescere del numero di queste, ad un limite che è uguale alla probabilità dell’evento . È stato, però, sottolineato che si tratta di teorici risultati relativi ad eventi, oppure relativi a fenomeni qualitativi considerati casuali e, quindi, trattati da un punto di vista meramente astratto, senza alcun riferimento alla realtà. Il concetto di stabilità della frequenza relativa e la sua attitudine a convergere verso una costante costituiscono, quindi, l’essenza del teorema di Bernoulli. Inoltre, è molto probabile ottenere, all’aumentare del numero delle prove, una frequenza relativa compresa entro uno specifico intervallo teoricamente molto piccolo. Questo concetto, in seguito, è stato ripreso da Neyman e Pearson K., a proposito della loro teoria dell’intervallo di confidenza di una frequenza relativa percentuale o della media aritmetica empirica di un campione appartenente all’immaginario collettivo dei campioni casuali degli oggetti. Comunque, secondo il nostro punto di vista, tale teoria appartiene al metodo dell’inferenza statistica da effettuare con un processo per così dire incompleto. Gli studi sulla probabile stabilità del valore che potrebbe assumere il teorico scarto quadratico medio delle teoriche misure, perturbate dagli errori casuali standardizzati, di un carattere metrico (grandezza astratta) dell’immaginario collettivo dei campioni casuali degli oggetti, di numerosità n tendente ad infinito, indussero – come è noto – il Pearson ad immaginare la forma distributiva mesocurtica della variabile stocastica gaussiana semplice standardizzata, rispetto al predetto scarto quadratico medio teorico delle misure del carattere metrico dell’immaginario collettivo. In tal caso, quindi, l’inferenza statistica deve essere effettuata con un processo per così dire incompleto e deve privilegiare il principio che le informazioni statistiche debbono essere le misure di un carattere metrico di 2 alla moda di un carattere metrico collegabile ad una qualità valutabile, come detto prima, potrebbe essere determinata da almeno due componenti (6) : - la variabilità da imputare al fenomeno qualitativo da valutare (causa sistematica); - la variabilità da imputare ai probabili errori casuali di segno positivo e negativo ma non illimitatamente grandi che potrebbero essere commessi, in concreto, da chi misurerebbe il carattere metrico collegabile al fenomeno qualitativo che caratterizzerebbe gli oggetti omogenei che costituirebbero una classe, od un insieme limitato, della popolazione di riferimento (errori casuali di misura dovuti ad un imprecisabile numero, anziché ad una serie, di cause accidentali non prevedibili difficilmente separabili dalla causa sistematica). Ai fini dell’analisi della variabilità, rispetto alla moda, di un carattere metrico collegabile ad una qualità, è necessario, perciò, l’impiego di un indice assoluto, per così dire totale (7), di variabilità, detto anche parametro descrittivo di dispersione di un fenomeno quantitativo collegabile ad un fenomeno qualitativo, o collettivo. Codesto parametro, denominato indice approssimato della deviazione dalla moda, abbreviato con le sillabe iniziali SD del termine inglese Standard Deviation, della cosiddetta variabile statistica non casuale, o causale, semplice, potenzialmente continua, sarebbe utile, quindi, per standardizzare la predetta variabile ed anche la lunghezza, o la misura, stabile in sé, ' del suo intervallo totale wx ' ' . Infatti trattasi di un intervallo limitato chiuso dalle due misure di soglia, od n x 1 estreme, che l’esperto, preposto alla valutazione del fenomeno qualitativo, collegherebbe a taluni della classe, o dell’insieme limitato, degli oggetti omogenei, rispetto alla qualità valutabile. Di conseguenza, l’indice in questione sarebbe utile per standardizzare anche la misura dell’intervallo parziale, o “range”, interpercentile, che si può limitare con due misure, poste minori od uguali (non maggiori) ad esse stesse, ossia con due percentili empirici, a cavallo della misura più frequente o moda, che separano un prestabilito livello percentuale (95%) della frequenza totale della distribuzione empirica unimodale di frequenza della predetta variabile. Il criterio, dunque, per standardizzare la cosiddetta variabile statistica non casuale semplice (8) ' ' = x m ' è diverso dal criterio per standardizzare la w determinati oggetti molto numerosi da selezionare con un meccanismo di sorteggio casuale, secondo l’anzidetto schema di probabilità. Tuttavia, in ogni caso, tali oggetti costituiscono un sotto insieme dell’immaginario collettivo e, quindi, una parte di un insieme d’ordine superiore indeterminabile che scaturisce, in genere, da schemi probabilistici che presuppongono il ricorso a metodi di calcolo di analisi combinatoria. Prescelto, quindi, uno schema di probabilità, si suppone di estrarre da un urna, contenente la popolazione degli oggetti materiali di riferimento, detta anche popolazione di origine, tutti i possibili campioni casuali degli oggetti, di numerosità n, deducibili dalla popolazione medesima, che si suppone costituiscono l’immaginario collettivo. (6) Quando si considera, la variabilità, rispetto alla moda, di molti caratteri fisiologici misurabili come taluni costituenti del sangue e delle urine collegabili, secondo la logica comune, a diverse condizioni di malattia, oppure alla mancanza di segni e di sintomi di malattia, dei soggetti appartenenti ad una specifica razza (causa sistematica di variabilità interindividuale o tra i soggetti), è da considerare anche una causa sistematica di variabilità intraindividuale o all’interno dei soggetti, imputabile ad un altro fenomeno qualitativo degli esseri viventi di quella razza. Infatti, nel caso, ad es., della misura della pressione arteriosa sistolica e diastolica dei soggetti di una specifica razza potrebbe essere considerata un’alteriore causa sistematica di variabilità non imputabile alla razza stessa che sarebbe il cosiddetto ritmo circadiano dei soggetti medesimi. Pertanto, sarebbe opportuno misurare sistematicamente la pressione arteriosa durante le ventiquattro ore, anziché in talune ore, del giorno. (7) Riconducibile, cioè, a due cause di variabilità inseparabili e, quindi, congiunte: una causa sistematica che sarebbe il fenomeno qualitativo valutabile in base all’esperienza e con l’ausilio della misura di un carattere metrico collegabile al predetto fenomeno qualitativo, ed un imprecisabile numero, anziché una serie tendente ad infinito, di cause accidentali non prevedibili che in concreto si tradurrebbero in errori casuali di misura del fenomeno quantitativo. (8) Al fine di normalizzare o regolarizzare la variabilità di una grandezza misurabile collegabile, secondo la logica comune, ad una qualità naturale od artificiale, occorre pertanto: - Specifiare la moda, regola, o norma, della grandezza misurabile collegabile alla qualità da valutare. Codesta grandezza sarebbe variabile, quindi, a causa del fenomeno qualitativo valutabile che, pertanto, avrebbe un intervallo di lunghezza stabile in sé, perchè limitato dalle due misure di soglia, od estreme, che l’esperto, preposto alla valutazione del fenomeno qualitativo, collegherebbe a taluni della classe, o dell’insieme limitato, degli oggetti omogenei, rispetto alla qualità da valutare. - Calcolare un indice assoluto di variabilità, rispetto alla moda, regola, o norma, per standardizzare, regolarizzare, o normalizzare, come si è detto, la predetta grandezza variabile ed anche la lunghezza del suo intervallo totale, oppure la lunghezza dell’ intervallo parziale, o “range” interpercentile, limitato da due percentili, a cavallo e non necessariamente equidistanti dalla moda, fra cui comprendere un prestabilito livello percentuale (95%) di frequenza empirica integrale della frequenza totale della distribuzione empirica unimodale di frequenza della predetta 3 variabile stocastica gaussiana semplice X M X . A questo riguardo si sottolinea che gli errori casuali semplici estremi, non illimitatamente grandi, posti minori od uguali (non maggiori) ad essi stessi, X1 M X ed X n M X , standardizzati, rispetto al teorico scarto quadratico medio non determinabile e, quindi, incognito X , delle teoriche misure del carattere metrico (grandezza astratta), espresso con X, oppure con (9), x u , dell’immaginario insieme, detto universo, dei campioni casuali degli oggetti di numerosità n tendente ad infinito, sono gli errori casuali standardizzati estremi delle predette teoriche misure, poste minori od uguali (non maggiori) ad esse stesse (percentili teorici), tabulati nel prontuario costruito con l’integrale di Sheppard e indicati con k1 X M 1 X kn e X n M X X . X Pertanto, la lunghezza, o la misura, teorica approssimata : W (Xn M X ) (X1 M X ) = kn k1 X dell’intervallo non limitato delle teoriche misure distanti dalla teorica media aritmetica di un carattere metrico (grandezza astratta) X dell’immaginario collettivo, standardizzate, rispetto al teorico scarto quadratico medio non determinabile e, quindi, incognito X delle predette teoriche misure, è, in sostanza, la teorica lunghezza approssimata dell’intervallo non limitato della variabile stocastica gaussiana standardizzata, limitato dai due teorici errori casuali standardizzati estremi che sono tabulati nella predetta tavola prontuario, cioè: infine - W W 6,18 ; oppure W 7,98 od – 12 , a seconda che concorrano al calcolo della somma integrale delle probabilità degli errori casuali standardizzati associabili alle misure del carattere metrico degli oggetti materiali con la qualità valutabile, supposta casuale, non più di 100, più di 100 ma non più di 1.000, oppure più di 1.000 oggetti che se fossero, in realtà, omogenei, rispetto alla qualità valutata, costituirebbero una classe, od un insieme limitato. Perciò, il valore teorico approssimato di W a cui corrisponde la somma integrale delle probabilità, rispettivamente, di livello 99,99%, oppure di livello 999,99%° od, infine, di livello 9.999,99%°° della distribuzione (teorica) di probabilità standardizzati è deducibile dalla predetta tavola prontuario. degli errori casuali ' ' Il criterio k x - mw ' ' ' 2 2 x n x1 ' ' M w mw k n k1 per standardizzare la variabile statistica non casuale semplice, oltre che la lunghezza, stabile in sé, dell’intervallo limitato chiuso della variabile medesima e, quindi, l’uso della moda e dell’indice approssimato della deviazione dalla moda della predetta variabile, permettono di: a) Calcolare gli estremi (minimo e massimo) della cosiddetta regione di tolleranza degli errori casuali semplici che perturberebbero, in concreto, l’empirica distribuzione di frequenza cumulata della variabile statistica non casuale standardizzata. Cioè le misure estreme di un carattere metrico collegabile ad una qualità valutabile come detto prima. b) Calcolare, all’interno della predetta regione di tolleranza, gli estremi di un intervallo di tolleranza degli errori casuali semplici che perturberebbero, in concreto, un prestabilito livello percentuale (95%) dell’empirica distribuzione di frequenza cumulata delle misure distanti dalla moda standardizzate del carattere metrico collegabile al fenomeno quantitativo. variabile statistica non casuale, o causale, semplice, in modo da determinare i confini convenzionali della normalità, o della regolarità, delle misure, distanti dalla misura più frequente o moda, del carattere metrico collegabile alla qualità valutabile in base all’esperienza e con l’ausilio della misura del predetto fenomeno quantitativo. (9) Il teorico scarto quadratico medio incognito dell’insieme, detto universo, dei campioni casuali degli oggetti è espresso, in alcuni testi di statistica, con il simbolo x . u 4 Per scopi d’interpolazione, o di perequazione, grafica, o descrittiva, si ritiene, perciò, opportuno considerare una funzione di frequenza avente come argomento la cosiddetta variabile statistica non casuale semplice, potenzialmente continua (10), standardizzata, rispetto all’indice (approssimato) della deviazione dalla moda della predetta variabile statistica non casuale semplice. Codesta funzione potrebbe essere il modello statistico idoneo per calcolare le teoriche frequenze assolute utili per rappresentare graficamente determinati oggetti omogenei, rispetto ad una qualità valutabile con l’ausilio della misura di un carattere metrico collegabile, secondo la logica comune, alla qualità stessa. Rappresentando, perciò, graficamente la distribuzione delle teoriche frequenze così calcolate si potrebbe avere una curva con andamento uniforme, regolare o normale, con due estremi tendenzialmente tangenti all’asse delle ascisse, anziché con altre inclinazioni, e con un vertice in corrispondenza dell’ordinata massima che rappresenterebbe il massimo di frequenza con ascissa la moda del carattere metrico degli oggetti omogenei che costituirebbero una classe, od un insieme limitato. Poiché, inoltre, la somma integrale di una funzione empirica (variabile dipendente) scaturisce dalla successione non decrescente delle modalità della variabile indipendente (argomento della funzione empirica) ed, inoltre, una successione è di per sé un insieme ordinato di elementi, la somma integrale, od il cumulo (11) di determinati oggetti omogenei, rispetto ad un fenomeno qualitativo, distribuiti secondo le misure, poste minori od uguali ad esse stesse, di un carattere metrico collegato alla qualità stessa, potrebbe essere rappresentata graficamente per mezzo delle teoriche frequenze assolute calcolate con la funzione dell’anzidetta variabile statistica non casuale semplice standardizzata, e, poi, sommate, o cumulate. Codeste teoriche frequenze assolute cumulate corrisponderebbero, perciò, ai percentili empirici. In tal modo, si potrebbe rappresentare con la funzione di ripartizione, o della somma integrale, della funzione di frequenza avente come argomento la variabile statistica non casuale semplice standardizzata, il comportamento geometrico – analitico della variabilità, rispetto alla moda, del carattere metrico collegabile al fenomeno qualitativo non misurabile, valutabile in base all’esperienza e con l’ausilio della misura del fenomeno quantitativo,. Se s’intende effettuare, quindi, l’esame della variabilità, rispetto alla moda, di un carattere metrico collegabile, secondo la logica comune, ad una qualità valutabile come detto prima, le misure che costituirebbero, in tal caso, la cosiddetta popolazione statistica, o l’insieme limitato chiuso dalle due misure di soglia, od estreme, stabilite da un esperto per separare gli oggetti omogenei, rispetto alla qualità valutabile, in occasione del censimento e della classificazione, o ripartizione, in classi degli oggetti materiali di riferimento, caratterizzati dalla diversità, rispetto a presumibili qualità distintive, potrebbrero essere ordinate in una maniera regolare, dal punto di vista matematico, come ' non decrescente: ' estreme, ' ' ' 1 2 n x x …. x (o decrescente) ed anche come una successione numerica x1 x 2 .... xn , nell’intervallo limitato chiuso, o compatto, dalle misure di soglia, od una successione numerica crescente: ' ' ' x1 x n e (minima e massima) stabilite per segnalare, in concreto, la diversità, od il cosiddetto passaggio del grado di qualità degli oggetti che costituirebbero l’insieme complessivo di riferimento. Secondo il nostro punto di vista, le predette misure, distanti dalla moda, costituirebbero le modalità della cosiddetta variabile statistica non casuale, o causale, semplice, detta anche variabile statistica “di partenza”, potenzialmente continua. Si sottolinea, dunque, che le misure di un carattere metrico che contribuirebbero a valutare un fenomeno qualitativo di determinati oggetti costituirebbero la popolazione statistica. Esse non sono, quindi, inerenti a tutti gli oggetti che, in realtà, si possono collezionare e, quindi, censire in un determinato tempo e spazio, ma sono le misure del fenomeno quantitativo inerenti a determinati oggetti omogenei selezionati in occasione della valutazione di una loro qualità effettuata in base all’esperienza e con l’ausilio della misura del predetto carattere metrico. Tali oggetti costituiscono, perciò, una classe, od un insieme limitato, della popolazione complessiva degli oggetti materiali di riferimento e rappresentano, in realtà, dunque, una qualità naturale, od artificiale (fenomeno collettivo o di massa), che è l’oggetto di studio della statistica descrittiva o investigativa vera e propria. Invece, determinati oggetti più o meno numerosi selezionati, dalla popolazione degli oggetti materiali di riferimento, con un meccanismo di sorteggio casuale, secondo una prestabilita funzione di probabilità, che costituiscono un sotto insieme casuale e rappresentano, per l’ipotesi (10) Che ha come origine la misura più frequente, o moda, mw ' ' , del carattere metrico (grandezza misurabile), x, degli oggetti selezionati con una diagnosi del fenomeno qualitativo. Tale costante statistica è da considerare, perciò, dal punto di vista biologico, come l’effetto dell’azione combinata del genoma e dell’ambiente (condizioni di vita) che si ripercuotono sulla variabilità, rispetto alla moda, di un carattere metrico collegabile ad una delle razze, specie o varietà della popolazione complessiva di riferimento. (11) Iniziando a sommare da quelli con la misura minima di soglia, od estrema, sino a quelli con la misura massima di soglia, od estrema, del carattere metrico che un esperto dovrebbe collegare a taluni della classe, o dell’insieme limitato, degli oggetti omogenei, rispetto alla qualità valutabile come detto prima. 5 della casualità del fenomeno qualitativo, o collettivo, da esaminare, un insieme di campioni casuali d’oggetti realmente non osservati (universo o collettivo immaginario), hanno il difetto di non rappresentare un fenomeno qualitativo. Come è noto, inoltre, le misure di un carattere metrico associabile ad un fenomeno qualitativo, supposto casuale, di determinati oggetti selezionati con un meccanismo di sorteggio casuale, costituiscono un campione statistico. PARTE PRIMA Alcuni elementi di calcolo delle probabilità 1) Le varie definizioni di probabilità e la legge dei grandi numeri di Bernoulli. Osservazione sulla differenza tra la probabilità a priori ed a posteriori (frequenza relativa) e tra la probabilità a posteriori per così dire casuale od eventuale e la probabilità a posteriori, o frequenza, definita con una proposizione, o diagnosi, di un fenomeno qualitativo effettuata in base all’esperienza e con l’ausilio della misura di un carattere metrico collegabile, secondo la logica comune, al predetto fenomeno qualitativo. 2) Concetto di variabile stocastica (o casuale) semplice, discreta o continua. 3) Funzione di densità di probabilità. 4) Funzione di ripartizione, o della somma integrale, della funzione di probabilità di una variabile stocastica semplice, discreta, o continua. Alcuni elementi di metodologia statistica Lo scopo fondamentale della statistica: la descrizione dei fenomeni qualitativi naturali, od artificiali, non misurabili detti, anche, fenomeni collettivi, o di massa . Due diversi metodi statistici ritenuti utili. Il Metodo dell’inferenza, o dell’induzione, statistica con un processo per così dire incompleto riferito, cioè, ad un sotto insieme d’oggetti scelti con un meccanismo di sorteggio casuale, secondo un prestabilito schema di probabilità a priori. Un metodo, quindi, che presuppone la stima dei parametri caratteristici di una funzione di probabilità di una variabile stocastica, o casuale, dell’immaginario collettivo, che ha lo scopo di perequare analiticamente la frequenza empirica, per così dire casuale od eventuale, della distribuzione di frequenza delle effettive misure di un carattere metrico associato ad un fenomeno qualitativo supposto casuale. La necessità, quindi, di una rilevazione statistica parziale o campionaria, o per così dire incompleta, per l'analisi quantitativa di una variabile stocastica (analisi statistica univariata per così dire incompleta). 1) Gli elementi necessari per un'indagine campionaria. I modelli probabilistici e, quindi, i metodi per selezionare gli oggetti che costituiscono un campione casuale dalla popolazione di riferimento (*). Il metodo di estrazione casuale In realtà, l’insieme degli oggetti materiali di riferimento, o la popolazione d’origine, è, generalmente, una popolazione finita. Il collettivo, oggetto dell’inferenza statistica con il processo incompleto, si suole denominare, invece, popolazione o insieme nel senso matematico od astratto. La numerosità di tale insieme, espressa generalmente con N, può essere finita o infinita. Nell’ambito del metodo dell’inferenza statistica con il processo incompleto riferito, cioè, ad un sotto insieme d’oggetti selezionati in base ad un meccanismo di sorteggio casuale, secondo una pretabilita funzione, o schema, di probabilità a priori e, quindi, secondo l’ipotesi della casualità del fenomeno qualitativo che s’intende statisticamente studiare, il campione casuale degli oggetti realmente osservati dovrebbe rappresentare l’insieme immaginario dei campioni casuali degli oggetti realmente non osservati (universo o collettivo immaginario). In tal caso, quindi, s’intende stimare, in condizioni di stabilità di variabilità imputabile ad una serie di errori casuali di misura, i parametri caratteristici della funzione di probabilità a priori degli errori casuali standardizzati.Tale funzione si assume, quindi, come un modello d’urna, o di probabilità, che governa la distribuzione teorica campionaria del parametro da stimare e serve per perequare (aggiustare) analiticamente la frequenza empirica per così dire casuale od eventuale delle misure distanti dalla media aritmetica teorica di un carattere metrico (grandezza astratta) dell’ immaginario collettivo (distribuzione empirica della variabile stocastica gaussiana semplice standardizzata). Quindi, la popolazione matematica finita o infinita è una costruzione artificiosa che scaturisce da uno schema probabilistico che presuppone, spesso, il ricorso a metodi di calcolo di analisi combinatoria. Dal punto di vista probabilistico è infinita, ma numerabile, la popolazione costituita dai risultati dei lanci di un dado o di una moneta. Prescelto, quindi, uno schema di probabilità, si suppone di estrarre da un urna, contenente la popolazione degli oggetti materiali di riferimento, tutti i possibili campioni casuali degli oggetti di numerosità n, deducibili dalla popolazione d’origine, che costituirebbero l’universo immaginario. Se la scelta casuale si effettua con lo shema della estrazione con ripetizione, il numero dei (*) campioni costituenti l’universo è dato da: N n . In tal caso si considerano come distinti i campioni nei quali si presentano le stesse n unità, ma con diverso ordine di estrazione. Così facendo, però, l’esperto di ogni settore di ricerca non affronta il principale problema della classificazione della popolazione complessiva degli oggetti materiali di riferimento, caratterizzata, di solito, dalla diversità, rispetto a talune presumibili qualità distintive. Per effettuare l’analisi 6 semplice delle unità (individui od altri enti materiali) del campione, secondo i due schemi principali di selezione: lo schema probabilistico dell’estrazione con ripetizione e lo schema dell’estrazione senza ripetizione, o esaustiva, anche se in realtà le indagini campionarie vengono, spesso, condotte con schemi probabilistici di campionamento più complicati. Ad ogni modo, come è noto, il criterio di estrazione con ripetizione degli oggetti di un campione risulta semplificato, rispetto al criterio di estrazione senza ripetizione. Perciò il termine generico di campione casuale d’oggetti, senza ulteriori precisazioni, viene utilizzato, in seguito, per campioni d’oggetti estratti con ripetizione, o con estrazione bernoulliana. 2) Il campione casuale degli oggetti e la popolazione matematica (finita o infinita) immaginaria, frutto di un calcolo di analisi combinatoria, denominata anche universo, collettivo, oppure urna, dei campioni casuali degli oggetti di dimensione n (**). Inoltre, il campione statistico, ovvero il sotto insieme delle misure di un fenomeno quantitativo di determinati oggetti scelti con un meccanismo di sorteggio casuale secondo una prestabilita funzione, o schema, di probabilità a priori. 3) Scala delle misure dei fenomeni quantitativi (fisiologici o somatici) degli oggetti scelti in base ad un meccanismo di sorteggio casuale. 4) Il processo di rilevamento delle informazioni statistiche: a) il piano di rilevazione; b) la raccolta; c) lo spoglio; la classificazione e la sistemazione, in una distribuzione empirica di frequenza per così dire casuale od eventuale, delle informazioni (misure di un carattere metrico) che costituiscono il campione statistico (tabella statistica). 5) La distribuzione teorica di probabilità della variabile stocastica gaussiana semplice (continua) standardizzata, rispetto al teorico scarto quadratico medio non determinabile e, quindi, incognito dell’immaginario collettivo. 6) L'esame della variabilità delle misure dei caratteri fisiologici o somatici, secondo il metodo dell'inferenza statistica con il processo incompleto riferito, cioè, ad un sotto insieme d’oggetti scelti con un meccanismo di sorteggio casuale, secondo un prestabilito schema di probabilità a priori. 6.1) Alcune medie usate per la sintesi delle informazioni statistiche raccolte nelle indagini campionarie: la media aritmetica, la media geometrica, la media armonica, la misura mediana, oppure il 2° quartile od il 50° percentile. Altre medie di posizione come i quartili, i sestili, i decili ed i percentili della distribuzione empirica di frequenza cumulata per così dire casuale, od eventuale, di una variabile stocastica. 6.2) I momenti di una distribuzione empirica di frequenza di una variabile stocastica. Relazione tra i momenti medi con origine la media aritmetica empirica e di grado " r "e quelli con un’origine diversa dalla media aritmetica empirica ma con lo stesso grado dei momenti medi con origine la media aritmetica. 6. 3) Stima dei parametri inerenti una variabile stocastica. 6.3.1) La lunghezza, o la misura, teorica approssimata, in quanto non può essere effettuata una misurazione esatta ma di comodo, della lunghezza dell’intervallo, o del "range", totale non limitato della distribuzione teorica della somma integrale di probabilità della variabile stocastica gaussiana semplice standardizzata dell’immaginario collettivo. Inoltre, l’intervallo parziale limitato dalle effettive misure estreme, distanti dalla media aritmetica, di un campione di misure di un carattere metrico (campione statistico) di determinati oggetti selezionati con un meccanismo di sorteggio casuale secondo la funzione della somma integrale di probabilità degli errori casuali standardizzati. 6.3.2) La lunghezza effettiva, anziché teorica, dell’intervallo parziale, o “range” interquartile, di una distribuzione empirica di frequenza (cumulata) delle misure di un carattere metrico di determinati oggetti scelti con un meccanismo di sorteggio casuale, secondo la funzione di ripartizione, o della somma integrale, delle probabilità degli errori casuali standardizzati, considerata una stima robusta, rispetto agli outliers (*), dell’intervallo non limitato della variabile stocastica gaussiana standardizzata, utile per segnalare le perturbazioni, imputabili agli errori casuali, non molto distanti dall’errore nullo (media aritmetica degli errori casuali standardizzati), delle misure del carattere metrico degli oggetti che costituiscono un campione casuale dell’immaginario collettivo. 6.4) Un teorico indice assoluto di variabilità: lo scarto quadratico medio (abbreviato s. q. m.) incognito e, quindi, non determinabile della teorica distribuzione di probabilità degli errori casuali semplici delle teoriche misure di un carattere metrico (grandezza astratta) dell’immaginario collettivo, che si può stimare in base allo scarto quadratico medio della variabilità delle misure di un carattere metrico collegabile ad un fenomeno qualitativo si avverte, dunque, la necessità del calcolo di due parametri: uno dei quali sarebbe la misura prevalente, moda o norma, che è una media di posizione da considerare la regola della grandezza misurabile collegabile al fenomeno qualitativo, perché è la misura più frequente e può rappresentare, perciò, l’origine della variabilità delle misure regolari, o normali, del carattere metrico collegabile alla qualità che può valutare un esperto. Inoltre, È necessario, inoltre, un parametro che indichi la variabilità, rispetto alla norma, delle misure del carattere metrico collegabile al fenomeno qualitativo. (**) Non sempre, però, può essere praticamente determinato l’universo, o l’urna dei campioni, né è essenziale l’effettiva costruzione dell’insieme immaginario dei campioni, quando la numerosità N della popolazione matematica, oggetto dell’inferenza statistica, è grande e le n unità (oggetti) del campione che in realtà s’intende formare sono molte. (*) Cioè le misure di un carattere metrico molto distanti dalla media aritmetica, dette anche misure anomale e, quindi, esterne a quelle estreme di taluni di un sotto insieme d’oggetti selezionati con un meccanismo di sorteggio casuale. 7 dell’empirica distribuzione di frequenza, per così dire casuale od eventuale, delle effettive misure del predetto carattere degli oggetti che costituiscono un campione casuale. 6.5) Gli indici di asimmetria e, quindi di non gaussianità, o di non casualità, della forma di una distribuzione empirica di frequenza della variabile stocastica gaussiana standardizzata. L’indice di curtosi, o di instabile variabilità, rispetto alla media aritmetica empirica, imputabile agli errori casuali delle misure di un carattere metrico di determinati oggetti scelti con un meccanismo di sorteggio casuale, secondo la funzione di probabilità degli errori casuali standardizzati. 7) La funzione di Gauss con equazione ridotta, proposta da Sheppard, ossia la funzione di probabilità degli errori casuali standardizzati, rispetto al teorico scarto quadratico medio non determinabile e, quindi, incognito degli errori casuali semplici delle teoriche misure di un carattere metrico (grandezza astratta) dell’immaginario collettivo. Altre funzioni di probabilità per effettuare un’inferenza statistica con il processo incompleto: le funzioni ritenute, da K. Pearson, fondamentali per scopi descrittivi. Inoltre, la funzione log-gaussiana di Mc Aliffe. 8) La funzione di ripartizione, o della somma integrale, della funzione (continua) di probabilità della variabile stocastica gaussiana standardizzata (il cui limite è l’integrale improprio dovuto a Sheppard), per rappresentare un fenomeno qualitativo, supposto casuale, a cui si associa un carattere metrico di determinati oggetti scelti con un meccanismo di sorteggio casuale. 9) La tavola degli errori casuali standardizzati, posti minori od uguali (non maggiori) ad essi stessi - che perturberebbero le teoriche misure, poste minori od uguali ad esse stesse percentili teorici a cavallo della misura mediana (**), o del percentile teorico 50, di un carattere metrico, X, dell’immaginario collettivo dei campioni casuali degli oggetti - cui corrispondono le probabilità integrali, o cumulate, calcolate con la funzione di ripartizione della funzione gaussiana standardizzata. 10) L'indice "D" di Kolmogorov per saggiare l'ipotesi della casualità della differenza tra l’empirica frequenza assoluta cumulata, per così dire casuale od eventuale, e la teorica frequenza assoluta cumulata calcolata con la funzione di ripartizione della funzione (continua) di probabilità della variabile stocastica gaussiana standardizzata. 11) Alcuni schemi di analisi bivariata e multivariata per la ricerca delle relazioni tra due o più fenomeni misurabili, nell'ambito delle indagini parziali o campionarie. Regressione lineare tra due o più variabili (Regressione lineare parziale, o multipla). Correlazione lineare tra due o più variabili (Correlazione lineare parziale). Il coefficiente di determinazione lineare multipla. Analisi delle corrispondenze. 12) Cenni sui metodi di stima dei parametri caratteristici della distribuzione di probabilità degli errori casuali standardizzati delle teoriche misure di un carattere metrico dell’immaginario collettivo (universo gaussiano). La verifica dell'ipotesi della gaussianità, o della casualità, di un fenomeno qualitativo, o collettivo. Talune funzioni test ( 2 , t, F) per la verifica, mediante un campione casuale d’oggetti, della suddetta ipotesi. Analisi della varianza e della covarianza. Il concetto di intervallo di tolleranza gaussiano cui si associa un prestabilito livello percentuale della somma integrale di probabilità da non escludere dalla distribuzione teorica della somma integrale delle probabilità degli errori casuali standardizzati. 13) I problemi della sperimentazione biometrica. Taluni modelli elementari per lo studio della variabilità nell’ambito della programmazione degli esperimenti. Alcuni schemi di disegno sperimentale: disegno fattoriale, disegno completamente randomizzato, o a blocchi randomizzati, e disegno a quadrato latino. La sperimentazione biologica ed il dosaggio. 14) Cenni sulle indagini epidemiologiche. Concetto di prevalenza e di incidenza di una malattia. Le tecniche per un'indagine di “screening” ed il problema delle " misure di soglia " e dei soggetti “border - line”. 15) Il teorema di Bayes e la teoria delle decisioni. Taluni elementi di statistica bayesiana. Il Metodo dell’inferenza, o dell’induzione, statistica con un processo completo riferito, cioè, ad una classe, oppure ad un insieme limitato, d’oggetti omogenei, rispetto ad un fenomeno qualitativo che può valutare un esperto con l’ausilio della misura di un carattere metrico collegabile, secondo la logica comune, alla qualità stessa. Un metodo, quindi, che presuppone di considerare la moda, regola o norma e di calcolare, inoltre, l’indice della deviazione dalla moda (parametri descrittivi) della distribuzione empirica univariata unimodale di frequenza delle misure di un carattere metrico collegabile ad un fenomeno qualitativo. Questi parametri potrebbero specificare la cosiddetta funzione statistica descrittiva, cioè la funzione della teorica frequenza della cosiddetta variabile statistica non casuale semplice, o scarto dalla moda, standardizzata rispetto all’indice (approssimato) della deviazione dalla moda della predetta variabile, utile per effettuare un’interpolazione, o (**) Come è noto, la media aritmetica e la misura mediana delle teoriche misure, perturbate dagli errori casuali standardizzati, di un carattere metrico dell’immaginario collettivo sono uguali. Però, la misura mediana della distribuzione teorica della somma integrale delle probabilità degli errori casuali standardizzati è una media di posizione, od il percentile teorico 50 . 8 perequazione, grafica e, quindi, per descrivere determinati oggetti che costituiscono un insieme limitato, in quanto omogenei, rispetto al fenomeno biologico qualitativo non misurabile, come: la razza umana, la specie animale, o la varietà vegetale. Ognuno di questi fenomeni qualitativi accomuna, infatti, determinati individui che costituiscono l'unità biologica esistente nell'ambito della diversità della vita. La necessità, quindi, di una rilevazione statistica per così dire completa per l’analisi di una variabile statistica non casuale, o causale, semplice, potenzialmente continua, standardizzata (analisi quantitativa univariata per così dire completa) (*). Gli elementi necessari per un'indagine statistica per così dire completa: 1) Il censimento, in un determinato tempo, dell’insieme complessivo degli oggetti materiali di un determinato ambiente e la classificazione, o ripartizione in classi, degli oggetti omogenei, rispetto a prestabilite qualità distintive che può valutare un osservatore coerente (biologo, antropologo, epidemiologo). Oppure, il censimento, in un determinato tempo, di determinati oggetti che sarebbero omogenei, rispetto ad una qualità ben nota, e confinati in un precisato ambiente (**). 2) Il numero delle classi degli oggetti omogenei da formare in base a prestabiliti fenomeni qualitativi che caratterizzano l’insieme complessivo degli oggetti materiali di riferimento. 3) La proposizione, o la diagnosi, dei fenomeni qualitativi che può fare un esperto in grado di stabilire, anche, le misure di soglia di un carattere metrico da collegare a taluni di ogni classe degli oggetti omogenei, rispetto al fenomeno qualitativo da valutare. 4) La scala delle misure del carattere metrico (fisiologico o somatico) collegabile, secondo la logica comune, ad un fenomeno qualitativo. 5) Il processo di rilevamento, per così dire completo, delle informazioni statistiche. 6) La "definita popolazione statistica", ossia l'insieme delle misure di un carattere metrico limitato dalle due misure di soglia, od estreme, che un esperto collegherebbe a taluni di una classe, o di un insieme limitato, d’oggetti omogenei, rispetto ad un fenomeno qualitativo (naturale od artificiale) valutabile in base all’esperienza e con l’ausilio della misura del predetto carattere metrico (***). 7) La distribuzione empirica univariata unimodale di frequenza delle misure di un carattere metrico collegabile ad un fenomeno qualitativo e la corrispondente distribuzione cumulativa di frequenza in cui sarebbero posizionati i cosiddetti percentili empirici. 8) La cosiddetta variabile statistica non casuale, o causale, semplice, detta anche scarto dalla moda, o variabile "di partenza", potenzialmente continua. 9) Talune costanti statistiche utili per effettuare un’inferenza statistica con il processo completo: a) La lunghezza, o la misura, dell’intervallo totale, o “range”, della cosiddetta variabile statistica non casuale o causale semplice, limitato dalle misure di soglia, od estreme, distanti dalla moda, di un carattere metrico collegabile ad un fenomeno qualitativo. b) La lunghezza dell’intervallo parziale, o “range” interpercentile, della variabile statistica non casuale o causale semplice limitato da due misure di posizione o, per meglio dire, da due percentili empirici, a cavallo e non necessariamente equidistanti dalla moda della variabile in questione, per separare una prestabilita percentuale (95%) dell’empirica distribuzione della somma integrale, o del cumulo, delle frequenze delle misure del carattere metrico degli oggetti omogenei che costituiscono una classe, od un insieme limitato. Per convenzione, le misure del carattere metrico collegabile alla qualità degli oggetti che costituiscono tale percentuale della frequenza totale sarebbero da considerare statisticamente regolari o normali, perché perturbate, probabilmente, dagli errori casuali standardizzati non molto distanti dall’errore nullo (media aritmetica degli errori casuali standardizzati). (*) Il calcolo, anziché la stima, dei parametri della funzione della teorica frequenza della variabile statistica non casuale, o causale, standardizzata, con argomento le misure distanti dalla moda, standardizzate, rispetto all’indice approssimato della deviazione dalla moda di un carattere metrico collegabile ad una qualità valutabile, come detto prima, potrebbe essere effettuato anche nell’ambito dell’analisi bivariata e multivariata per la ricerca delle relazioni tra due o più variabili statistiche non casuali standardizzate collegabili ad una qualità naturale od artificiale, in modo da effettuare un’analisi quantitativa multivariata per così dire completa riferita, cioè, ad un insieme d’oggetti omogenei selezionati da un esperto con una diagnosi di un fenomeno qualitativo. (**)Ad es., il censimento, in un determinato tempo, degli individui di una specie animale, o di una varietà vegetale, confinati in un precisato ambiente geografico, che costituiscono, per la Genetica animale, o vegetale, la cosiddetta “linea pura”. (***) In tal caso, le misure del carattere quantitativo utili per l’indagine statistica per così dire completa possono essere ordinate, dal punto di vista matematico, in maniera regolare, come una successione numerica crescente (o decrescente) ed anche come una successione numerica non decrescente, nell’intervallo limitato chiuso dalle due misure di soglia, od estreme, stabilite da un esperto. 9 10) I parametri descrittivi della distribuzione empirica univariata unimodale di frequenza delle misure di un carattere metrico collegabile ad un fenomeno qualitativo: la moda e l’indice (approssimato) della deviazione dalla moda della cosiddetta variabile statistica non casuale o causale semplice, potenzialmente continua. 11) Due indici assoluti di variabilità, utili nelle indagini statistiche per così dire complete. L'indice approssimato non parametrico gaussiano della deviazione dalla moda, uguale per ipotesi alla media aritmetica, della variabile statistica non casuale semplice con distribuzione empirica di frequenza definita in occasione della diagnosi di un fenomeno qualitativo, ipotizzata di forma gaussiana ed, inoltre, l'indice approssimato della deviazione dalla moda (radice quadrata di un momento medio "sui generis") della predetta variabile con distribuzione empirica di frequenza priva, in realtà, di distribuzione teorica di probabilità ed, in particolare, libera dall’ipotesi distributiva gaussiana mesocurtica (indice assoluto di variabilità, per così dire totale) (*). 12) Il rapporto tra gli anzidetti indici approssimati della deviazione dalla moda della variabile statistica non casuale semplice, utile per l’impiego di un criterio statistico per confermare l’omogeneità degli oggetti che costituiscono una classe, od un insieme limitato, e per determinare, inoltre, i confini convenzionali della normalità, o regolarità, della distribuzione empirica di frequenza delle misure del carattere metrico collegabile alla qualità degli oggetti medesimi (**) . 13) La disuguaglianza di Tchebycheff. 14) Il criterio statistico per standardizzare (regolarizzare o normalizzare ) la lunghezza dell’intervallo della variabile statistica non casuale semplice. Codesto intervallo sarebbe limitato chiuso dalle misure di soglia, od estreme, che un esperto collegherebbe a taluni di una classe, o di un insieme limitato, d’oggetti omogenei, rispetto ad un fenomeno qualitativo valutabile in base all’esperienza e con l’ausilio della misura del predetto fenomeno quantitativo. 15) La funzione gaussiana standardizzata modificata, cioè la funzione della variabile statistica non casuale semplice, potenzialmente continua, standardizzata - rispetto all'indice (approssimato) della deviazione dalla moda della predetta variabile statistica non casuale semplice – per descrivere determinati oggetti omogenei, rispetto ad una qualità valutabile in base all’esperienza e con l’ausilio della misura di un carattere metrico collegabile, secondo la logica comune, alla qualità stessa. Inoltre, la funzione di ripartizione della predetta funzione gaussiana standardizzata modificata per rappresentare graficamente, per mezzo dei percentili empirici e le corrispondenti frequenze assolute, calcolate con la gaussiana standardizzata modificata, e poi cumulate, il comportamento geometrico-analitico della variabilità, rispetto alla moda, del carattere metrico collegabile al fenomeno qualitativo non misurabile valutabile come detto prima. 16) Il calcolo degli estremi (minimo e massimo) (*) della regione di tolleranza degli errori casuali semplici che perturbano, in teoria, l’empirica distribuzione di frequenza cumulata della variabile statistica non casuale, o causale, semplice standardizzata. Inoltre, il calcolo degli estremi di un intervallo di tolleranza, all’interno della predetta regione di tolleranza, degli errori casuali semplici che perturbano, in teoria, un prestabilito livello percentuale (95%) dell’empirica distribuzione di frequenza cumulata della variabile statistica non casuale semplice standardizzata, da escludere dalla distribuzione medesima. 17) Il controllo statistico di una qualità. 18) L’uso dell’indice "D" di Kolmogorov per escludere l’ipotesi che sia imputabile ad un imprecisabile numero, anziché ad una serie, di cause accidentali (**), la differenza tra le empiriche frequenze assolute cumulate delle misure del fenomeno quantitativo collegato al fenomeno qualitativo e le teoriche frequenze assolute cumulate, calcolate con la funzione di ripartizione della cosiddetta variabile statistica non casuale semplice standardizzata, rispetto all’indice approssimato della deviazione dalla moda della variabile statistica non casuale semplice (funzione di ripartizione della variabile casuale gaussiana standardizzata modificata). (*)Riconducibile, cioè, a due cause di variabilità inseparabili e, quindi, congiunte: una causa sistematica che è il fenomeno qualitativo valutabile in base all’esperienza e con l’ausilio della misura di un carattere metrico collegabile al fenomeno qualitativo, ed un imprecisabile numero finito, anziché una serie, di cause accidentali non prevedibili che, in concreto, si traducono in errori casuali di misura del fenomeno quantitativo. (**)La normalità, quindi, nel senso della regolare frequenza, intorno al massimo di frequenza cui corrisponde la moda, regola, o norma di un carattere metrico di determinati oggetti omogenei, rispetto ad una qualità valutabile in base all’esperienza e con l’ausilio della misura del predetto fenomeno quantitativo, anziché la normalità nel senso della gaussianità, o della casualità, della frequenza delle misure stesse. (*) Tali estremi non possono essere, in realtà, maggiori delle misure di soglia, od estreme, della distribuzione empirica di frequenza che avrebbe stabilito un esperto. Nel caso contrario, infatti, si tratterebbe di misure anomale da collegare ad un fenomeno qualitativo diverso da quello valutabile e, quindi, esterne a quelle estreme del carattere metrico degli oggetti omogenei. (**) In tal modo, si potrebbe ammettere, quindi, che la funzione della teorica frequenza (modello statistico) della cosiddetta variabile statistica non casuale, o causale, semplice standardizzata è idonea a descrivere determinati oggetti omogenei, rispetto ad una qualità valutabile in base all’esperienza e con l’ausilio della misura di un carattere metrico collegabile, secondo la logica comune, alla qualità stessa (modello di una tesi, anziché di un’ipotesi, statistica). 10 Si sottolinea, dunque, che gli anzidetti argomenti sono riferiti al metodo statistico che, secondo il nostro punto di vista, sarebbe quello descrittivo o investigativo vero e proprio (***). La maggior parte di tali argomenti non scaturiscono, quindi, da rassegne della letteratura su propensioni teoriche e metodologiche che presuppongono il riferimento al concetto di probabilità a priori, per cui – quando manca l’esperienza necessaria per fare delle affermazioni convinte, o diagnosi, dei fenomeni qualitativi naturali od artificiali - si prefigurano ricerche empiriche mirate all’ottenimento della frequenza per così dire casuale od eventuale e, quindi, mirate all’ottenimento di casi che dovrebbero essere caratterizzati dai predetti fenomeni qualitativi che sono supposti casuali e, perciò, immaginari o privi di corrispondenza con la realtà. In tal caso, le ricerche avrebbero, perciò, lo scopo della sperimentazione e della conseguente verifica di taluni modelli probabilistici. Si tratta, invece, di argomenti che scaturiscono da personali propensioni teoriche e metodologiche che presuppongono il riferimento al concetto di frequenza da definire in occasione della valutazione di un fenomeno qualitativo, o collettivo, in base all’esperienza e con l’ausilio della misura di un fenomeno quantitativo (informazione statistica) collegabile, secondo la logica comune, a quello qualitativo, detto anche fenomeno collettivo, o di massa, che è l’oggetto di studio della Statistica. Pertanto s’intende proporre un modello statistico per : - descrivere determinati oggetti omogenei, rispetto ad un fenomeno qualitativo, che costituiscono una classe, od un insieme limitato, anziché un campione casuale. Perciò, s’intende prefigurare ed esprimere teoricamente come sarebbe, in realtà, per effetto della cosiddetta selezione naturale direzionale, il comportamento variabile, rispetto alla moda, di un fenomeno quantitativo collegabile ad un fenomeno qualitativo, o collettivo, come la razza, la specie o la varietà. A causa della selezione naturale direzionale (*), la curva campanulare delle percentuali degli individui che in prevalenza hanno presentato, in tempi più recenti a noi, una variante delle misure distanti dalla norma dei caratteri Da sottolineare che il Vajani, nelle considerazioni conclusive che riporta nel suo testo di “Statistica Descrittiva”, ricorda che tale disciplina poggia sull’ipotesi di disporre di dati che devono costituire la popolazione statistica (cfr. Vajani L. Statistica Descrittiva. Gruppo Editoriale Fabbri. Sonzogno. Etas. S.p.A. 1990, pag. 551). (*) Nelle popolazioni viventi di linea mista, la distribuzione empirica di frequenza delle misure di taluni caratteri fisiologici ha assunto, spesso, una forma asimmetrica, anziché simmetrica, benchè le misure siano perturbate, in teoria, da un imprecisabile numero di errori dovuti al caso. In realtà, inoltre, tali indagini non sono state ripetute come una serie, tendente all’infinito, di prove indipendenti effettuate a parità di condizioni. Il fenomeno dell’asimmetria della distribuzione empirica di frequenza delle misure di un fenomeno quantitativo è stato riscontrato anche nelle collettività geneticamente omogenee (linee pure) ed è stato giustificato statisticamente per l’interazione delle sorgenti di varianbilità delle misure stesse. È assodato, infatti, che ogni individuo nasce diverso da un altro, a causa dei caratteri specifici ereditati dal gruppo di appartenenza e dei fattori ambientali di tipo climatico, alimentare, culturale, ecc., (variabilità inter- individuale). Inoltre, nell’abito di uno stesso individuo le misure di un carattere fisiologico, o somatico, variano continuamente ( variabilità intra-individuale). È stato osservato, inoltre, che una data collettività di individui omogenei che si riproducono ancora oggi spontaneamente, distribuiti secondo le misure di un carattere quantitativo, assume una forma asimmetrica negativa, per cui le frequenze si concentrano in corrispondenza delle misure più grandi e, quindi, la moda di tale distribuzione risulta maggiore della media aritmetica. Ciò probabilmente è da attribuire alla selezione naturale che può mantenere e incrementare la variabilità in una popolazione genetica. Essa agisce, come è noto, sul fenotipo e cioè su tutti gli attributi osservabili in un organismo. In ogni caso, quindi, i risultati della selezione naturale dipendono dall’interazione di una varietà di fattori, sia genetici che ambientali. I genetisti ritengono, perciò, che tre tipi di selezione naturale abbiano influito sulle popolazioni naturali: la selezione stabilizzante, quella divergente ed, infine, la selezione direzionale. 11 (***) fisiologici e somatici, ha assunto una forma asimmetrica negativa, o verso destra, rispetto alla frequenza massima cui corrisponde la moda. Quindi la selezione naturale direzionale ha finito per aumentare probabilmente la proporzione degli individui con le misure più grandi diminuendo gradualmente certe espressioni (misure più piccole) del fenomeno quantitativo. Tendenzialmente, cioè, ha sostituito gradualmente un allele, od un gruppo di alleli, con un altro nel pool genico. - rappresentare, tramite la funzione di ripartizione del modello statistico descrittivo (il cui limite è un integrale definito), la classe, o l’insieme limitato, degli oggetti omogenei, rispetto al fenomeno qualitativo valutabile come detto prima. Se i fenomeni qualitativi valutabili come detto prima sono diversi essi potrebbero essere rappresentati da diverse funzioni di ripartizione del modello statistico descrittivo. La non intersezione delle funzioni di ripartizione del predetto modello statistico sarebbe, quindi, il presupposto dell’omogeneità, rispetto a prestabilite qualità, degli oggetti materiali della popolazione complessiva di riferimento raggruppata, o distinta, in classi da un esperto. Se si verifica, invece, l’intersezione delle funzioni di ripartizione ciò significa che sono stati messi insieme oggetti con qualità diverse. Per la Parte Prima è in corso di preparazione una dispensa ciclostilata in proprio dagli studenti. PARTE SECONDA Il MONDO DEGLI ESSERI VIVENTI (UMANI, ANIMALI, VEGETALI, O BATTERI). ELEMENTI DI BIOLOGIA GENERALE. 1.Definizione di Biometria e suo campo di applicazione. 2.Elementi di Biologia Generale: il fenomeno vita. 3. Animali e vegetali. 4. Vegetali anomali. 5. Lo scheletro. 6. Lo scheletro negli invertebrati e nei vegetali. 7. I muscoli. 8. La funzione nutritiva e la digestione. 9. La respirazione. 10. L'apparato respiratorio nell'uomo. 11. Il sangue ed i suoi costituenti. Il sistema circolatorio. 12. I gruppi, od i sistemi, sanguigni. 12.1. Il sistema a b o. 12.2 La prova biologica della paternità basata sullo studio dei marcatori genetici del sangue (gruppi sanguigni). 13. Il metabolismo. 14. La sensibilità gustativa ed olfattiva. 15. Gli organi escretori e l'apparato urinario nell'uomo e nei vegetali. 16. La riproduzione asessuata e sessuata. 17. La formazione dei gameti. 18. La fecondazione negli animali. 19. la fecondazione nei vegetali. 20. Lo sviluppo embrionale. 21. La germinazione. 22. La riproduzione nell'uomo. 23. Lo sviluppo embrionale e la nascita. 24. Il ciclo vitale nell'uomo. 24.1. L'infanzia. 24.2. La pubertà. 24.3. La maturità e la vecchiaia. 25.Il ciclo mestruale. 26. La terza età. 27. Il d n a. 28. Le leggi di Mendel ed i caratteri dominanti e recessivi. 29. Come si chiamano i cromosomi che determinano il sesso. 30.La mutazione. 30.1. Mutazioni neutre e deriva genica. 30.2. Mutazioni vantaggiose. 30.3. Mutazioni svantaggiose. 30.4. Un gene – enzima. Cioè un gene che si esprime attraverso la sintesi di proteine. 30.5. La selezione naturale che può mantenere ed incrementare la variabilità dei caratteri fisiologici, o somatici, di una popolazione a causa di fattori genetici ed ambientali. 31. Le malattie ereditarie legate ad un carattere dominante, o recessivo, oppure legate al sesso. 32. I fattori ambientali che stimolano i caratteri ereditari. 33. Gli organi ed i sistemi degli organi degli esseri viventi. 33.1. L'occhio.33.2. L'orecchio 33.3. Sapori e odori. 34. La pelle e la Inizialmente, la selezione naturale, detta stabilizzante, avrebbe prodotto una popolazione di individui con una distribuzione empirica di frequenza delle misure di un loro carattere metrico graficamente uniforme e probabilmente simmetrica, per cui non sarebbe stata osservata, in tal caso, un’elevata frequenza delle misure estreme del carattere fisiologico, o somatico. Pertanto, la curva delle percentuali degli individui distribuiti uniformemente che in prevalenza, un tempo, presentavano una variante, o deviazione, dalla norma del carattere misurabile, era simile alla curva della distribuzione teorica di probabilità degli errori casuali standardizzati. La maggior parte degli individui si posizionava, cioè, simmetricamente e stabilmente intorno a quelli con la misura prevalente o moda, che risultava, perciò, uguale alla media aritmetica delle effettive misure del fenomeno quantitativo. Nelle generazioni successive, per la selezione naturale cosiddetta divergente, in teoria, la forma della curva della distribuzione empirica univariata simmetrica di frequenza della popolazione originaria avrebbe nascosto, invece, una forma bimodale, o dimorfica, ed, in particolare, due curve campanulari simmetriche. A questo proposito, le condizioni necessarie e sufficienti perché un miscuglio di due curve gaussiane riesca con un solo vertice sono state enunciate da: de Helghero F. Sui massimi delle curve dimorfiche. In Rivista “Biometrika”, vol. 3. 1904. Infine, per effetto della cosiddetta selezione naturale direzionale, nei tempi più recenti a noi, è stata riscontrata una forma asimmetrica negativa, o verso destra, rispetto al massimo di frequenza cui corrisponde la moda della distribuzione del fenomeno quantitativo collegabile, secondo la logica comune, al fenomeno qualitativo, o collettivo, come una razza, una specie, od una varietà (cfr. Curtis H. Sue Barnes N. Vol. II. Zanichelli III edizione. Bologna, pagg. 529-532). 12 sensibilità cutanea. 34.1. Le infezioni della pelle derivanti dall'azione dei virus e dei batteri. 35. Il sistema nervoso. 36. Le ghiandole endocrine e gli ormoni. 37. L'encefalo: anatomia e misura ecografica (elettroencefalogramma). 38. L'influenza dell'ambiente sulle caratteristiche di un individuo: esame riferito ai gemelli identici, o monovulari. 39 Il metabolismo della cellula animale. 40. I tessuti animali e vegetali. 41.Gli organi di senso nei vegetali ed alcuni ormoni che stimolano, o inibiscono, la crescita. 42. Struttura e composizione delle ossa. 42.1. L'ossificazione. 42.2.Le articolazioni.42.3. Rompersi le ossa. 43. I denti. 44. Il fegato ed il pancreas . 45. Gli enzimi e le carenze enzimatiche. 46. Gli alimenti. 47. Un semplice miscuglio riscontrabile in biologia: il miscuglio bimodale che scaturisce dal processo della divisione cellulare. 47.1. Crescita e divisione cellulare. 47.2. Crescita e divisione cellulare degli organismi unicellulari. Curva di crescita e, quindi, variabilità di un organismo unicellulare in una situazione dinamica, o di tendenza. 47.3.Crescita degli organismi pluricellulari. 47.4 Il ciclo cellulare ed il processo di mitosi. 47.5. Cellule normali e cellule tumorali. 48. Lo scopo fondamentale di un’indagine biometrica: la ricerca statistica dei tipi e, quindi, la classificazione degli esseri viventi, nell'ambito della diversità umana, animale, vegetale, o batterica, esistente in un determinato momento ed in un precisato ambiente, cui segue la ricerca del tipo ideale che si traduce, in pratica, nella ricerca del tipo molto frequente detto, anche, regolare o normale. 48.1. Esempio di un’indagine biometrica effettuata con il metodo statistico descrittivo inerente determinati oggetti riuniti insieme, in quanto omogenei rispetto ad un fenomeno qualitativo (naturale) valutato da un osservatore coerente con l’ausilio della misura di un fenomeno quantitativo collegabile, secondo la logica comune, al fenomeno qualitativo. Per la Parte Seconda è disponibile, presso il Dipartimento di Metodi Quantitativi per le Scienze Umane della Facoltà di Economia dell’Università degli studi di Palermo, una dispensa ciclostilata in proprio dagli studenti. Sono disponibili, inoltre, taluni schemi didattici e materiale di esercitazione. RIFERIMENTI BIBLIOGRAFICI 1) A.A.V.V. Biometria. Principi e metodi. Piccin. Editore. Padova. 1978. A cura di Salvi Chiandotto F. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 4.1.9) 2) Calapaj G. G. Elementi di Statistica medica e di Demografia sanitaria. Cleup. Editore. Padova. 1979. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 3.2.7) 3) Cicchitelli G. Herzel A. Montanari G.E. Il campionamento statistico. Il Mulino. Editore. Bologna 1992. Nuova Ed. 1997. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 7.3.23) 4) Cifarelli D.M. – Muliere P. Statistica Bayesiana. Iuculano. Editore. Pavia. 1989. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 7.2.127) 5) Colton T. Statistica in medicina. Piccin. Editore. Padova.1979. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos.3.2.8) 6) di Orio F. Statistica medica. Le basi quantitative della ricerca biomedica. NIS La Nuova Italia Scientifica. Editore. Roma.1988. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 3.2.31) 7) Finney D.J. Statistical method in biological assay. C. Griffin. London 1963. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 4.1.4) 8) Glantz S.A. Statistica per discipline biomediche. McGraw-Hill Libri Italia srl. Editore. Milano. 1988. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 3.2.28) 9) Giardina B. Statistica non parametrica. Franco Angeli. Editore. Milano. 1972. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 7.5.1) 10) Girone G. Salvemini T. Lezioni di statistica. Volume Secondo. Cacucci. Editore. Bari. 1992. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 7.1. 44) 11) Huldah Bancroft, Ph. D. Introduction to Biostatistics. Harper & Row. New York. 1966. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 4.2.1) 12) Landenna G. Marasini D. Metodi statistici non parametrici. Il Mulino. Editore. Bologna. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 7.5.5) 13) Landenna G. Fondamenti di Statistica Descrittiva. Il Mulino. Editore. Bologna. 1994. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 7.2.137) 14) Leti G. Statistica descrittiva. Il Mulino. Editore. Bologna.1983. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 7.2.79) 15) Lilienfeld A. M. - Lilienfeld D. E. Fondamenti di epidemiologia. Piccin. Ed. Padova 1986. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 3.4.30) 16) Scossiroli R. E. Palenzona D. L. Manuale di Biometria. Zanichelli. Editore. Bologna 1971. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 4.1.14) 13 17) Sokal R.R., Rohlf, F. J. Biometry. W.H. Freeman and company. Editore. New York. 1995. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 4.1.31) 18) Stanley S. Schor, PH.D. Fundamentals of Biostatistics. G.P. Putnam's Sons. New York. 1968. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 4.1.2) 19) Vajani L. Statistica Descrittiva. Gruppo editoriale Fabbri. Sonzogno. Etas S.p.A. 1990. (Biblioteca centrale. Facoltà di Economia). 20) Waine W. Daniel. Biostatistica. Concetti di base per l'analisi statistica delle scienze dell'area medicosanitaria.EdiSES.1995. (Dipartimento di Metodi Quantitativi per le Scienze Umane. Facoltà di Economia. Pos. 3.6.8) 14