SCHEDA RIASSUNTIVA SU PARTICOLARI DISTRIBUZIONI DI PROBABILITA’ E LORO POTENZIALE UTILIZZO NELLA STATISTICA INFERENZIALE Con riferimento a VARIABILI CASUALI DISCRETE, una particolare distribuzione di probabilità nel discreto è la distribuzione BINOMIALE, che consente di risolvere problemi del tipo: qual è la probabilità di ottenere un certo numero x di palline rosse in n estrazioni (con reimmissione) da un’urna contenete complessivamente palline rosse e gialle in proporzione nota (quindi è nota la probabilità di estrazione di pallina rossa); qual è la probabilità di ottenere un certo numero x di teste in n lanci di una moneta (due i possibili esiti di ciascun lancio Testa o Croce, con probabilità nota pari a 0.5); qual è la probabilità di estrarre un campione di n individui con x fumatori e (n-x) non fumatori, supponendo nota la frequenza relativa di fumatori nel collettivo (che corrisponde alla probabilità di estrarre casualmente un individuo fumatore); qual è la probabilità di trovare x pezzi difettosi in un lotto di n pezzi, supponendo di conoscere la probabilità che, con riferimento ad un determinato processo produttivo, un certo macchinario produca un pezzo difettoso. La probabilità cercata risulta dalla seguente espressione n P( X x) p x (1 p) n x x dove X (variabile casuale numero di successi, vale a dire palline rosse, teste, individui fumatori o pezzi difettosi) può assumere come possibili realizzazioni i valori 0, 1, 2, …, n. La distribuzione di probabilità ottenibile (al variare dei valori di X) ha valore atteso e varianza dati da: k E ( X ) xi pi np i 1 k Var ( X ) E ( X E ( X )) 2 ( xi np) 2 pi np(1 p) i 1 (si osservi che k, numero delle possibili realizzazioni, nel caso della binomiale è pari a n+1) Elementi necessari per utilizzare la distribuzione binomiale: 1) nota la dimensione del campione (o il numero di prove o estrazioni da un’ urna) n; 2) nota la probabilità p del verificarsi della caratteristica di interesse (pallina rossa, testa, abitudine al fumo, produzione di un pezzo difettoso); 3) indipendenza tra estrazioni o prove successive. OSSERVAZIONE: in modo approssimato può essere utilizzata anche nel caso di prove (estrazioni) non indipendenti, qualora n sia sufficientemente piccolo rispetto alla dimensione del collettivo N. In questo caso l’errore che si compie è abbastanza piccolo (estrazione con reimmissione o senza reimmissione tendono ad equivalersi). Con riferimento a VARIABILI CASUALI CONTINUE, la principale distribuzione di probabilità nel continuo è la distribuzione NORMALE (o di GAUSS), che consente di risolvere problemi del tipo: qual è la probabilità di attendere ad uno sportello bancario un tempo compreso tra 5 e 7 minuti, supponendo di conoscere valore medio e variabilità del tempo di attesa; qual è la probabilità di selezionare da un collettivo statistico un individuo con un reddito mensile compreso tra 1500 e 1600 euro, supponendo di conoscere valore medio e variabilità del reddito nella collettività; qual è la probabilità di trovare meno di 20 pezzi difettosi in un lotto di 1000 pezzi, supponendo di conoscere la probabilità che, con riferimento ad un determinato processo produttivo, un certo macchinario produca un pezzo difettoso (approssimazione normale della variabile casuale binomiale, si veda OSSERVAZIONE seguente). La probabilità cercata può essere calcolata nel seguente modo, riconducendosi mediante operazione di standardizzazione ad una distribuzione normale con media e varianza fissate rispettivamente a 0 e 1, parametri che caratterizzano la cosiddetta distribuzione normale standard per la quale disponiamo di apposite tavole statistiche: esempio 1: la probabilità di attendere ad uno sportello bancario un tempo compreso tra 5 e 7 minuti, supponendo che il tempo di attesa medio sia pari a 4 minuti (e con varianza 25) può essere calcolata come 54 X 4 74 P(5 X 7) P P(0.2 Z 0.6) 25 25 25 P(0 Z 0.6) P(0 Z 0.2) 0.2257 0.0793 0.1467 esempio 2: la probabilità di selezionare da un collettivo statistico un individuo con un reddito mensile compreso tra 1500 e 1550 euro, supponendo che il reddito medio sia pari a 1300 euro (e con varianza 10000) può essere calcolata come 1500 1300 X 1300 1600 1300 P(1500 X 1600) P P(2 Z 2.5) 10000 10000 10000 P(0 Z 2.5) P(0 Z 2) 0.4938 0.4772 0.0166 esempio 3: la probabilità di trovare meno di 20 pezzi difettosi in un lotto di 1000 pezzi, supponendo che la probabilità di produrre un pezzo difettoso sia pari al 3% X np X 30 20 30 20 np P( X 20) P P P( Z 1.85) np(1 p) np ( 1 p ) 29 . 1 29 . 1 0.5 P(0 Z 1.85) 0.5 0.4678 0.0322 OSSERVAZIONE: la distribuzione normale può essere utilizzata ogniqualvolta l’istogramma della distribuzione di frequenza del carattere (continuo) nella popolazione abbia una forma ben approssimabile da una curva campanulate simmetrica con le caratteristiche proprie della curva normale (o di Gauss). In modo approssimato può essere utilizzata anche nel caso di variabile casuale discreta per la quale ricorrano le ipotesi della distribuzione binomiale, qualora n sia sufficientemente grande (in generale n>30). In questo caso l’errore che si compie si riduce al tendere di n ad infinito. Altri casi saranno considerati successivamente. Possiamo utilizzare questi risultati per: A) valutare la bontà del procedimento di selezione di un campione (probabilistico) sulla base dei potenziali risultati ottenibili per particolari statistiche campionarie. Ad esempio, possiamo chiederci quali siano (e con quale probabilità) i valori potenzialmente assumibili dalla media campionaria (media aritmetica calcolata sui dati campionari) sui possibili diversi campioni estraibili con un certo procedimento (ad esempio campionamento casuale semplice con ripetizione o senza ripetizione); B) noto il comportamento di particolari statistiche campionarie a livello di universo di campioni possibili, valutare l’attendibilità del dato campionario come stima di parametri incogniti di interesse per la popolazione statistica nel complesso.