Rilevazione statistica e inferenza Censuaria (o esaustiva) Indagine statistica Campionaria L’inferenza è un insieme di metodologie statistiche che, attraverso l’analisi del campione, mirano ad ottenere la migliore conoscenza possibile della popolazione Calcolo delle probabilità ??? Procedimento deduttivo Popolazione Campione Inferenza Procedimento induttivo ??? Popolazione Campione Procedimento deduttivo ??? Dal generale al particolare In particolare: I triangoli rettangoli hanno un angolo retto A è un triangolo rettangolo Procedimento induttivo Dal particolare al generale In generale: A ha un angolo retto ??? Popolazione Campione 1) Si effettua un esperimento (campione) 2) Si generalizzano i risultati Esempio: In particolare: Campione Conosco la popolazione: che probabilità ho di estrarre un certo campione? Esempio: In generale: Popolazione Esame: poche domande (campione) Livello di preparazione N.B.: nel procedimento induttivo vi è sempre la possibilità di errore!!! La probabilità nella Statistica Popolazione Il campionamento Campione Estrazione casuale Logica deduttiva: Popolazione: Il 40% degli studenti della Facoltà di Economia di Napoli è fuorisede. Campione: Estraendo a caso 15 studenti, qual è la probabilità che almeno 10 siano fuorisede? La teoria della probabilità deduce dal contenuto noto della popolazione il contenuto probabile del campione, deducendo, quindi, le proprietà di un processo fisico da un modello matematico. Logica induttiva: Campione: Da un’indagine effettuata su un campione di 250 studenti della Facoltà di Economia di Napoli è risultato che il 40% erano fuorisede. Popolazione: Qual è la percentuale di fuorisede dell’intera popolazione di studenti di Economia? L’inferenza statistica induce le caratteristiche della popolazione dall’analisi del contenuto del campione osservato, cioè inferisce le proprietà del modello matematico a partire dall’analisi dei dati campionari che sono stati osservati. 3 L’oggetto dell’analisi statistica Ottica descrittiva: Osservazione di un fenomeno su un “insieme” di unità statistiche Sintesi dell’insieme di unità osservate attraverso il valore assunto dagli indicatori (media, varianza, ecc.) Ottica inferenziale: Insieme Campione estratto da una popolazione di unità statistiche Previsione di quali valori potrebbero assumere i parametri (media, varianza, ecc.) della popolazione, sulla base dei valori assunti dai corrispondenti indicatori “campionari” (logica induttiva) 4 Obiettivi Strumenti Cosa ci faremo? inferenza Probabilità, distribuzioni campionarie uso stima Stimatori significato teorico descrizione Indici: media, varianza, … calcolo Il momento dell’analisi Certezza Incertezza Dopo l’osservazione del fenomeno Prima dell’osservazione del fenomeno • Variabili statistiche • Distribuzioni di frequenze • Rappresentazioni grafiche: funzione di ripartizione empirica istogramma (densità di frequenza) • Variabili casuali: applicazione da Ω in ℜ • Distribuzioni di probabilità • Rappresentazioni grafiche: funzione di ripartizione funzione di (densità di) probabilità Densità di frequenza - L’istogramma illustra graficamente l’andamento di un carattere X, suddiviso in classi, ossia il modo in cui i valori di X si alternano all’interno di un insieme di n osservazioni X La sua utilità, dunque, interviene dopo l’osservazione delle n unità. 6 Esso serve a descrivere il comportamento del carattere nelle n unità osservate. Immaginando di suddividere X in classi sempre più piccole, al limite infinitesimali, l’istogramma può essere approssimato da una curva Quindi, ragionando al contrario: Se è nota la funzione descritta graficamente alla curva, si può affermare di conoscere il comportamento del fenomeno X (anche senza osservarlo) Problema: Qual è la forma analitica della funzione che descrive il fenomeno X? Soluzione: Si può trattare X come una Variabile Casuale la cui distribuzione di probabilità sia nota 7 Considerazioni sulla varianza Ipotesi assurda: varianza = 0 Popolazione X costituita da unità statistiche uguali: • Campioni tutti uguali • Nessun rischio di errore nella stima • Basta osservare una sola unità Ipotesi realistica: varianza > 0 Popolazione X costituita da unità statistiche diverse: • Campioni generalmente diversi tra loro • Rischio di errore nella stima: a seconda del campione selezionato il risultato sarà diverso Legame logico tra i principali elementi dell’inferenza Variabile casuale = distribuzione della variabile casuale Variabili casuali univariate: in generale: v.c. discrete e continue v.c. particolari: Normale, Uniforme continua e discreta, Bernoulli, Binomiale, Poisson Variabili casuali doppie: valore atteso, varianza, covarianza, correlazione (→ regressione) Combinazioni lineari di variabili casuali: valore atteso e varianza Teorema limite centrale: distribuzione (Normale) della combinazione lineare di v.c. di cui singolarmente non è nota la distribuzione: IC e test sulla media Distribuzioni che derivano dalla Normale: t di Student: IC e test su: media, coefficienti di regressione chi-quadro: test di indipendenza F di Fisher: test sull’R2