1. Inferenza statistica

annuncio pubblicitario
APPUNTI DI STATISTICA
1.
Inferenza statistica
1.1
Modulo 1: Ripasso generale
Il calcolo combinatorio è quella parte della matematica che si prefigge di stabilire quanti gruppi si possono
formare con un certo numero di oggetti. Esso può riguardare raggruppamenti semplici o con ripetizione che
si dividono in: disposizioni, combinazioni e permutazioni (un caso particolare delle disposizioni).
Le disposizioni semplici sono tutti i raggruppamenti che si possono formare prendendo k di n oggetti (con k ≤ n), ciascuno non più di una volta per ogni gruppo, in modo da formare gruppi che si differenziano
tra loro per qualche oggetto o per l‟ordine con cui gli oggetti compaiono. Per questo la formula per trovare il
numero di disposizioni sarà:
(
) (
)
(
)
Le disposizioni con ripetizione sono uguali a quelle semplici, però k può essere maggiore di n e gli
oggetti possono comparire più di una volta per ogni gruppo. La formula per ottenere il loro numero sarà:
Le combinazioni semplici sono tutti i raggruppamenti che si possono formare da n oggetti, prendendo di volta in volta k oggetti (con k ≤ n), ciascuno dei quali non più di una volta per ogni gruppo, in modo da
formare gruppi che si differenziano tra loro per qualche oggetto (l‟ordine non è importante). La formula sarà:
( )
(
)
Le combinazioni con ripetizione sono uguali a quelle semplici, però k può essere maggiore di n e
gli oggetti possono comparire più di una volta per ogni gruppo. La formula per ottenere il loro numero sarà:
(
) (
)
(
)
Le permutazioni di n oggetti, uguali tra loro, equivale al fattoriale di questi n oggetti e costituisce
un caso particolare delle disposizioni semplici, dove k = n (Dn,n). La formula sarà:
Quando invece gli oggetti da permutare sono uguali tra loro gruppi (esempio: 4 libri, di cui 2 sono
rossi [α] e 2 sono blu [β]) si utilizza il metodo delle permutazioni con oggetti identici, la cui formula risolutrice è:
Tramite le formule del calcolo combinatorio è possibile realizzare il calcolo della probabilità del verificarsi di un evento. Per definizione, la probabilità p di un evento è il rapporto tra il numero di casi favorevoli e il numero dei casi possibili (quando tutti i casi sono equiprobabili).
Due eventi possono essere tra loro:
1. Incompatibili: quando il verificarsi dell‟uno esclude il verificarsi dell‟altro (estrazione
senza reimmissione)
2. Indipendenti: quando il verificarsi dell‟uno non esclude il verificarsi dell‟altro (estrazione con reimmissione)
1
Il principio della probabilità totale consiste nella somma delle probabilità parziali di più eventi tra
loro incompatibili. Mentre il principio della probabilità composta consiste nel prodotto di più probabilità di
eventi tra loro indipendenti. Un esempio per entrambe le probabilità è: avendo 70 palline, di cui 38 bianche,
22 verdi e 10 rosse, calcolare la probabilità che estraendo contemporaneamente due palline esse siano della
stesso colore. Il calcolo da realizzare è il seguente.
Probabilità totale
( )
Probabilità composta
Il principio della probabilità contraria consiste nel realizzare la sottrazione tra 1 e la probabilità che
l‟evento, da valutare, non si verifichi. La formula sarà quindi: p = 1 – q.
Infine è bene ricordare alcuni stratagemmi per il calcolo delle probabilità di eventi equiprobabili.
 Se è richiesta la probabilità di un evento con estrazione in blocco (senza reimmissione) si
possono seguire due strade:
a) Metodo della probabilità composta
b) Formula dell‟ipergeometrica:



( )(
( )
)
dove di solito

Però di solito n (numero di elementi estratti) = x (numero di elementi aventi
la caratteristica richiesta)

Quindi:
( )
( )
( )
( )
( )
Se è richiesta la probabilità di un evento con estrazione bernoulliana (con reimmissione) si
utilizza solo il metodo della probabilità composta o al più la formula della distribuzione binomiale:


( )
( )
( )
Se nella richiesta due eventi sono legati tra loro dal termine „ o / oppure ‟ si utilizza il „ + ‟
[somma] nella formula per legarli (probabilità totale)
Se nella richiesta due eventi sono legati tra loro dal termine „ e ‟ si utilizza il „ ∙ ’ [prodotto]
nella formula per legarli (probabilità composta)
2
1.1.1 Media e varianza
Alcune formule utilizzate per lo studio dei parametri della popolazione.
Parametro
Media (μ)
Varianza (σ2)
Scarto (σ)
Formula (senza fi)
Formula (con fi)
∑
∑
∑
∑(
)
∑(
)
∑
∑(
√
)
∑(
√
)
∑
1.1.2 Media e varianza della distribuzione normale e standardizzazione
La distribuzione normale è definita nel continuo e viene considerata la più teorica per eccellenza, visto che
molte altre distribuzioni (in determinate circostanze) sono approssimabili ad essa. La funzione di densità è di
tipo esponenziale, viene anche detta gaussiana, indicata con il simbolo N (μ , σ2). Si noti che μ costituisce
sia il valore medio, che la mediana che la moda della distribuzione. Le caratteristiche di questa distribuzione
sono:




È simmetrica rispetto alla media (ovvero rispetto l‟asse x = μ)
È decrescente per x < μ e crescente per x > μ
Ha come asintoto orizzontale l‟intera asse x
Due flessi per x = μ + σ e per x = μ – σ
Se μ = 0 e σ = 1, la distribuzione normale si dice distribuzione normale standardizzata (o standardizzata), definita come N (0 , 1). Le ascisse vengono dette z e le ordinate f(z). E‟ possibile calcolare il valore
dell‟area (cioè della probabilità) compresa tra 0 e una certa z è possibile utilizzare le Tavole di Sheppard.
Queste tavole si possono utilizzare per conoscere anche le aree comprese in distribuzioni diverse dalla standardizzata, utilizzando il metodo di standardizzazione, ovvero trasformando le x in z e calcolando (tramite le
tavole) l‟area interessata.
3
1.2
Modulo 2: teoria dei campioni
L‟inferenza statistica è, per definizione, il procedimento mediante il quale dall‟analisi dei dati ottenuti dal
campione si ottengono conclusioni relative all‟intera popolazione di provenienza. Si tratta di un problema
inverso, cioè della statistica induttiva (a differenza del problema diretto, calcolo del distacco dei valori del
campione da quelli della popolazione, della statistica di qualità).
L‟inferenza statistica si divide in:
a) Stima campionaria: stima dei parametri della popolazione tramite dai dati del campione
b) Verifica delle ipotesi: verificare se un ipotesi fatta su un parametro della popolazione è rifiutabile o non rifiutabile
1.2.1 Aspetti positivi e negativi delle indagini campionarie
Gli aspetti positivi sono:
1. Indagini approfondite realizzate anche su popolazioni molto numerose
2. Notevole risparmio di costi
3. Notevole risparmio di tempo
4. Le indagini distruttive non portano alla distruzione dell‟intera popolazione (come i test di resistenza)
Gli aspetti negativi sono:
1. Più è elevata la variabilità del carattere della popolazione, più è difficile scegliere un campione
rappresentativo
2. È possibile estrarre da una stessa popolazione campioni con valori diversi tra loro
Esistono, per questi problemi, dei metodi di scelta del campione (cioè di campionamento) e della
numerosità del campione (o ampiezza del campione, indicato di solito con n). Uno de metodi più famosi è il
campionamento casuale semplice.
1.2.2 Campionamento casuale semplice (C. C. S.)
Le caratteristiche essenziali sono:
a) Tutte le unità della popolazione hanno uguale probabilità di fare parte del campione
b) Ogni campione di ampiezza n ha la stessa probabilità di essere formato
Questo tipo di campionamento è applicabile solo se la popolazione è statisticamente omogenea. Il
metodo consiste nel prelevare in maniera casuale un quantitativo n di numeri dalla tavola dei numeri casuali
compresi tra un valore minimo (cioè 0) ed un valore massimo (definito dal problema). I valori prelevati indentificheranno ogni elemento del campione.
Nel caso in cui vi siano delle xi e yi è necessario determinare entro quali intervalli di campioni estratti vale una certa yi (esempio se 3 persone pesano tra 30 e 50 kg, si deciderà che i campioni di valore compreso tra 0 e 3-1 rappresenteranno persone che pesano 50 Kg).
1.2.3 C. C. S. – Tipologie di estrazioni e distribuzioni campionarie
Le estrazioni possibili si dividono in:
1. Estrazione bernoulliana (con reimmissione). Dove le estrazioni sono eventi indipendenti (vedi pagina 1) e la probabilità di estrazione è costante (equivale a 1/N). Il numero di campioni che si possono estrarre è dato da: D’N,n.
2. Estrazione in blocco (senza reimmissione). Dove le estrazioni sono eventi incompatibili (vedi pagina 1) e la probabilità di estrazioni non è costante. Il numero di campioni che si possono estrarre è dato da: CN,n.
4
Si potrebbe realizzare anche un estrazione bernoulliana senza tenere conto dell‟ordine (C’N,n) oppure
realizzare estrazioni in blocco tenendo conto dell‟ordine (DN,n). L‟insieme dei campioni vene detto spazio
campionario. Attraverso lo spazio dei campione e determinate tecniche (media, varianza, differenza tra medie e frequenza) è possibile costruire una distribuzione campionaria, in cui si associa ad ogni campione una
certa probabilità.
Il rapporto tra il numero di unità statistiche del campione ed il numero di unità statistiche della popolazione è detto tasso di campionamento (n/N).
1.2.4 Stimatori e parametri
Un parametro di una popolazione è un valore caratteristico e costante, indicato dalla lettera “theta” (ϑ).
Uno stimatore è invece una funzione dei dati del campione che può fornire informazioni su alcuni
parametri della popolazione, indicato solitamente con la lettera T.
1.2.5 Media campionaria
La variabile casuale media campionaria è definita come:
̅
∑
(per ogni singolo campione si usa x minuscolo)
Esso costituisce uno stimatore della media della popolazione. In base alla tipologia di estrazione è
possibile costruire due diverse distribuzioni, le cui formule sono le seguenti.
Parametro
Formula (estrazione bernoulli)
Media – M(̅)
(̅)
Varianza – Var(̅)
(̅)
Formula (estrazione in blocco)
(̅)
(̅)
Per costruire la distribuzione è sufficiente realizzare il campionamento, applicare la formula della
media tra i valori ottenuti dai vari campioni, associando poi ai valori medi una distribuzione di probabilità.
Questo vale anche per distribuzione campionarie differenti (come quello della varianza, ecc…).
1.2.6 Teorema centrale del limite
Se la popolazione dalla quale i campioni sono estratti ha distribuzione normale con media μ e varianza
le medie dei campioni casuali di n elementi sono distribuite normalmente con media μ e varianza
,
.
Il teorema centrale del limite dice poi che:
Qualunque sia la distribuzione della popolazione (quindi anche non una normale), purché abbia
media μ e varianza
finite, le medie dei campioni, al crescere della dimensione n (≥ 30 o ≥ 50) del campione, tendono a una distribuzione normale con media μ e varianza
.
1.2.7 Distribuzione campionaria della varianza
La variabile casuale varianza campionaria è definita come:
∑ ( )
5
Parametro
Formula (estrazione bernoulli)
Media – M( )
Formula (estrazione in blocco)
( )
( )
Anche per questa distribuzione vale il teorema centrale del limite.
1.2.8 Distribuzione campionaria della differenza di medie campionarie
La variabile casuale varianza campionaria è definita come ̅̅̅̅
Parametro
Media – M(̅̅̅̅
̅̅̅̅.
Formula (estrazione bernoulli)
̅̅̅̅)
Varianza – Var(̅̅̅̅
̅̅̅̅)
(̅̅̅̅
̅̅̅̅)
(̅̅̅̅
̅̅̅̅)
Formula (estrazione in blocco)
(̅̅̅̅
(̅̅̅̅̅
̅̅̅̅)
̅̅̅̅̅)
Anche per questa distribuzione vale il teorema centrale del limite.
1.2.9 Distribuzione campionaria delle frequenze
In questo caso non si parla di variabile, ma di mutabile indicata con la lettera F. Si definisce poi
dove
k sono gli elementi della popolazione con una certa caratteristica e per frequenza relativa si definisce
,
dove x sono gli elementi del campione con una certa caratteristica.
Essa può essere risolta utilizzando il metodo della distribuzione binomiale (per estrazioni bernoulliane) o il metodo della distribuzione ipergeometrica (per estrazioni in blocco). Oppure si possono adottare le
seguenti relazioni.
Parametro
Formula (estrazione bernoulli)
Formula (estrazione in blocco)
( )
Media – M( )
( )
Varianza – Var( )
( )
( )
Si noti che quando si realizza la standardizzazione è possibile sottrarre (per Zinf) o sommare (per Zsup)
un corretto di continuità pari a
.
1.2.10 Altre tecniche di campionamento
Oltre al campionamento casuale semplice, che permette di realizzare tutte le precedenti considerazioni, esistono anche altri metodi di campionamento (alcuni probabilistici, altri no). Per applicare le regole
dell‟inferenza statistica è necessario che i campioni siano probabilistici. Di seguito sono riportati alcuni
esempi.
Il campionamento per stratificazione usa suddividere gli elementi della popolazione in più strati
(fasce o gruppi) statisticamente omogenei e da ciascuno si estraggono un certo numero di elementi in modo
casuale. Per esempio nel caso del consumo del carburante da parte delle automobili si suddividono le auto6
mobili in base alla cilindrata che possiedono e si estraggono da ogni strato un numero di automobili proporzionale all‟ampiezza dello strato.
Il campionamento a più stadi consiste nel suddividere gli elementi della popolazione in tanto sottoinsiemi (non necessariamente omogenei) dai quali poi se ne sceglie un certo numero [primo stadio]. Dopo
di che è possibile suddividere il primo stadio in ulteriori sottoinsiemi e sceglierne solo alcuni [secondo stadio]. L unità scelte del primo sotto insieme sono dette unità primarie, quelle del secondo sono dette unità secondarie. La scelta degli elementi può essere realizzata attraverso un metodo: casuale, per stratificazione
ecc…
Il campionamento sistematico consiste nell‟elencare tutte le unità statistiche della popolazione e,
partendo da una prima unità scelta a caso, estrarre, successivamente, una unità ogni k unità (molto utilizzato
per tenere sotto controllo una produzione).
I campionamenti non probabilistici non permettono di stimare l‟errore probabili e quindi non sono
utilizzati con l‟inferenza statistica. I campioni sono detti ragionati perché ottenuti tramite suggerimenti di
esperti. Un altro tipo di campionamento è quello per quote in cui gli elementi del campione sono scelti in base al sesso, età, ecc…
1.3
Modulo 3: teoria della stima
Gli stimatori sono funzioni dei dati del campione che possono fornire informazioni su alcuni parametri della
popolazione, essi possono avere le seguenti caratteristiche:
 Corretto: se il valore medio dello stimatore T è uguale al valore del parametro da stimare
( )
( )
 Consistente: se all‟aumentare del numero di elementi del campione i valori dello stimatore sono
sempre più prossimi al parametro da stimare
(|

|
)
Efficiente: se la varianza dello stimatore è piccola, ovvero i suoi valori sono concentrati nei pressi di
ϑ (più la varianza è piccola e più è efficiente)
Per questo motivo la media campionaria e la frequenza campionaria sono stimatori: efficienti, consistenti e
corretti. La varianza invece è uno stimatore non corretto, visto che:
(
)
È necessario quindi correggere lo stimatore della varianza ottenendo la varianza corretta:
̂
̂
La stima può, inoltre, essere realizzata attraverso due tecniche:
1) Stima puntuale: consiste nel realizzare la stima di un parametro della popolazione conoscendo informazioni su solo un unico dato della popolazione (facile da calcolare, ma soggetta spesso ad errori)
2) Stima per intervallo: consiste nella stima di un parametro della popolazione con dei valori infinit
compresi all‟interno di un certo intervallo, con un prefissato livello di fiducia.
7
1.3.1 Stima puntuale della media
Significa trovare il valore di un carattere quantitativo μ della popolazione, attraverso la formula classica della
media, applicata ai valori del campione.
∑
Al quale si associa un errore medio di campionamento, che può essere calcolato:
√
√
√
In questo caso si conosce la varianza della popolazione; altrimenti:
∑(
)
Altrimenti al posto di σ utilizzo ̂ :
̂
̂
Poi riapplico le stesse regole di
Ricorda:
considerando σ = ̂
Per stimatore totale si intende: T = N
Il cui errore medio campionario: N
N
(stimatore corretto)
M(T) = N μ
̂
√
̂
√
√
1.3.2 Stima puntuale della frequenza
Il problema della stima puntuale di una frequenza consiste nel valutare quale frazione della popolazione gode
di un certo attributo. Per stimare il parametro della popolazione si utilizza la seguente formula:
Poi si calcola il valore della frequenza relativa del campione:
Lo stimatore F è corretto e consistente e gli si può associare un errore medio di campionamento f:
√
(
)
8
√
(
)
√
Essendo p un valore ignoto viene anch‟esso stimato ed associato ad un errore di campionamento:
(
√
√
)
(
)
√
Infine la stima del valore di K (totale di unità statistiche della popolazione che godono di una certa caratteristica):
(
)
( )
Lo scarto quadrativo medio è invece:
√
√
(
(
)
)
√
1.3.3 Stima per intervallo della media
Significa trovare un intervallo di nel quale si abbia la fiducia che il parametro μ sia contenuto.
Vi sono, però, due casi:
1) Per grandi campioni (n > 30)
2) Per piccoli campioni (n 30)
1.3.4 Stima per intervallo per grandi campioni della media (n> 30)
Grazie al teorema centrale del limite si può affermare che con un numero abbastanza elevato di n, qualunque
si ala popolazione di provenienza, essa approssima ad una normale con media μ e varianza σ2/n.
Distinguiamo, però, i vari casi che si possono incontrare.
9
Estrazione con ripetizione
Si conosce σ2
Non si conosce σ2
̂
√
√
̂
√
Estrazione in blocco
Si conosce σ2
Non si conosce σ2
̂
√
√
√
√
̂
√
√
Il problema della stima per intervallo consiste nel trovare uno dei [livello di fiducia]% degli intervalli nei
quali la media può cadere, con una verità del [livello di fiducia]%.
Il livello di fiducia è una probabilità, espressa quindi in percentuale, intesa come 1 – α. Attraverso
esso si calcola Zc:
Ora descriviamo i metodi di ricerca dell‟intervallo, nel caso di estrazione con ripetizioni:

(

(
√
√
√
√
)
)
E nel caso di estrazione in blocco:

(

(
√
√
√
√
√
√
√
)
√
)
10
1.3.5 Stima per intervallo per piccoli campioni della media (n 30)
La distribuzione di partenza deve distribuire normalmente, altrimenti non è possibile effettuare calcoli.
Si differenziano due casi possibili:
1) Conoscendo σ2: si utilizza la normale (come i grandi campioni)
2) Non conoscendo σ2: si utilizza la distribuzione T-Student, nel seguente modo (sempre):

(
√
√
)
Nota ch al crescere di ν (quindi di n) la distribuzione T-Student approssima sempre di più alla normale.
1.3.6 Dimensione del campione
Per effettuare una stima occorre scegliere un numero di unità statistiche del campione da estrarre. Per compiere tale operazione è necessario considerare i seguenti fattori:





La variabilità: tanto più grande è la variabilità, tanto più apio deve essere il campione
Il costo: del campionamento
Il livello di fiducia (1-α)
La precisione desiderata (precisione della stima, indicata con il simbolo Δ)
Il tempo di campionamento
Tutto questo mi consente di ottenere la dimensione ottimale minima del campione. Anche in questo caso, si
distinguono due tipologie:
1) Campionamento bernoulliano

2) Campionamento in blocco

(
)
Nota: Non è necessario correggere il valore di s, in questo caso.
1.4
Modulo 4: Test delle ipotesi e di significatività
Si parla di problema di verifica delle ipotesi quando si formula un‟ipotesi sulle caratteristiche dell‟universo
(o popolazione) e si vuole verificare che tale ipotesi può essere accettata oppure rifiutata. Si procede attraverso le seguenti fasi:
1. Viene formulata un‟ipotesi
2. Si estrae un campione della popolazione
3. Tramite i dati del campione si verifica l‟ipotesi
Le ipotesi possono essere riguardanti un parametro della popolazione (ipotesi parametrica, che porta ad un
test parametrico) o un modo in cui una popolazione distribuisce (ipotesi funzionale).
1.4.1 Ipotesi nulla e ipotesi alternativa
Formuliamo l‟ipotesi “ ϑ assume il valore di ϑ0 ”, indicando tale ipotesi nel seguente modo:
(ipotesi semplice)
Questa viene detta ipotesi nulla e costituisce l‟ipotesi da verificare attraverso i dati ottenuti dal campione.
Per realizzare la verifica è necessario contrapporre l‟ipotesi nulla ad un‟ipotesi alternativa H1 (che nega la
validità dell‟ipotesi nulla). Quindi H1 è vera quando H0 è falsa. L‟ipotesi alternativa può assumere tre configurazioni diverse:
11
a.
b.
c.
ipotesi alternativa bilaterale
ipotesi alternativa unilaterale sinistra
ipotesi alternativa unilaterale destra
Ipotesi composte (descrivono
una regione)
1.4.2 Zona di accettazione e zona di rifiuto
L‟ipotesi nulla viene accettata quando la differenza tra e
è contenuta e non supera dei livelli predefiniti.
Per fare ciò è necessario stabilire delle regole di carattere probabilistico (o test di significatività), che permettono di dividere la distribuzione in due zone:
 Zona di rifiuto: all‟interno della quale l‟ipotesi nulla non si può accettare;
 Zona di accettazione: all‟interno della quale l‟ipotesi nulla è accettabile o non rifiutabile.
È necessario poi fissare un livello di significatività α (che indica la probabilità di commettere un errore di
prima specie). Ora esaminiamo i diversi casi.
Test bilaterale a due code
Se il valore di Z, calcolato di dati del campione, è: (NOTA: zc =
)
Allora l’ipotesi nulla si rifiuta perché è significativa la differenza tra il valore dell‟ipotesi nulla e quello
stimato dal campione.
Test unilaterale destro
Se il valore di Z, calcolato di dati del campione, è:
Allora l’ipotesi nulla si rifiuta perché è significativa la differenza tra il valore dell‟ipotesi nulla e quello
stimato dal campione.
12
Test unilaterale sinistro
Se il valore di Z, calcolato di dati del campione, è:
Allora l’ipotesi nulla si rifiuta perché è significativa la differenza tra il valore dell‟ipotesi nulla e quello
stimato dal campione.
1.4.3 Errori e loro tipologia
La decisione è corretta quando:
 H0 che è vera, viene accettata
 H0 che è falsa, viene rifiutata
La decisione è errata quando:
 H0 che è vera, viene rifiutata ⇒ Errore di prima specie (più grave)
 H0 che è falsa, viene accettata ⇒ Errore di seconda specie
Con α si indica la probabilità di commettere un errore di prima specie, mentre con β si indica la probabilità di
commettere un errore di seconda specie, quando aumenta uno diminuisce l‟altro. Quando α = 0.05 (test significativo), mentre se α = 0.01 (test molto significativo).
1.4.4 verifica delle ipotesi della media nel caso di GRANDI campioni
Per risolvere questo tipo di problema si procede con i seguenti passi:
a. Si parte da un‟ipotesi nulla H0: μ = μ0.
b. La si contrappone ad un ipotesi alternativa (es.
)
c. Si estraggono i dati dal campione, trovando e
d. Si trova Z con la seguente formula:
̂
√
√
e. Si effettua il test specifico e si verifica l‟ipotesi nulla
1.4.4 verifica delle ipotesi della media nel caso di PICCOLI campioni
Per risolvere questo tipo di problema si analizzano 2 casi:
 Se σ è noto (si procede con per grandi campioni)
 Se σ non è noto si utilizza la distribuzione T-Student con n-1 gradi di libertà e si procede con i seguenti passi:
a. Si parte da un‟ipotesi nulla H0: μ = μ0.
b. La si contrappone ad un ipotesi alternativa (es.
)
c. Si estraggono i dati dal campione, trovando e ̂
d. Si trova Z con la seguente formula:
13
̂
√
√
e. Si effettua il test specifico e si verifica l‟ipotesi nulla
2.
Ricerca operativa
2.1
Modulo 1: Sistemi reali modelli e problemi di decisione
La ricerca operativa è nata all‟inizio della 2a guerra mondiale, nel 1939, per lo studio dei problemi di difesa
antiaerea mediante l‟uso del radar, quindi, per strategie militari. Oggi è diventata uno strumento di analisi
economica, che sfrutta tecniche matematiche.
2.1.1 Sistemi e modelli
Un sistema è un‟entità concettuale, capace di trasformare un insieme di elementi, di input, in un altro insieme
di elementi, di output. Esso può essere di vari tipi:
1. Statico: se no dipende dal tempo
2. Dinamico: se dipende dal tempo
3. Discreto: se assume valori interi
4. Continuo: se assume valori reali
5. Stocastico: se presenta comportamenti aleatori
6. Deterministico: se presenta comportamenti prevedibili con certezza
Visto che non è sempre possibile realizzare lo studio su un intero sistema, vengono utilizzate delle semplificazioni dette modelli. Essi possono essere di vari tipi:
1. Ionici: sono delle riproduzioni in scala di sistemi materiali (elettrici, meccanici, ecc..) al fine di studiare e ricavare le leggi che li governano
2. Analogici: modelli che utilizzano elementi di diversa natura rispetto al sistema da rappresentare, ma
che soddisfino le stesse relazioni
3. Simbolici: traduce variabili e relazioni in simboli matematici (funzioni, equazioni, ecc..)
4. Descrittivi: descrivono in forma grafica la realtà
5. Decisionali: permettono di realizzare scelte, fra le soluzioni possibili, in modo da ottimizzare una o
più grandezze (quali i costi, i tempi, i profitti, ecc..) e possono essere matematici
Un modello matematico decisionale si esprime attraverso:
 Una funzione economica: U = G = f (x1, x2, x3, x4,...xn ; y1, y2, y3, y4,..yn)
 La funzione economica è poi soggetta a vincoli:
g (x1, x2, x3, x4,...) ≤ x0 [vincolo tecnico o limite di produzione ]
xi ≥ 0
[vincolo di segno]
 Le variabili possono essere controllabili, o di azione (xi); oppure non controllabili (yi)
 I dominio che si ricava dai vincoli, detto anche campo di azione, può avere effetto nel discreto o nel
continuo.
2.1.2 Scopi e metodi della ricerca operativa
La ricerca operativa è l‟applicazione del metodo scientifico da parte di gruppi interdisciplinari per risolvere
problemi che riguardano sistemi organizzati.
Essa è composta da 5 passaggi fondamentali:
1. Esaminazione della situazione e raccolta delle informazioni
14
2. Formulazione del problema (scelta della funzione economia e individuazione delle variabili)
3. Costruzione del modello matematico
4. Analisi e verifica del risultato ottenuto, nel caso in cui vi sia un risultato scorretto si ricomincia dal
modello matematico
La ricerca operativa possiede, inoltre, alcune tecniche specifiche, ovvero:






Programmazione lineare
Programmazione dinamica
Teoria delle code
Teoria delle scorte
Teoria dei giochi
Tecniche reticolari
2.1.3 Problemi di decisione
Esistono vari tipologie di problemi di decisione all‟interno della ricerca operativa. Essi possono essere:
 Basati sul numero di variabili d‟azione (1, 2 o più)
 Basati sulla tipo di campo di azione (discreto o continuo)
 Problemi di scelta in condizione di certezza (basati anche sulla competizione, dove la scelta dipende
dalle decisioni fatte dagli altri)
 Problema di scelta in condizione di incertezza
 Problemi di scelta con effetti immediati: quando fra la decisione e la realizzazione decorre un tempo
che non influisce sulle grandezze economiche
 Problemi di scelta con effetti differiti: quando si tiene conto delle conseguenze che porta il tempo
che decorre fra la decisone e la realizzazione
2.1.3 Problemi di scelta in condizioni di certezza
Si tratta di un‟ipotesi semplificata, dove i dati e le conseguenze sono determinabili a priori. Il problema consiste nel determinare il massimo o il minimo o il percorso più conveniente di una funzione economica. La
scelta può avvenire sia nel caso del discreto che nel caso del continuo.
Nel caso del continuo la funzione economica è solitamente ad una variabile, nella forma y=f(x) definita
all‟interno di un campo di azione delimitato da due estremi a, b. Lo scopo è quello di trovare il minimo (nel
caso di costi) o il massimo (nel caso di ricavi) assoluti all‟interno dell‟intervallo considerato.
Nel caso del discreto la variabile è intera, la funzione economica è rappresentabile nel piano cartesiano
solo attraverso dei punti, tanto che se i valori assumibili sono pochi si può fare uso di una tabella pre rappresentarli. La tabella assume l‟aspetto che segue.
X
C(X)
R(X)
G(X)
ΔC(X)
ΔR(X)
ΔC(X) = C(X) – C(X - 1)
1
2
640
780
400
800
-240
20
140
400
ΔR(X) = R(X) – R(X - 1)
Nel caso di scelta fra duo o più alternative si hanno più funzioni che descrivono alternative diverse relative ad una stesa variabile d‟azione. In questo caso è necessario scegliere entro quali limiti è più conveniente un‟alternativa rispetto ad un‟altra. In altre parole si rappresentano su uno stesso sistema di assi cartesiani
le varie funzioni economiche (alternative) e si determinano i punti d’intersezioni (detti anche punti
d‟indifferenza).
NOTA: Possono essere anche funzioni definite a tratti.
15
2.1.4 Problemi di scelta in condizioni di incertezza
La risoluzione di problemi di scelta in condizioni di incertezza consiste nel utilizzare criteri predefiniti basati
su un‟analisi dei dati.
1. Criterio dell’ottimista: max-max (ricavi); min-min (costi) [se ve ne è più di uno uguale prendo
l‟alternativa che possiede la caratteristica più vicina al massimo, ma deve essere unica di
quell‟alternativa]
2. Criterio del pessimista: max-min (ricavi); min-max (costi) [come sopra]
3. Criterio del valor medio: [NOTA: deve essere associata ai dati una distribuzione di probabilità]
a. Per prima cosa si realizza la media: ( ) ∑ ( ) ( )
b. Scelto l‟alternativa con la media superiore (ricavi) o inferiore (costi)
c. [Tenendo conto del rischio]:
( )
( )
 Calcolo lo s.q.m. di ogni alternativa: ( ) √∑ ( )
 Calcolo il valore del massimo rischio sopportabile, che dipende dal coefficiente di
propensione a rischio[= 1/n] (valore arbitrariamente scelto):
(
)
 Confronto i rischi di ogni alternativa con il rischio massimo, così:
( )
( )
( )
( )
2.1.4 Problema delle scorte
Esso nasce quando un‟impresa industriale ha la necessità di avere in un magazzino un quantità sufficiente di
materia prima. Per poter applicare tale teoria è necessario specificare alcune ipotesi semplificatrici:
1. Che il consumo della merce in magazzino sia uniforme nel tempo
2. Che la merce ordinata arrivi, in magazzino, nello stesso istante in cui la merce della precedente ordinazione è terminata
La rappresentazione delle ipotesi semplificatrici risulta come una funzione definita a tratti:
La formula per risolvere il problema delle scorte è la seguente:
Dove:




Q : rappresenta il fabbisogno aziendale (solitamente annuo)
x : la quantità di merce da ordinare ogni volta (da trovare: il minimo)
S : rappresenta le spese fisse per le ordinazioni
s : rappresenta le spese fisse per il magazzinaggio (costo per ogni unità)
16

: rappresenta il numero di ordinazioni da effettuare

: rappresenta la scorta media data da

Il periodo delle operazioni (ogni quanto è necessario ordinare) è:
[360 = 1 Anno commerciale]
La funzione si comporta come un iperbole con concavità rivolta verso l‟alto e asintoto obliquo in:
y = ax
E vertice in [di solito il minimo]: (√
(√ ))
Dove:
Nel caso di sconto, è necessario aggiungere un valore costante alla funzione (come un offset), che è lo sconto. Segue un esempio completo.
ES. 65 Pag. 496
Q = [q]
S = [€]
s = [€]
480
25
5 (al mese) => 5*12 = [€] 60 (all’anno)
C = [€/q] 20
Sconto% = 10% se x >= 30q, lo sconto sarebbe di (20*0.1 =) € 2
C[scont] = 20 – 2 = [€/q] 18
y = S(Q/x)+s(x/2)+c*Q
y = S(Q/x)+s(x/2)+ (c - (c*sconto%))*Q
[senza lo sconto di c]
[con sconto di c]
Capacità = 40q
| 25*(480/x) + 60*(x/2) + c*Q = 12000/x + 30x + 9600 --> per 0<x<30
y = |
| 25*(480/x) + 60*(x/2) + c[scont]*Q
--> per 30≤x≤40
| = 12000/x + 30x + 8640
Xvert = sqrt(b/a) = 20 ; f(Xvert) = 10140
X0
= 30
; f(x0)
= 9940 (<-- minore, lo prendo come Xmin)
N°ordini = Q/Xmin = 480/30 = 16
Il valore ottimale, di minimo costo, sia ha ordinando 30 merci alla volta.
Il periodo di ordinazione è: T = 360/N°ordini = 360/16 = 22.5
(3 settimane)
2.2
Modulo 2: La programmazione lineare
La programmazione lineare è una delle parti più importanti della ricerca operativa e si ha quando il problema
è traducibile in un modello matematico costituito da:
17
1. Una funzione lineare di n variabili, da rendere massima o minima
2. Un sistema di vincoli espressi da equazioni e disequazioni lineari di n variabili
3. Un sistema di vincoli di segno che implicano la non negatività delle variabili
Attraverso il metodo grafico che permette di rappresentare i vincoli sul piano cartesiano, è facile trovare il
massimo e il minimo di funzioni (che devono quindi essere, o essere riportate, in due variabili).
2.2.1 Richiami al max e min di funzioni lineari
Una retta di equazione y=mx+q, ha come dominio
, la sua derivata è costante e non si annulla mai
(tranne quando m = 0), perciò non ammette massimo o minimi relativi, ma ammette massimi o minimo assoluti all‟interno di un certo intervallo[a, b], in un estremo di tale intervallo.
Esempio
y = 2x-3
Int1 = [2; +∞[  Massimo: NO; Minimo: 2 (A)
Int2 = [2; 5]  Massimo: 5 (B); Minimo: 2 (A)
La stessa cosa vale per un piano di equazione
Z = mx1 + nx2 + q  non ammette massimo minimi liberi, ma se è soggetto a vincoli del tipo:
ax1 + bx2 + c = 0 per k ≤ x ≤ n allora:
1. Si ricava una variabile dal vincolo
2. La si sostituisce nella funzione econimica, portando il problema ad una variabile, del tipo
z = dx1 + q  rappresentabile
3. Se:
 d > 0  k = Pmin; n = Pmax (Crescente)
 d < 0  n = Pmin; k = Pmax (Decrescente)
 d = 0  z = q è un segmento che coincide con una curva di livello, quindi non ha massimo o
minimo
NOTA: Per verificare quale dei punti sia un mssimo o un minimo bisogna sostituire alla funzione in due variabili i valori di x1 e x2, poi confrontare le z ottenute: il valore più piccolo sarà Zmin, il valore più grande
sarà Zmax (o l‟intero segmento, se due punti condividono il valore minimo).
18
Essendo poi il sistema dei vincoli anche costituito da disequazioni lineari del tipo:
ax1 + bx2 + c > c1
a1x1 + b1x2 + c < c2
[...]
x1 ≥ 0; x2 ≥ 0
Allora la soluzione si dice area ammissibile o dominio dei vincoli e sarà una parte di piano rappresentabile
(se la soluzione dei sistema dei vincoli è un insieme di punti NON vuoti).
La soluzione può essere:
1. Un poligono convesso (allora, per il teorema di Weierstrass, le soluzione esistono e si trovano nei
vertici)
2. Un troncone o regione illimitata di piano avente per fronte un spezzata aperta
In questo caso è necessario tracciare alcune curve di livello partendo per esempio da quella di z=0 e
procedere seguendo il verso del vettore OH, dove H(m,n)
Si parla quindi di due teoremi:
1. Il sistema dei vincoli p un insieme convesso
2. Se la funzione ha max-min vincolato, almeno una soluzione è vertice del dominio dei vincoli
2.2.1 Risoluzione di problemi in 2 variabili col metodo grafico
Si procede sempre costruendo il modello matematico del sistema da analizzare, con funzione economica e
vincoli. Si noti che l‟insieme dei punti appartenenti al dominio dei vincoli sono detti soluzioni ammissibili e
19
l‟insieme dei punti appartenenti ai vertici del dominio dei vincoli si dicono soluzioni ammissibili di base (fra
le quali si cercherà la soluzione ottima).
Il metodo grafico consiste nei seguenti passaggi:
1) Determinazione del dominio dei vincoli
2) Se il dominio è un poligono convesso si calcolano i valori di z nei vertici e si valuta l‟ottimo
3) Se il dominio è un troncone di piano si guardano le curve di livello per capire se vi è un vertice che
ottimizza la funzione
NOTA: Se le variabili in gioco sono nel discreto, si ragiona come nel reale e si da la soluzione nel discreto
(ed eventualmente approssimando i valori ottenuti).
2.2.1 Risoluzione di problemi in più di 2 variabili col metodo grafico
Attraverso il metodo grafico è possibile ricondursi a problemi di due variabili, se il sistema dei vincoli p
formato da n-2 equazioni che permettono di determinare il valore di n-2 variabili, in funzione delle altre due.
Es. in un problema di 3 variabili, vi deve essere almeno un‟equazione tra i vincoli, dalla quale si ricava il valore di una variabile e si sostituisce il tutto nei vincoli e nella funzione economica, riportano il problema a
due variabili (stesso procedimento per n variabili, solo un po‟ più lungo).
In generale i metodi per la risoluzione di problemi di programmazione lineare sono:
1. Metodo grafico (semplice)
2. Metodo matematico (lento)
3. Metodo del simplesso (macchinoso)
Mohammad Alì Hade
20
Scarica