SEMINARI DIDATTICI (a. a. 2007-2008) Corso di Laurea in Statistica, Imprese e Mercati - Corso di Laurea in Statistica e Ricerca Sociale CRITTOGRAFIA E STATISTICA giovedì 8 maggio 2008, ore 14.00 - aula 3 Alfredo Rizzi Professore di Statistica Dipartimento di Statistica, Probabilità e Statistiche applicate - Università degli Studi di Roma “La Sapienza” 1. La società dell'informazione deve adeguatamente proteggere le comunicazioni dagli intrusi, sia persone sia istituzioni che attentano alla nostra privacy. Gli anni '70 dell'altro secolo si possono considerare lo spartiacque tra la crittografia classica - simmetrica, nel senso che coloro che cifrano e coloro che decifrano devono avvalersi della stessa chiave- da quella asimmetrica, detta anche a chiave pubblica, in cui chi vuole ricevere un messaggio, Alice è il personaggio tipico, pubblica una chiave che consente a chiunque, Bob, di cifrare un messaggio con la chiave pubblica ma che potrà essere decifrato solo da Alice e non da Eva. La crittografia classica è legata, anche nell'immaginario collettivo, alle comunicazioni militari o diplomatiche, allo spionaggio, agli agenti segreti. Oggi il riferimento è alle applicazioni che riguardano tutti i cittadini, quali l 'ecommerce, il prelievo di denaro da un distributore automatico, la consultazione della propria situazione bancaria, etc. Parallelamente con lo sviluppo dell'informatica e dei sistemi di telecomunicazione si sono presentati nuovi problemi che in parte condizionano il diffondersi di queste tecnologie. Così le truffe messe in atto da criminali informatici servendosi di dati personali quali numeri di carte di credito, codici bancomat, hanno limitato fortemente il ricorso a tali strumenti. Per garantire la sicurezza dei dati memorizzati su supporti magnetici è fondamentale avvalersi della crittografia. Le realizzazioni riguardano principalmente quella simmetrica, in cui la stessa chiave è utilizzata sia da chi cifra sia da chi decifra. Per poter accedere agli archivi dei dati crittografati occorre quindi la chiave di decodifica. Per quanto riguarda, invece, la posta elettronica e più in generale il trasferimento di informazioni tra computer, si ricorre spesso all'uso della crittografia a chiave asimmetrica. 2. Nella crittografia moderna convergono quattro discipline: Linguistica, ed in particolare la Statistica linguistica. Statistica, in particolare la Teoria dei test per l'analisi della casualità e della primalità, e per gli aspetti statistici del data mining. Matematica, ed in particolare la matematica del discreto; la struttura algebrica di riferimento è quella dei campi di Galois, l'algebra dei polinomi primitivi è fondamentale per la teoria dei registri a scorrimento Teoria dell'informazione per gli aspetti computazionali e logici. 2.-1 Nell'ambito delle analisi crittografiche rivestono grande importanza gli studi di statistica per caratterizzare gli aspetti quantitativi di una lingua. La decrittazione dei sistemi classici, (sistemi a sostituzione, a trasposizione, etc ), si basa su informazioni statistiche sulla lingua; queste sono fondamentali anche nei moderni sistemi. La ricerca crittografica si avvale, tra l'altro, della sostanziale stabilità delle frequenze dei simboli, che si ritrova nella distribuzione statistica di fonemi, lettere, sillabe, lunghezza di parole espresse mediante lettere. L'invenzione della crittoanalisi viene attribuita agli arabi. I funzionari mussulmani, già nel decimo secolo d.c., cifravano i messaggi riguardanti le importanti questioni di Stato, ma anche parte della documentazione fiscale. In molte zone dell'Islam raffinati metodi linguistici erano applicati all'analisi testuale sia del Corano, sia della Facoltà di Scienze Statistiche, Via Belle Arti 41, 40126 Bologna raccolta degli atti e delle massime del Profeta. Agli arabi viene attribuito il merito di aver scoperto che in ciascuna lingua la distribuzione statistica delle lettere dell'alfabeto non è uniforme; la diversa frequenza delle lettere consentiva di decifrare molti crittogrammi. 2.1.1 Tra i molti indici statistici che si utilizzano in crittografia ricordiamo l'indice di coincidenza, non noto nella letteratura statistica corrente; consente di determinare la lunghezza della chiave per molti sistemi di cifratura. E' stato introdotto da William F. Friedman nel 1920. La distribuzione campionaria dell'indice è stata determinata nel 1962. Sia la distribuzione delle lettere di un alfabeto di r simboli : A B C D … Z n1 n2 n3 n4 … nr con Σ ni=N i=1,2,…,r. L'indice di coincidenza , Ic , è così definito: Ic ni ni 1 N N 1 ove la sommatoria è estesa al numero delle lettere dell'alfabeto (21 per l'italiano, 26 per quello internazionale). L'indice di coincidenza può essere considerato una stima del parametro Σ pi2 , ossia della probabilità che scegliendo a caso due lettere esse siano uguali. Ic è minimo se tutte le lettere hanno la stessa frequenza, massimo se una sola lettera ha frequenza N e tutte le altre frequenza 0. Anche l'entropia di Claude Shannon trova molte applicazioni in crittografia. BIBLIOGRAFIA Fabris F., Teoria dell'informazione, codici, cifrari, Bollati Boringhieri, 2001 Leonesi S., Toffaroli C., Numeri e crittografia, Springer, 2006 Rizzi A., Statistical methods for cryptography, Cladag 2007, Università di Macerata. Rizzi A., Crittografia. Dai cifrari classici alla sicurezza web, CISU, Roma, 2008 Facoltà di Scienze Statistiche, Via Belle Arti 41, 40126 Bologna