Pentium 4

I.T.I.S. Santhià – Dipartimento di Informatica
Microprocessori per P.C.
Modulo didattico
“L’Hardware del P.C.”
Ultima revisione 07 gennaio 2005
Autore M. Lanino
Come opera la CPU
La progettazione di un processore è un insieme di trucchi ingegneristici e di
avanzate tecniche di costruzione, che permettono di stipare in pochi mm
quadrati milioni di transistor.
Osservando con occhio distaccato un
computer, si nota come questo non sia altro
che una macchina in grado di leggere
istruzioni, decodificarle ed eseguirle. Se il
comando in esecuzione necessita di
recuperare o immagazzinare alcuni dati, il
computer ricerca la locazione per i dati e li
sposta.
Possiamo dividere queste operazioni in una serie di passaggi intermedi.
I passi di funzionamento
Possiamo quindi appoggiarci a questo semplice schema per analizzare
anche le Cpu più complicate. I cinque stadi possono essere eseguiti
completamente per una singola istruzione prima di affrontarne una
nuova. La complessità delle Cpu inizia nel momento stesso in cui si cerca
di superare questo limite.
Accesso alle istruzioni
Un'istruzione codificata viene letta dal sottosistema di accesso alla
memoria ad un indirizzo (locazione) determinato da un contatore di
programma (Program Counter, PC). In questa analisi trattiamo la
memoria come un oggetto che affianca l'unità di esecuzione della Cpu.
Decodifica dell’istruzione
Dopo che l'istruzione codificata è stata letta, viene tradotta in comandi di
controllo che possono essere eseguiti dai circuiti logici del processore. Ogni "codice
operazione" (Opcode) rappresenta una differente istruzione e istruisce la macchina
ad operare in modi diversi. Incapsulate nelle Opcode (o immagazzinate nei Byte
seguenti all'istruzione, detti operandi) trovano posto informazioni di indirizzamento
o dati che devono essere processati immediatamente. Le informazioni aggiuntive
presenti nelle Opcode possono rappresentare un nuovo indirizzo che deve
essere caricato nel Contatore di Programma (branch address, indirizzo di
salto) o una locazione di memoria dati (caricare o salvare).
Esecuzione
Nello stadio di esecuzione la macchina esegue l'operazione comandata
dall'istruzione.
Questa
potrebbe
essere
un'operazione
matematica
(moltiplicazione, addizione, ecc.) o un'operazione per muovere alcuni dati. Se
l'istruzione implica l'azione su dati in memoria il processore deve calcolare un
"indirizzo effettivo" (Effective Address, EA); questo rappresenta l'attuale
locazione dei dati nel sottosistema di memoria, calcolato sullo sfasamento
(spiazzamento) degli indirizzi o risolvendo riferimenti indiretti.
Accesso ai dati
A questo livello vengono inviati gli Indirizzi Effettivi al sottosistema di
memoria, di modo che le istruzioni possano ricevere i dati di cui necessitano o
immagazzinare dati ad indirizzi specifici.
Write Back
Non appena il processore ha condotto a termine l'esecuzione dell'istruzione, dopo
l'eventuale lettura di dati in memoria, i risultati vengono scritti nei registri di
destinazione (se previsto).
Modelli diversi di CPU
Il modello che abbiamo appena presentato sembra molto semplice, ma in realtà il suo
funzionamento si complica molto quando si trova ad operare con lo schema di
indirizzamento di un processore x86. Questo tipo di processore è di tipo "registromemoria" (register-memory); ovvero presenta un'architettura in cui anche le istruzioni
della Alu (Aritmetic Logic Unit, Unità Logico Aritmetica) possono accedere alla memoria.
In contrapposizione l'architettura Risc (Reduced Instruction Set Computing) permette
soli comandi di lettura e scrittura per lo spostamento di dati; questo tipo di architettura
è denominata "registro-registro". Le istruzioni Cisc (Complex Instruction Set
Computing) vengono infatti tradotte in istruzioni del tipo Risc. Queste consentono una
più facile ottimizzazione dell'hardware e possono essere eseguite a una frequenza più
elevata.
L'approccio di tradurre internamente alla Cpu le istruzioni Cisc in
istruzioni Risc ha permesso all'architettura x86 di resistere
all'avanzata dell'architettura puramente Risc.
Il ruolo della memoria
Sia lo stadio di accesso alle istruzioni che quello di accesso ai dati necessitano di
appoggiarsi alla memoria. La ricerca di un'ottimizzazione dell'accesso alla memoria
ha portato già nel 1940 al modello di accesso denominato Architettura Harvard
(in questo schema di funzionamento la memoria viene suddivisa in due sezioni
distinte: una per le istruzioni e una per i dati; in questo modo ogni stadio ha un
accesso dedicato alla sua sezione).
Per rendere più semplice ai programmatori la realizzazione del software, la maggior
parte degli indirizzi sono "indirizzi virtuali" , che permettono di ottenere grandi blocchi
lineari di memoria. Gli indirizzi virtuali vengono poi tradotti in "indirizzi fisici" riferiti
alla effettiva memoria del computer. Nella quasi totalità dei chip x86, le memorie cache
contengono dati di memoria che sono indirizzati con indirizzi fisici. Prima di accedere alla
cache, gli indirizzi virtuali vengono tradotti all'interno del TLB (Translation Look-aside
Buffer).
Se l'indirizzo virtuale richiesto dalla Cpu non è presente nella tabella TLB, evento
denominato "TLB mancato" , allora la tabella deve essere aggiornata in base a una
tabella più grande presente nella memoria centrale; l'operazione di accesso alla
memoria centrale comporta però un notevole rallentamento.
La Pipeline
I cinque stadi possono essere processati completamente per una singola istruzione
prima di affrontarne una nuova. La complessità delle Cpu inizia nel momento stesso in
cui si cerca di superare questo limite.
Invece di attendere che una singola istruzione abbia completato tutti e cinque
gli stadi del nostro modello, è possibile inviare al primo stadio una nuova
istruzione non appena la precedente sia passata al secondo stadio. Il
meccanismo della pipeline è quello alla base di una catena di
montaggio; ogni stadio della pipeline è paragonabile ad un segmento
della catena di montaggio.
Con questo nuovo approccio il processore del nostro schema base è capace di elaborare
contemporaneamente cinque istruzioni, mantenendo pieni tutti e cinque gli stadi della
pipeline. In questo modo la Cpu processa cinque istruzioni in parallelo,
riferendosi al parallelismo a livello di istruzione (ILP, Instruction Level
Parallelism). Il microprocessore opera, in questo modo, cinque volte più
velocemente.
I rischi di pipeline
Quelle che si intravedono sono situazioni denominate rischi di pipeline (pipeline
hazard), e il loro effetto è uno stallo del processo di esecuzione. Esistono
principalmente tre tipi di pericoli:
• Il primo è un rischio sui dati che consiste nel cercare di usare dati ancora non
disponibili, generalmente causato da una dipendenza di dati.
• Il secondo è un rischio sul controllo, generato dalla presenza nella pipeline di
istruzioni che risiedono dopo una diramazione del codice.
• L'ultimo è un rischio di struttura, ovvero un conflitto di risorse, che accade in
presenza di una richiesta da parte di istruzioni differenti della stessa risorsa
hardware (registri); un esempio potrebbe essere la necessità di utilizzare la
stessa locazione di memoria per dati e istruzioni nello stesso momento.
La riduzione dei rischi
Esistono diversi accorgimenti per ridurre il rischio di stalli nella pipeline.
Nella pratica l’attuale schema di funzionamento della CPU comporta l’insorgere
di questi stalli.
Se un’istruzione provoca questa situazione, l’esecuzione di questa
viene bloccata, mentre le istruzioni che si trovano negli stadi successivi
procedono lungo la pipeline; quella che si crea è una sorta di bolla tra le
istruzioni bloccate e quelle che procedono lungo la catena di montaggio.
Quando l’istruzione bloccata riprende il suo percorso, la bolla viene spinta
lungo la fine della pipeline.
CPU superscalari
La suddivisione in stadi permette di eseguire le istruzioni più velocemente;
l’aumento degli stadi della pipeline comporta un maggiore rischio di stalli, ma
consente di incrementare le frequenze di funzionamento. I processori x86 che
verranno analizzati possiedono tutti pipeline con un numero di stadi superiore a 5.
Ad esempio nel caso di Pentium 4 questa tecnica prende il nome di “hyperpipelining”.
In un’architettura superscalare, vengono aggiunte risorse hardware
per permettere un parallelismo di esecuzione: un esempio può essere
la presenza di due pipeline distinte all’interno di una stessa CPU.
32 o 64 bit
La maggior parte dei processori dei Pc con i quali oggi lavoriamo (tutti i P4, i Celeron, gli
Athlon XP, molti Sempron...) si basano sul set di istruzioni denominato x86 o IA-32 (IA
è l'acronimo di Intel Architecture), dove il numero 32 indica la capacità della Cpu di
operare con dati e indirizzi ampi 32 bit.
La potenza di calcolo, misurata in termini di istruzioni eseguite per ciclo di clock (Ipc
ovvero instructions per clock), può essere incrementata in diversi modi:
•incremento della frequenza di funzionamento (Clock), ovvero il ritmo con il
quale sono scandite le operazioni all'interno del processore
•Particolari tecniche di elaborazione del codice x86 (previsione dei salti,
esecuzione speculativa, struttura a pipeline, per citarne alcune)
La richiesta di potenza da parte del software ha da qualche anno iniziato a
percorrere anche altre strade: utilizzare architetture a 64 bit.
Architettura a 64 bit
Progettare una CPU a 64bit non è cosa da poco; si può operare secondo seguendo
due strade diametralmente opposte:
1.
Progettazione ex-novo, senza cioè alcun riferimento nè compatibilità con il
vecchio mondo dei 32 bit. Una CPU di questo tipo necessita di S.O. e SW in
versione 64 bit.
2.
Progettazione che mantenga la compatibilità con la vecchia tecnologia. Una CPU
di questo tipo deve poter leggere indifferentemente SW scritto con codice a 32 o
a 64 bit e poter utilizzare S.O. Standard.
Le CPU di Intel
Anche per il 2005 la CPU di punta di Intel per sistemi di
fascia desktop sarà Pentium 4, mentre per i sistemi entrylevel sarà Celeron D. Per la fascia workstation e server la
cpu di Intel sarà Xeon. La tabella che segue fa il punto della
situazione, per districarsi meglio fra modelli e versioni delle
cpu menzionate.
In figura una nuova CPU Intel Pentium4 nel
nuovo formato Socket 775
Facciamo il punto
CPU
Socket
Package
Passo
Prod.
Freq.
Max
interna
Freq.
di BUS
Consumo
Tensione
alimentaz.
Core
Cache
L1/L2/L3
Data
introduz.
Celeron
478
mPGA
130 nm
2,8 GHz
400
MHz
68,4 W
1,5 V
Northwood
8K/128K
15/05/02
Celeron D
478
mPGA
90 nm
2,93 GHz
533
MHz
nd
nd
Prescott
16K/256K
24/06/04
Pentium 4
478
mPGA
130 nm
3,4 GHz
800
MHz
89 W
1,55 V
Northwood
c
8K/512K
06/01/02
Pentium 4
478
mPGA
90 nm
3,4 GHz
800
MHz
103 W
1,55 V
Prescott
16K/1M
01/02/04
Pentium 4
LGA775
LGA
90 nm
3,8 GHz
800
MHz
>103 W
1,425 V
Prescott
16K/1M
01/02/04
Xeon
603
mPGA
130 nm
3 GHz
400
MHz
85 W
1,50 V
Prestonia
8K/512K
27/01/02
Xeon
604
mPGA
130 nm
3,2 GHz
533
MHz
110 W
1,45 V
Prestonia B
8K/512K
18/11/02
Xeon
604
mPGA
90 nm
3,6 GHz
800
MHz
nd
1,40 V
Nocona
16K/1M
28/07/04
Xeon MP
604
mPGA
130 nm
3,0 GHz
400
MHz
97 W
1,475 V
Gallatin
8K/512K/2M
04/11/02
Situazione aggiornata al gennaio 2005 – Fonte PC Professionale - Mondadori
Architettura Net-burst di P4
L 'architettura NetBurst
I cambiamenti architetturali che si annidano sotto la dicitura
NetBurst consistono in una pipeline più profonda di quelle
attualmente diffuse, in una nuova architettura dei bus, maggiori
risorse di esecuzione e cambiamenti al sottosistema della
memoria.
La pipeline del Pentium 4 consiste di 31 stadi (nella versione core
Prescott), a differenza dei "soli" 10 stadi di cui disponeva
l’architettura del Pentium III. Uno degli elementi interessanti della
nuova architettura del Pentium 4 e la presenza di due stadi
dedicati a instradare i dati all'interno del chip.
Intel ha dovuto lavorare specialmente per evitare che si verifichino stalli della
pipeline; se una pipeline così profonda dovesse essere svuotata di frequente si
avrebbe un rapido degrado delle prestazioni, pur disponendo di una frequenza di
clock molto elevata.
Pipeline e frequenza di clock
Eventuali stalli che necessitino il completo svuotamento della profonda pipeline del
Pentium 4, comportano un notevole impatto sulle prestazioni. In questi casi i
benefici di una pipeline profonda vengono persi e un disegno più semplice potrebbe
risultare più performante. Il vantaggio della pipeline a più stadi è di eseguire
un minor lavoro ad ogni passo; in questo modo la lunghezza dei cicli può
essere ridotta, consentendo così di aumentare la frequenza di clock e
quindi la velocità di esecuzione. Di conseguenza una pipeline profonda
necessita di funzionare a frequenze più alte per eseguire la stessa quantità di lavoro
di una pipeline più corta funzionante ad una frequenza inferiore.
L'impiego di una pipeline profonda a molti stadi consente di avere in
esecuzione più istruzioni nello stesso momento; questo consente,
analizzando le istruzioni in esecuzione, di ricercare quelle che possono
essere eseguite in parallelo. Il Pentium 4 è capace di mantenere 126 istruzioni
in attesa, mentre attende che altre istruzioni completino il loro ciclo.
I pro e i contro
Va da sé che la pipeline profonda del P4 lo rende sensibile al codice molto
ramificato, come può essere quello presente negli applicativi di produttività
personale, non ottimizzati, mentre risulta molto performante nell’esecuzione di
processi sequenziali, come ad esempio la codifica video.
Riassumendo:
Pipeline molto lunghe:
uno dei motivi che spiega le elevate frequenze di clock disponibili per i
processori Pentium 4 è proprio la lunghezza delle pipeline. Ovviamente, più lunghe sono le pipeline di
calcolo, meno ne si potrà completare nell'unità di tempo. Al contrario, però, la maggior lunghezza della
pipeline permette di ottenere frequenze di lavoro più elevate e, di conseguenza, un maggior numero di
operazioni eseguite nell'unità di tempo.
Unità di Branch Prediction:
l'utilizzo di pipeline molto lunghe permette di salire di clock molto
facilmente a parità di processo produttivo, ma cresce il rischio di perdere fasi di calcolo e generare bolle
all'interno della pipeline, qualora parte dell'operazione non vada a buon fine. Un'unità di Branch Prediction
molto avanzata permette di minimizzare questi rischi e ottimizzare, pertanto, tutte le fasi dell'esecuzione
delle istruzioni.
Rapid Execution Engine:
due delle unità ALU (Arithmetic Logic Units) integrate nei processori
Pentium IV operano ad una frequenza di lavoro doppia rispetto a quella di clock. Le prestazioni di queste
unità ALU permettono di minimizzare gli effetti negativi dati dalla lunghezza delle pipeline, soprattutto
nell'esecuzione di calcoli interi.
Hardware Prefetch:
il processore è in grado di prevedere quale dato verrà richiesto all'interno
della pipeline per l'esecuzione delle operazioni. Il dato che si ritiene verrà utilizzato viene preso e
memorizzato nella memoria cache, così che sia immediatamente disponibile non appena se ne richiede
l'impiego. Ovviamente, se la previsione è corretta se ne ottiene un vantaggio in termini di prestazioni
complessive. Qualora invece essa non lo sia si otterrà uno spreco sia di memoria cache sia di bandwidth
(banda passante) della memoria.
E ancora …
Bus Quad Pumped:
il bus di sistema dei processori Pentium IV opera a 100 (200) Mhz ma è del
tipo quad pumped, cioè offre un quantitativo di bandwidth equivalente a quello di un sistema con bus a
400 (800) Mhz, quindi pari a 3,2 (6,4) Gbytes al secondo come massimo teorico.
SSE2:
il set di istruzioni multimediali Mmx e SSE, introdotto con i processori Intel Pentium III, è
stato ulteriormente migliorato e ora prende il nome di SSE2. Qualora si utilizzi codice ottimizzato,
questo set di istruzioni 3D pemette un aumento delle prestazioni in modo particolare con applicazioni di
grafica professionale o che richiedono numerose elaborazioni 3D.
Conclusioni sul P4
Il disegno del Pentium 4 è stato studiato per scalare verso l'alto le frequenze di
funzionamento; non è infatti un caso che attualmente il processore Intel sia l'unico
ad aver raggiunto i 3,8 GHz. A causa della sua particolare architettura, molto
sensibile ai "cache miss", ovvero alle situazioni in cui il dato richiesto non sia
presente nella cache, diventa un'operazione critica aumentare la memoria cache e
quindi i tempi di latenza per la sua lettura. L'aumento della frequenza di
funzionamento associato ad una corretta compilazione del codice, rende questo
microprocessore molto competitivo, soprattutto nelle versioni a core Northwood C
(130 nm) e Prescott (90 nm), dotati di un quantitativo maggiore di cache (8 e 16
KB per L1 e 512 KB e 1 MB per L2) rispetto alle versioni precedenti e capaci di salire
ulteriormente in frequenza. Come per AMD, anche Intel ha dovuto modificare
package (vedi figura) e relativi socket delle proprie cpu per venire incontro ad
accresciute richieste di potenza dissipabile e di numero di pin disponibili. Così il
socket775 sta soppiantando il vecchio 478 e il micro pin grid array (micro letto di
chiodi) ha lasciato il posto al land grid array (distesa di piazzole).
CPU Intel a 64 bit
La scelta strategica di Intel cira le CPU a 64 bit è stata per molti anni orientata al taglio
completo dei ponti con la vecchia architettura X86-32. Le CPU della categoria Itanium non
sono infatti compatibili con l’attuale codice a 32 bit. Se da un lato questa scelta assicura la
possibilità di creare ex-novo un nuovo standard di CPU, dall’altro costringe sviluppatori e
mercato a riscrivere completamente tutto il SW finora utilizzato
Per iniziare a colmare il gap rispetto ad AMD per quanto riguarda la tecnologia a
64 bit nel settore workstation e desktop, Intel ha recentemente (Agosto 2004)
messo in commercio cpu Xeon core Nocona in grado di supportare la tecnologia
EM64T (Extended Memory 64 Technology) in grado di utilizzare codice con
estensione a 64 bit. I primi PC ad esserne dotati sono usciti in dicembre. Intel,
suo malgrado, ha dovuto rivedere i suoi piani di sviluppo e di fronte alla
imminente uscita di Windows XP in versione 64 bit e alle versioni a 64 bit già in
commercio di Linux, ha dovuto estendere la propria offerta anche alle CPU a 64
bit compatibili con il codice a 32.
Conclusioni sul P4
Il disegno del Pentium 4 è stato studiato per scalare verso l'alto le frequenze di
funzionamento; non è infatti un caso che attualmente il processore Intel sia l'unico ad
aver raggiunto ad oggi i 3,2 GHz.
A causa della sua particolare architettura, molto sensibile ai "cache miss", ovvero alle
situazioni in cui il dato richiesto non sia presente nella cache, diventa un'operazione
critica aumentare la memoria cache e quindi i tempi di latenza per la sua lettura.
L'aumento della frequenza di funzionamento, associata ad una corretta compilazione del
codice rende questo microprocessore molto competitivo, soprattutto nelle versioni a
core Northwood (oggi giunte alla revisione C), realizzate con tecnologia a 0,13
micron, dotate di un quantitativo maggiore di cache (8 KB L1 e 512 KB L2) e capaci di
salire ulteriormente in frequenza nei prossimi mesi.
Le CPU di AMD
La CPU di punta di AMD per il 2005 sarà sempre Athlon, nelle sue diverse
varianti, cui si affiancano Sempron, dedicato ai sistemi entry-level e Opteron,
per gli ambienti workstation-server.
Per quanto riguarda l’offerta a 32 bit, le CPU, utilizzanti il socket A, sono Athlon
XP , Athlon MP e Sempron.
Per quanto riguarda il mercato 64 bit AMD commercializza Athlon64 e Sempron
(core Clawhammer) su socket 754 per il mercato desktop e Athlon64 e FX su
socket 939 per il mercato workstation. Questi ultimi modelli sono caratterizzati da
un controller integrato della memoria dotato di doppio canale a (64 bit x2).
Maggiori informazioni nelle slides successive
AMD Athlon
L'architettura del processore Athlon è più simile alla nostra prima
analisi di macchine con esecuzione speculativa e fuori ordine. Esso
può eseguire simultaneamente 9 istruzioni di tipo Risc (denominate
OP da AMD).
La scelta di AMD è stata di implementare una cache L1, di primo livello, di grosse dimensioni. I 128
KByte della L1, con associatività a due vie, sono suddivisi in eguale maniera per le istruzioni e per i
dati. La sezione L1 delle istruzioni ha un canale da 64 byte con 64 byte sequenziali di prefetch. La
parte di L1 destinata ai dati fornisce una seconda porta di accesso per evitare l'insorgere di rischi di
struttura generati da un disegno superscalare. La cache L2 è di 512 KByte unificati con associatività
a 16 vie ed è supportata dal veloce bus EV6. Le ultime versioni (core Thoroughbred e Barton),
supportano anche il prefetching e sono costruite con processo a 0,13m.
Per trattare la complessità del set di istruzioni x86-32, il , processore AMD effettua
una decodifica parziale delle istruzioni non appena queste vengono trasferite nella cache
L1. Alcuni bit extra posti all'inizio e alla fine delle istruzioni di lunghezza variabile
permettono una migliore e più rapida identificazione da parte delle unità di previsione
(prefetcher e predictor).
La pipeline dell'Athlon assomiglia molto al flusso descritto per il nostro modello base
di computer. I processi di accesso alle istruzioni e di decodifica di queste sono divisi in 6
stadi dalla pipeline.
Dentro Athlon XP
Tabella riassuntiva (gen. 2005) AMD
CPU
Socket
Package
Passo Prod.
Freq. Max
inter
na
Sempron
A
OPGA
130 nm
2 GHz
333 MHz
62 W
Sempron
A
OPGA
130 nm
2 GHz
333 MHz
Athlon XP
A
OPGA
130 nm
2,2 GHz
Sempron
754
OPGA
130 nm
Athlon 64
754
OPGA
Athlon 64
939
Athlon 64
Tensione
alimen
taz.
Data
intro
duz
Core
Cache
L1/L2/L3
1,60 V
Thoroughbred
128K/256K
27/07/04
62 W
1,60 V
Barton
128K/512K
17/09/04
400 MHz
77 W
1,60 V
Barton
128K/512K
10/02/03
1,8 GHZ
800 MHz
62 W
1,50 V
Clawhammer
128K/256K
27/07/04
130 nm
2,4 GHZ
800 MHz
89 W
1,50 V
Clawhammer
128K/1M
23/09/03
OPGA
130 nm
2,4 GHZ
1000 MHz
89 W
1,50 V
Newcastle
128K/512K
21/06/04
939
OPGA
130 nm
2,4 GHZ
1000 MHz
89 W
1,50 V
Clawhammer
128K/1M
14/10/04
Athlon 64FX
939
OPGA
130 nm
2,6 GHZ
1000 MHz
104 W
1,50 V
Clawhammer
128K/1M
23/09/03
Athlon MP
A
OPGA
130 nm
2,13 GHZ
266 MHz
60 W
1,65 V
Thoroughbred B
128K/256K
10/06/02
Athlon MP
A
OPGA
130 nm
2,13 GHZ
333 MHz
60 W
1,6 V
Barton
128K/512K
06/05/03
Opteron
940
CPGA
130 nm
2,4 GHz
400 MHz
85 W
1,55 V
Sledgehammer
128K/1M
22/04/03
OPGA = Organic Pin Grid Array
Freq. di
BUS
Consumo
Conclusioni su Athlon
Quello che emerge dall'analisi è che l'architettura dell'Athlon è più
tradizionale di quella introdotta dà Intel con il Pentium 4 e risulta più vicina
allo schema base di un sistema per l'esecuzione di istruzioni fuori ordine,
presentando una pipeline con meno stadi di quelli del Pentium 4.
Athlon mostra prestazioni superiori Pentium 4 a parità di frequenza di
clock in molte applicazioni; tuttavia Pentium 4 dispone attualmente
(gennaio 2005) di circa 1.2 GigaHertz di vantaggio in termini di clock, ciò
basta a concedergli prestazioni assolute migliori rispetto alle CPU a 32 bit
di AMD.
AMD e i 64 bit
Scelta di AMD:
AMD è stata la prima fra le case produttrici a sviluppare CPU a 64bit, sempre con il
vincolo della totale compatibilità con il codice X-86 (IA-32) di Intel. Dal 2003 sono in
commercio CPU di tipo Opteron e Athlon64 dotate di tecnologia a 64 bit per ambienti
server-workstation e desktop.
In questo settore il gap con Intel è grande, perchè due anni di vantaggio sono molti.
L’Athlon 64
Come già anticipato, AMD produce da almeno due anni CPU a 64 bit. Attualmente la
produzione è rappresentata dai seguenti modelli:
Athlon 64 – socket 754
Sempron – socket 754
Athlon 64 – socket 939
Athlon 64 FX – socket 939
Opteron
Modelli da 2800+ (1,8 GHz) a 3700+ (2,4 GHz). L1
128KB, L2 512KB. Controller della memoria a singolo
canale da 64 bit integrato nella CPU
Modello 3100+ (1,8 GHz), simile al modello precedente,
ma con solo 256 KB di L2.
Modelli da 3500+ (2,2 GHz) a 4000+ (2,4 GHz). L1
128KB, L2 1MB. Controller della memoria a doppio
canale (64+64 bit) integrato
Modello FX-55 (2,6 GHz) e caratteristiche simili al
precedente modello.
Modelli con model number da 140 (1,4 GHz) a 850 (2,4
GHz). L1 128 KB, L2 1 MB. Possibilità di funzionamento
multi CPU.
Intel Centrino
Centrino non è una CPU, ma un insieme di tecnologie rivolte al mondo dei
PC portatili.
L’architettura Centrino di Intel è stata progettata per equipaggiare i
notebook in modo da fornire a questi spiccate doti di maneggevolezza ed
autonomia. I notebook Centrino sono caratterizzati da: leggerezza, consumi
ridotti, quindi elevata autonomia e connettività facilitata.
Per architettura Centrino si intende un insieme di tre componenti:
v Processore Pentium M
v Chipset i855 nelle versioni con o senza grafica integrata
v Scheda di rete Wi-Fi Intel Pro/Wireless 2100 su slot mini-PCI
Architettura Centrino
Dati tecnici del Centrino
Conosciuto con il nome in codice BANIAS, il core del Pentium M è stato sviluppato in Israele.
Si è lavorato apportando modifiche sostanziali al core del Pentium III ottenendo un
processore estremamente efficiente che allo stesso tempo consuma poco.
La particolarità della nuova architettura evolve su binari opposti rispetto a Pentium4:
la tecnologia di funzionamento delle micro-Ops accorpa le microistruzioni interne prima del
passaggio alle unità di elaborazione, aumentando così l’efficienza per unità di clock. Una
previsione dei salti (branch prediction) ottimizzata è anch’essa di aiuto, ma un ruolo chiave lo
giocano gli accorgimenti impiegati nell’accesso alla memoria cache di II livello, di ben 1
Mbyte.
Con un disegno delle celle ottimizzato per limitare i consumi, il processore è in grado di
attivare solo la riga necessaria alla lettura volta per volta. Una versione migliorata dello
speed-step consente di variare dinamicamente frequenza e tensione di alimentazione (che
risulta compresa fra 0,85V e 1,5V). Attualmente (nov.2003) il PentiunM è disponibile in
volumi con frequenze di clock che vanno da 1,3 fino a 1,7 GHz con passi di 100MHz.
Esistono poi le versioni LV (Low voltage) e ULV (Ultra low voltage) con assorbimento
elettrico ancora inferiori.
Informazioni sul chipset
Il chipset i855 è disponibile in due versioni:
v
PM che è priva della grafica integrata e pertanto dispone di connessione
AGP 4x verso un chip grafico esterno avanzato, tipicamente ATI o Nvidia.
v
GM che dispone di sottosistema grafico integrato Intel Estreme Graphics 2,
che utilizza dinamicamente parte della memoria di sistema per la grafica. Ciò
permette di ridurre i costi finali ed il consumo energetico in cambio di prestazioni
grafiche più modeste.
Il chipset supporta memoria DDR266 fino a 2 GB e la versione i855PM anche la
DDR333. Il SB è l’ ich4-M e mette a disposizione un controllere Eide ATA100 e la
connettività USB2.0. L’interfaccia di rete Ethernet può essere di Intel o di terze
parti, mentre la scheda Wireless è la Intel Pro/Wireless 2100 su bus mini-PCI,
quindi facilmente upgradabile in futuro, che supporta lo standard 802.11b e g.
Modelli Centrino in commercio
Commercializzato in volumi dalla fine del 2003, il nuovo core Dothan, successore di
Banias, è implementato con processo produttivo a 90 nm, tecnologia “strained silicon”
e cache L2 di 2 MB (140 milioni di transistors). Il chipset di riferimento sarà i855GME
con supporto delle DDR333 e DDRII, al serial ATA e a PCI express ed Express-card. Il
prossimo Centrino disporrà anche di un nuovo sottosistema audio integrato
denominato Azalia, che sostituirà il datato AC’97 e supporterà l’audio THX e Dolby
Digital 5.1, 6.1 e 7.1.
Il Pentium M core Dothan viene identificato, come già da tempo fa AMD, con un
model number e precisamente:
Pentium M 725 è la versione a 1,6 GHz
Pentium M 735 è la versione a 1,7 GHz
Pentium M 745 è la versione a 1,8 GHz
Pentium M 755 è la versione a 2,0 GHz
Pentium M 765 è la versione a 2,1 GHz