Полная версия

Главная arrow Информатика arrow Архитектура ЭВМ и вычислительных систем

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

Микроархитектуры процессоров

Микроархитектура (логическая структура) микропроцессора, т. е. конфигурация составляющих микропроцессор логических схем и связей между ними, определяется функциональным назначением. Одни и те же функции можно выполнить в микро-

процессорах со структурой, отличающейся набором, количеством и порядком работы логических блоков. Логические блоки типового микропроцессора с развитой архитектурой показаны на рис. 3.15, а.

а

В (8 бит)

С (8 бит)

D (8 бит)

Е (8 бит)

Н (8 бит)

L (8 бит)

Регистры общего назначения

16 бит

Программный

счетчик

16 бит

Указатель стека

<

о

Р

Z

N

С

Состояние

процессора

8 бит

АЛУ

Аккумулятор А (8 бит)

Регистр

команды

Управление шиной

б

в

г

Рис. 3.15. Общая логическая структура микропроцессора (а); микропроцессор Intel 8080 (б); микропроцессор Z80 фирмы Zilog (в); микропроцессор МС6800

фирмы Motorola (г)

Первые микропроцессоры

Рассмотрим основные характеристики первых микропроцессоров, ассоциированных с первыми ПК (см. рис. 2.5).

МП Intel 8080 был представлен 1 апреля 1974 г. Благодаря использованию технологии л-МОП 6 мкм, на кристалле было размещено 6 тыс. транзисторов. Тактовая частота процессора была доведена до 2 МГц, а длительность цикла команд составила 2 мкс. Объем памяти, адресуемой процессором, — 64 Кбайт. За счет использования 40-выводного корпуса удалось разделить шину адреса (ША) и шину данных (ШД); общее число микросхем, требовавшихся для построения системы в минимальной конфигурации, сократилось до 6 (рис. 3.15, б).

В блок РОН (РФ) были введены указатель стека, активно используемый при обработке прерываний, а также два программно недоступных регистра для внутренних пересылок. Блок РОН был реализован на микросхемах статической памяти. Исключение аккумулятора из РФ и введение его в состав АЛУ упростило схему управления внутренней шиной. Новое в архитектуре МП — использование многоуровневой системы прерываний по вектору. Такое техническое решение позволило довести общее число источников прерываний до 256.

В i8080 появился механизм прямого доступа в память (ПДП, DMA) (как ранее в мэйнфреймах IBM System 360 и др.). ПДП открыл возможность для применения в микроЭВМ таких сложных устройств, как накопителей на магнитных дисках и лентах, дисплеев на ЭЛТ, которые превратили микроЭВМ в полноценную вычислительную систему.

Процессор Z80, разработка фирмы Zilog, помимо расширенной системы команд, одного номинала питания и способности исполнять программы, на-писанные для i8080, имел ряд архитектурных осо-бенностей (рис. 3.15, в).

Регистровая архитектура определяется наличием достаточно большого регистрового файла внутри МП. Команды получают возможность обратиться к операндам, расположенным в одной из двух запоминающих сред: оперативной памяти или регистрах. К любому регистру можно обратиться непосредственно, поскольку регистры представлены в виде массива запоминающих элементов — регистрового файла. Типичным является выполнение арифметических операций только в регистре, при этом команда содержит два операнда (оба операнда в регистре или один операнд в регистре, а второй в оперативной памяти).

©Микропроцессор МС6800 Motorola

MOTOROLA также имел ряд существенных особенностей (рис. 3.15, г). Прежде всего, кристалл МС6800 требовал для работы одного номинала питания, а система команд оказалась весьма прозрачной для программиста. МП содержал два аккумулятора, и результат операции АЛУ мог быть помещен в любой из них. Но самым ценным качеством структуры МС 6800 было автоматическое сохранение в стеке содержимого всех регистров процессора при обработке прерываний (Z80 требовалось для этого несколько команд push). Процедура восстановления РОН из стека тоже выполнялась аппаратно.

Архитектуры процессоров Intel (рис. 3.16, табл. 3.3)

Intel 4004 (1971 г.). Этот прибор послужил отправной точкой абсолютно новому классу полупроводниковых устройств. Чип представлял 4-разрядный процессор с классической архитектурой ЭВМ гарвардского типа, насчитывал 2300 транзисторов и работал на тактовой частоте 750 кГц (длительность цикла команды 10,8 мкс).

Чип имел адресный стек, содержащий счетчик команд и три регистра стека типа LIFO (Last In — First Out — «последним поступил — первым выводится», специальная память с ограниченной емкостью с указанной дисциплиной обслуживания); блок регистров общего назначения — РОН (регистры сверхоперативной памяти или регистровый файл); 4-разрядное параллельное АЛУ; аккумулятор; регистр команд; дешифратор команд; схему управления; схему связи с периферийными устройствами. Эти функциональные узлы объединялись 4-разрядной внутренней шиной данных. Блок РОН состоял из шестнадцати 4-разрядных регистров, которые можно было использовать и как восемь 8-разрядных регистров. Такая организация РОН сохранилась и в последующих МП фирмы Intel. Система команд содержала 46 универсальных инструкций. Цикл команды МП состоял из 8 тактов задающего генератора (так как чип монтировался в корпусе с

Процессоры Intel

Рис. 3.16. Процессоры Intel:

а — i8086; б — i80386; в — i80486; г — Pentium MMX, интерфейс Socket 7; д — Itanium; е — Celeron, упаковка Single Edge Processor Package (SEPP)/Slot 1;

ж — Core 2 Duo (интерфейс LGA775)

16 выводами и имел узкий интерфейс с «внешним миром», то приходилось применять мультиплексирование шины адреса и данных, причем 12-разрядный адрес выдавался порциями по 4 разряда, а прием команды требовал еще двух тактов, на выполнение самой инструкции затрачивалось всего три такта). Адресуемая память команд достигала 4 Кбайт (для сравнения: объем памяти мини-ЭВМ в начале 70-х гг. редко превышал 16 Кбайт).

Недостатки в скором времени были устранены в МП 4040, где количество РОН было доведено до 24, причем они были разделены на две области, выбираемые с помощью специальных команд, т. е. процессор теперь мог обращаться к двум блокам памяти команд емкостью 4 Кбайт, и за каждым из них можно было закрепить свою область регистров (8 РОН были всегда доступны для использования). Можно было разрабатывать самостоятельные программные модули, способные взаимодействовать через общую часть регистрового файла. Но самое главное — это обработка одноуровневых прерываний, что превратило МП в прибор, применяемый в системах реального масштаба времени. «Остановка» создала возможность синхронизации МП с некоторыми внешними событиями. 60 инструкций, 8 Кбайт памяти команд, обработка прерываний стали достоинством этого МП и вывели его на первое место на рынке МП. Тем не менее специальных команд работы со стеком пока не было.

Intel 8008 (1972 г.). Первый 8-разрядный МП. Чип содержал уже 3500 транзисторов, работал на частоте 500 кГц при длительности машинного цикла 20 мкс (10 периодов задающего генератора) и в отличие от предшественников имел архитектуру ЭВМ принстонского типа (компьютер с единой памятью для команд и данных — архитектура Джона фон Неймана). В нем допускалось применение комбинаций постоянной и оперативной памяти. Значительные изменения (кроме увеличения разрядности) произошли и в регистровом файле. Из-за ограниченных возможностей применяемой технологии в качестве блока РОН была применена динамическая память, которая требовала производить регенерацию (были введены дополнительные аппаратные средства). МП большинство команд выполнял за 1—3 машинных цикла. Для работы с медленно действующими устройствами был введен сигнал готовности {ready). Система команд содержала в общем 65 инструкций и отличалась значительным количеством команд условного перехода, логических команд и команд сдвигов. Теперь МП мог адресоваться к памяти объемом 16 Кбайт. Однако объем и организация стека остались прежними, реализация операций со стеком по-прежнему возлагалась на программиста, узкий интерфейс с «внешним миром» требовал применения около 20 схем средней интеграции для сопряжения процессора с памятью и устройствами ввода-вывода.

Intel 8080 (1974 г.). Этот микропроцессор практически по всем параметрам разительно отличался от своих предшественников. Он работал с тактовой частотой 2 МГц, цикл команды — 2 мкс. Адресуемый объем памяти достиг 64 Кбайт, был внедрен эффективный механизм обработки прерываний, в результате использования корпуса с 40 выводами удалось разделить адресную и информационную шины процессора.

МП был окружен целым семейством новых микросхем (БИС контроллера ПДП, контроллера прерываний и др.). В результате этого проектирование микроЭВМ на базе семейства БИС значи-

Тип

процессора

Архитек

тура

Год

выпуска

Кодовое

наимено

вание

Количество транзисторов,

млн

ЯДР5),

ММ

U-кэш,

Кбайт

12-кэш,

Кбайт

Размер минимальной структуры,

мкм

Тактовая

частота шины, МГц

Тактовая

частота

процессора,

МГц

Потребляемая мощность, Вт

Интерфейс

8086

1978

0,029

4.77—8

4.77—8

80286

1982

0,130

3,0

6—20

6—20

80386DX

IA-32

1985

0,27

1,5

16—33

16—33

80486DX

1989

1,2

8

1,0

25—50

25—50

80486DX2

1992

8

0,8

25—40

50—80

80486DX4

1994

16

25—40

75—120

Pentium

P5

1993

Р5

3,1

294

2x8

Внешн.

0,8

60—66

60—66

14—16

Socket 4

1994—1995

Р54

3,3

148

16

Внешн.

0,6

50—66

75—120

8—12

Socket 5.7

1995—1996

Р54С

3,3

83—91

16

Внешн.

0,35

66

133—200

11—15

Socket 7

MMX

1996—1997

Р55С

4,5

140—128

2x16

Внешн.

0,28

66

166—233

13—17

Socket 7

PRO

P6

1995—1997

Р6

5,5

306—195

2x8

  • 256—
  • 1 Мбайт

0,60—0,35

60—66

150—200

37,9

Socket 8

Pentium II

1997

Klamath

7,5

203

2x16

512

0,35

66

233—300

34—43

Slotl

1998

Deschutes

7,5

131—118

2x16

512

0,25

66—100

266—450

18—27

Slotl

Pentium III

P6

1999

Katmai

9,5

123

32

512

0,25

100—133

450—600

28—34

Slotl

1999—2000

Coppermine

28,1

106—90

32

256

0,18

100

650—1,33 ГГц

14—37

Slotl/Socket 370

2001—2002

Tualatin

44,0

95—80

32

256

0,13

133

1,0—1,4 ГГц

27—32

S 370

250 Глава 3. Процессоры: микроархитектуры и программирование

Тип

процессора

Архитек

тура

Год

выпуска

Кодовое

наимено

вание

Количество транзисторов,

млн

Ядро,

ММ

Ll-кэш,

Кбайт

L2-K3UJ,

Кбайт

Размер минимальной структуры,

мкм

Тактовая частота шины, МГц

Тактовая

частота

процессора,

МГц

Потребляемая мощность, Вт

Интерфейс

Pentium М (мобильный)

Р6/

Centrino

2003

Banias,

Dothan

140

100—84

32

1024— 2048

0,13—0,09

400 —533

800—2,26 ГГц

5—27

Socket М

Pentium IV

Netburst

(IA-32e)

2000—2001

Willamette

42,0

217

8+12

256

0,18

400

1,3—2,0 ГГц

48—66

Socket

423/478

2002—2004

Northwood

55,0

146—131

8+12

512

0,13

400—800

1,6—3,4 ГГц

46—82

Socket 478

2004—2005

Prescott

125,0

122

16+12

1024

0,09

533—800

2,66—3,8 ГГц

89—115

Socket

478/LGA775

2005

Prescott 2M

169

135

12+16

2048

0,09

800—1066

2,8—3,73

84—118

LGA775

2005—2006

Cedar Mill

188,0

81

12+16

2048

0,065

800

3,0—3,8

80—86

LGA775

Pentiun IV

Extreme

Edition

Intel

Netburst

Gallatin,

Irwindale

512—1024

0,13—0,09

800—1066

3,2 —3,73 ГГц

Socket 478,

LGA 775

Pentium D (двухъядерные)

2005

Smithfield (2 xPrescott)

230,0

206

12+6x2

2x1,0

Мбайт

0,09

533—800

2,8 —3,2 ГГц

115—130

LGA775

2006

Presler (2 xCedar Mill)

376,0

162

800

2x2,0

Мбайт

0,065

800—1066

3,4 ГГц

95—130

LGA775

Intel

Core/Duo

Intel Core

2006

Yonah

151,0

90

32+32

2 Мбайта общих

0,065

533—667

1,06 —2,33 ГГц

14—49

Socket-M

(PGA/BGA)

3.3. Микроархитектуры процессоров 251

Тип

процессора

Архитек

тура

Год

выпуска

Кодовое

наимено

вание

Количество транзисторов,

млн

Ядро,

ММ

Ll-кэш,

Кбайт

12-кэш,

Кбайт

Размер минимальной структуры,

мкм

Тактовая

частота шины, МГц

Тактовая

частота

процессора,

МГц

Потребляемая мощность, Вт

Интерфейс

Core 2/Duo

Core 2

2006

Conroe

291

143

32 >2

1024 и более

0,065— 0,045

533—1333

1,06—3,2 ГГЦ

5,5—130

LGA 775

2006

Alendale

167

111

32 Я

2—4

Мбайт

0,065

800—1066

1,8—2,66 ГГц

45—65

LGA775

2006

Merom (мобильный)

291,0

143

32 +32

2—4 Мбайта общих

0,065

533— 800

1,06 —2,4 ГГц

5—35

Socket-M

Core 2/ Extreme

2007

Penryn/XE

205 >4

3—6 Мбайт

0,045 (45 нм)

800 МТ/с

1,1—2,8 ГГц

35

Core 2 Quad

2007

Kentsfield

2x291

2x143

4 >32

2 х4096 ЮВ

65 нм

1066 МТ/с

2400—2667

95—105

LGA775

2008

Yorkfield-

4M/6M

2 >410

2x82

4 ><32

  • 2 х2048—
  • 2 Х6144ЮВ

45 нм

1333 МТ/с

2333—3000

95

LGA775

Core 2 Quad Extreme

2006—2007

Kentsfield XE

2x291

2x143

4 ><32

2 х4096 ЮВ

65 нм

1066—1333

МТ/с

2667—3000

130

LGA775

2007—2008

Yorkfield XE

2x410

2x107

4x32

2 х6144 ЮВ

45 нм

1600 МТ/с

3000—3200 МГц

136—150

LGA775

Core i5-2100T

Core iX

2010

Sandy Bridge x2

995

216

64 Кб х2

256 Кб х2

32 нм

5000

2,5 ГГц

35

Socket LGA1156

Core i7-870

2011

Lynnfield x4

731

263

64 Кб х4

256 Кб х4

45 нм

2500

2,93 ГГц/ до 3,6 ГГц (Turbo Boost)

95

LGA1156

252 Глава 3. Процессоры: микроархитектуры и программирование

Тип

процессора

Архитек

тура

Год

выпуска

Кодовое

наимено

вание

Количество транзисторов, млн

Ядро,

ММ

Ll-кэш,

Кбайт

12-кэш,

Кбайт

Размер минимальной структуры,

мкм

Тактовая

частота шины, МГц

Тактовая

частота

процессора,

МГц

Потребляемая мощность, Вт

Интерфейс

Z500-Z540

Атом

2008

Silverthorne

47

25

32 + 24

512

0,045 (45 нм)

400 МТ/с

0,8—1,866 ГГц

0,65—2,4

441-ball//FCBGA

N270-N230

2008

Diamondville

47

25

32 + 24

512

0,045 (45 нм)

533 МТ/с

1,6 ГГц

2,5-4,0

441 -ball //FCBGA

Xeon

P5, Рб, Netburst

1998

Ядро Pentium II

См. Pentium II

512—1,0

Мбайт

0,18

100

400

Slot2

Xeon

Р5, Р6, Netburst

1999—2000

Tanner

См. Pentium III

512—2,0

Мбайт

0,13

100—133

500—733

Slot2

2001

Foster

См. Pentium IV

512—1,0

Мбайт

0,09—0,65

1,4-1,7 ГГц

Socket 603/604

Celeron

Р5, Рб, Netburst

1998

Covington

7,5

131

32

Нет

0,25

66

266—300

16—18

Slot 1

1998—2000

Mendocino

19,0

154

32

128

0,25

66

300—533

19—26

Socket 370/

Slot 1

Celeron

Р5, Рб, Netburst

2000

Coppermine

28,1

105/90

32

128

0,18

100

533—1,1 ГГц

11—33

Socket-370

2002

Willamette

42,0

217

8

128

0,18

400

1,7—1,8 ГГц

63—66

S 478

2002—2004

Nordwood

55,0

131

8

128

0,13

400

2,0—2,8 ГГц

59—68

S 478

Celeron D

Netburst

2004—2006

Prescott

140,0

120

16

256

0,09

533

2,133—3,33 ГГц

73—84

S 478/LGA775

2004/2006

Cedar Mill

188,0

81

16

512

0,065

533

3,33 ГГц

86

LGA775

Itanium

IA-64

1999

Merced/

Itanic

30,0—220

2—4 Мбайт L3

0,18

733—800

800—1,0 ГГц

PAC418

Itanium 2

2003

Madison

410,0

6,0 Мбайт L3

0,13

1,5 ГГц

PAC611

Itanium

(двухъядер

ный)

2006

Montecito

1720,0

596

  • 16+16 Кбайт L1
  • 1 Мбайт+256 Кбайт L2 24 Мбайт L3

0,09

533—400

1,4—1,6 ГГц

75—104

PAC611

3.3. Микроархитектуры процессоров 253

тельно упростилось. МП стал стандартом де-факто, но были и недостатки (например, уже имелись МП других фирм, которые оказались более прозрачными для программистов). Далее была выпущена серия периферийных контроллеров. Но самое значительное достижение состояло в том, что компания создала системное программное обеспечение (ПО) — однопользовательскую операционную систему (ОС) ISIS II и ОС реального времени iRMX-80 (мощнейшая в то время программная поддержка своих изделий). Фирма в 1976 г. приступила к выпуску одноплатных микроЭВМ серии iSBC на базе своих МП-комплектов.

Intel 8086 (объявлен 8 июня 1978 г.) — первое поколение. МП содержал 29 тыс. транзисторов (рис. 3.16). Высокое быстродействие элементов обеспечило тактовую частоту 5 МГц, а 16-разряд-ная архитектура и машинный цикл 200 нс — производительность, превышающую аналогичный параметр 8080 на порядок. Именно стратегия эволюционного, а не революционного развития, выбранная фирмой Intel была верна и давала свои плоды. Программная совместимость была исключительно важной характеристикой, которая объединяла 86-й кристалл с его предшественниками. Структура МП была полностью перестроена, он как бы был разделен на два одновременно работающих функциональных блока. Это операционный блок (EU — Execution Unit) и блок интерфейса (BIO — Bus Interface Unit). В результате исполнение одной команды совмещалось во времени с выборкой следующей команды или данных из памяти. Таким образом, из универсальных ЭВМ МП позаимствовали еще одно техническое решение — реализацию принципов параллелизма. В ЦП появился небольшой буфер команд, что давало дополнительную экономию времени при обращениях к памяти.

Адресация 1 Мбайт оперативной памяти (благодаря 20 адресным линиям) и ее сегментация могут быть отнесены к одним из наиболее существенных достижений. Сегментация памяти и большое число уровней прерываний были ориентированы на работу системы в многозадачном режиме. Однако механизм защиты памяти пока реализован не был, и это в ряде случаев существенно усложняло разработку программного обеспечения.

Наряду с поддержкой ввода-вывода по каналу ПДП дополнительно обеспечивалась адресация до 64 К портов программно-управляемого ввода-вывода.

МП 8086 мог работать в двух режимах: минимальном (рассчитанном на использование в небольших системах без применения БИС контроллера шины) и максимальном (ориентированном на применение МП в сложных системах с использованием БИС контроллера шины). В систему команд входило 147 инструкций, позволяющих решать задачи управления практически любой сложности. Появились операции умножения и деления 16-разрядных чисел со знаком и без знака, команды обработки массивов данных, программно-управляемые прерывания и др., что превратило чип в универсальный прибор, который мог успешно применяться как для построения сложных контроллеров, так и в качестве ЦП ЭВМ общего назначения. Кроме того, МП вышел в мощном сопровождении средств поддержки (вспомогательных БИС, средств разработки и отладки аппаратуры и системного ПО и т. д.).

Наряду с этим фирмой Intel был выпущен процессор 8088 с 8-разрядной внешней шиной данных. Из-за применения экономичных 8-разрядных микросхем появился ПК с МП 8088 (фирма IBM, ПК класса XT — Extended Technology — расширенная технология, тактовая частота 4,77 МГц). На базе 8086 были выпущены младшие модели 25 и 30 семейства PS/2.

Процессор i8088 также относится в настоящее время к процессорам первого поколения.

Использование чипов 8086 в IBM PC предопределило дальнейшее развитие корпорации Intel как разработчика и изготовителя универсальных процессоров общего назначения. Был изготовлен 16-разрядный арифметический сопроцессор 8087, который позволил превратить ПК еще и в достаточно мощный инструмент для решения задач вычислительного характера.

Intel 80286 (1 февраля 1982 г.)второе поколение. В этом процессоре было введено большое количество новшеств. В 1984 г. фирма IBM использовала этот МП в PC АТ (АТ — Advanced Technology — улучшенная технология). Вот основные новшества этого чипа:

  • • адресное пространство составляло 16 Мбайт (вместо 1 Мбайт у предшественников), так как использовалась 24-разрядная шина адресов;
  • • поддержка виртуальной памяти (это позволяло использовать внешнюю память для имитации большой реальной внутренней памяти емкостью до 1 Гбайт);
  • • аппаратная мультизадачность (эта архитектурная новинка позволяла в ПК одновременно выполнять несколько задач с большой скоростью переключения с одной на другую);
  • • повышенное быстродействие (4 МГц, однако вскоре рабочая частота была повышена до 8 МГц и стала стандартной, хотя производители клонов эту частоту довели до 10; 12,5; 16 и 20 МГц);
  • • встроенная система управления памятью и средства ее защиты (открывали широкие возможности использования МП в многозадачных средах);
  • • дополнение системы команд 16 новыми инструкциями;
  • • размещение в одном кристалле контроллеров прерываний и ПДП, а также таймера и системного генератора.

МП мог работать в двух режимах — реальном (МП действовал как 8086, что обеспечивало совместимость с DOS и существующим ПО) и защищенном (в этом режиме МП реализовывал режим виртуальной памяти, аппаратную мультизадачность и адресацию к большему пространству памяти).

Операционная система MS DOS может работать только в реальном режиме. Другие операционные системы, например, OS/2 (предложенная фирмой IBM — альтернатива DOS) и UNIX (XENIX и AIX), могут использовать защищенный режим и, следовательно, расширенные возможности 80286. Многие новшества, введенные в этот чип, впоследствии переходили от поколения к поколению МП фирмы Intel. Имелись и определенные нерешенные проблемы, связанные с многозадачностью, повышением производительности, совершенствованием тракта процессор—память и устройства управления памятью (для эффективного функционирования ПК под управлением многозадачных ОС).

Архитектура IA-32. Intel 80386 (17 октября 1985 г.)третье поколение. Архитектура IA-32 (иногда называемая х86-32) является архитектурой 32-битовой системы команд семейства микропроцессоров Intel (предыдущая архитектура была 16-битовой) и появляется с Intel80386SX.

Данный МП был процессором для ЭВМ общего назначения. Размещение на кристалле 275 тыс. транзисторов дало возможность полностью реализовать 32-разрядную архитектуру.

Главные особенности:

  • • обеспечивает 32-разрядный ввод-вывод, 32-битовую адресацию основной памяти (адресуемая реальная память — до 4 Гбайт, т. е. 232 = 4 294 967 296 байт) и емкостью до 64 Тбайт (64 х 240 байт) виртуальной памяти;
  • • рабочая тактовая частота равнялась 33 МГц;
  • • в МП были встроены система управления памятью и защиты (регистры преобразования адреса, механизмы защиты оперативной памяти, улучшенные аппаратные средства поддержки многозадачных ОС), средства работы с виртуальной памятью со страничной организацией памяти (в устройство менеджера памяти — MMU (memory management unit) помимо блока сегментации — SU (segmentation unit) был включен блок управления страницами — PU (Paging Unit), благодаря этому относительно просто реализовывались процессы свопинга (перестановка сегментов из одного места памяти в другое).

Предварительная выборка команд, буфер для команд (внутренняя кэш-память) 16 байт, конвейер команд и механизмы выполнения функций преобразования адреса значительно уменьшили среднее время выполнения команды (3—4 млн команд в секунду, что в 6—8 раз превышало аналогичный показатель 8086). Как и раньше, новый чип был совместим со своими предшественниками на уровне объектных кодов.

Наиболее существенной особенностью 80386 было использование кэш-памяти, значительно повышающей производительность системы (еще один атрибут универсальных ЭВМ, который начал применяться в МП-системах). Для управления этой памятью был разработан специальный контроллер, с помощью которого формировался двухходовый множественный ассоциативный кэш (обеспечивал буфер емкостью до 32 Кбайт и высокий коэффициент удачных обращений). Но математический сопроцессор был еще автономным на отдельном кристалле (80387).

Реализованы три режима работы 80386: реальный, защищенный и виртуальный МП 8086. Процессор 80386 как бы включает в себя три разных процессора.

В рабочем режиме — Real Mode (реальный режим — стартовый) — он ведет себя как 8086, т. е. тот же 8086 с расширенным набором команд и имеющий доступ к первому Мбайту памяти (при этом возможности 80386 используются не полностью, но на ней могут выполняться все программы, написанные для 8086/8088 и причем значительно быстрее).

Защищенный режим (Protected Mode) 80386 соответствует аналогичному режиму 80286, имеет доступ к 16 Мбайт памяти и расширенному набору команд, а также имеет возможность использовать систему мультипрограммирования (в основном могут выполняться несколько прикладных программ, чаще работаю-

щих в среде Windows и поддерживающих защищенный режим). Если заменить ОС на OS/2 (разработка специально для защищенного режима), то появится возможность полностью использовать функциональные возможности этого режима.

Последний, третий режим 80386 — Virtual Real Mode. В этом режиме он одновременно заменяет некоторое количество параллельно работающих 8086/8088, т. е. одновременно могут быть задействованы несколько программ, которые выполняются соответствующими процессорами 8086/8088. Здесь нет ограничения 1 Мбайт на память. Ядром многозадачности является основная программа, переключающая процессор в виртуальный режим и контролирующая текущие процессы выполнения различных программ (например, система Windows).

80386 внутренне одновременно оперирует 32 битами и имеет внешний 32-битовый интерфейс, но к тому времени большинство устройств и микросхем были 16-битовыми и не могли использовать эту возможность МП. Intel повторила опыт МП 8088 (8086 — 16 бит внутренние и внешние, а 8088 — 16 бит внутренние и 8 бит внешние) и создала 80386 с 16-битовым интерфейсом (он получил название 80386 SX), который оказался меньше и дешевле. Полноразрядный 80386 получил название 80386 DX.

Intel 80486 (10 апреля 1989 г.)четвертое поколение. Здесь в результате повышения степени интеграции в 1,2 млн транзисторов открылась возможность реализовать на одном кристалле не только кэш-память, но и математический сопроцессор. Для кэш-памяти использовался более эффективный четырехвходовый статический буфер, который, будучи размещенным в чипе, мог работать на тактовой частоте МП (намного быстрее, чем ОП). Здесь применялся «групповой режим» — самый скоростной режим доступа к шине, обеспечивающий быстрое заполнение кэш-памяти МП. Интегрированное в чип МП 8 Кбайт кэшпамяти, управляемой через контроллер, называется внутренней (Internal Cache), т. е. Level 1 (L1). Имеется также внешняя кэш-память (External Cache), т. е. Level 2 (L2). 80 % команд могут выполняться за один такт (применяется конвейерная обработка). Этот прибор так же, как и предыдущие МП, функционировал в трех режимах и был ориентирован на многозадачные среды. Производительность в задачах вычислительного характера возросла в 3—4 раза (за счет интеграции МП и сопроцессора).

В зависимости от режима 80486 работает с различной частотой.

Intel 80486 DX, основное отличие — отсутствие внутреннего математического сопроцессора, рабочие частоты — 25 и 33 МГц.

Intel 80486 DX2 (март 1992 г.) — усовершенствованный вариант 80486 DX (он на внешнем уровне представляет собой МП с тактовой частотой 25 или 33 МГц, который, однако, на внутреннем уровне работает с тактовой частотой 50 или, соответственно, 66 МГц). Тогда команды, которые не используют передачу данных на внешнюю шину, выполняются почти в 2 раза быстрее (это на практике означает повышение эффективности от 50 до 95 %). Эти МП обеспечили новую технологию, при которой скорость работы внутренних блоков МП в 2 раза выше скорости остальной части системы (появилась возможность объединения высокой производительности МП с внутренней тактовой частотой 50 (66) МГц и эффективной по стоимости системой на 25/33 МГц).

Intel 80486 DX4 (март 1994 г.). Процессор 486DX с внутренним утроением частоты совместим с 486DX, кэш объемом 16 Кб, 1,6 млн транзисторов, технология 0,6 мкм, 75 МГц, 53 млн операций в секунду, 100 МГц, 70 млн операций в секунду.

Микроархитектура Р5. Представленный в 1993 г., ЦП Pentium (рис. 3.17) был преемником линий 486 Intel и позиционировался как процессор пятого поколения.

Основные компоненты процессора Pentium

Рис. 3.17. Основные компоненты процессора Pentium

Первый Pentium имел внутреннее кодовое наименование Р5, использовал конвейеризацию (суперскаляризацию) и производился с использованием процесса 0,8 мкм. Затем появились ЦП Р54, производившиеся по технологии 0,6 мкм и имевшие внутреннюю тактовую частоту, отличную от частоты первичной системной шины (FSB) (оказалось намного более трудным увеличить частоту шины, чем процессора). В дальнейшем вышли ЦП Р54С, где использовался технологический процесс 0,35 мкм — чистый процесс CMOS, в отличие от «биполярного процесса» CMOS, который применялся в более ранних Pentium.

Основные архитектурные отличия, которые привели к существенному повышению эффективности Pentium по сравнению с ЦП 486, состояли в следующем:

  • • суперскалярная архитектура — Pentium имел два конвейера: первый («U-конвейер») мог обрабатывать любые команды, в то время как второй («V-конвейер») — только простые команды. Использование более чем одного конвейера характерно для RISC-процессоров, и это стало началом применения Intel RISC-методов на семействе процессоров Pentium;
  • • шина данных на 64 бита — каждое обращение к памяти позволяло получать вдвое большее количество информации, чем это было в предыдущих чипах.

Следующий процессор Р55С Pentium MMX базировался на ядре Р5 и процессе изготовления 0,35 мкм. Здесь также был удвоен размер до 32 Кбайт и расширен набор команд, чтобы оптимизировать обработку мультимедиа-данных.

Микроархитектура Р6. Р6 — шестое поколение х86 архитектуры процессора Intel, первоначально осуществленной в дизайне Pentium Pro (рис. 3.18), представленного в 1995 г. в качестве преемника исходного Pentium Р5.

Pentium Pro (1 ноября 1995 г.) имеет три конвейера, каждый из которых включает 14 ступеней. Для постоянной загрузки имеется высокоэффективный четырехвходовый кэш команд и высококачественная система предсказания ветвлений на 512 входов. Дополнительно для повышения производительности была применена буферная память (кэш) второго уровня емкостью 256 Кбайт, расположенная в отдельном чипе и смонтированная в корпусе ЦП. В результате стала возможной эффективная разгрузка пяти исполнительных устройств: два блока целочисленной арифметики; блок чтения (load); блок записи (store);

3?

I?

° і

о: Q) X

X

X

с;

о

с

-?

ш

аз

со

о

S

О

с

X о

* X О- X

о о ю ш

со

ьс

о

с;

і—

о

CD

н

о

о

L? СО

Процессор Pentium Pro

Рис. 3.18. Процессор Pentium Pro

FPU (Floating-Point Unit — устройство арифметических операций с плавающей точкой).

Pentium Р55 (Pentium MMX), 8 января 1997 г. Pentium MMX — версия Pentium с дополнительными возможностями. Технология ММХ должна была добавить/расширить мультимедийные возможности компьютеров. ММХ объявлен в январе 1997 г., тактовая частота 166 и 200 МГц, в июне того же года появилась версия 233 МГц. Технологический процесс 0,35 мкм, 4,5 млн транзисторов.

Pentium II (7 мая 1997 г.). Процессор представляет собой модификацию Pentium Pro с поддержкой возможностей ММХ. Была изменена конструкция корпуса — кремниевую пластину с контактами заменили на картридж, увеличена частота шины и тактовая частота, расширены MMX-команды. Первые модели (233—300 МГц), производились по технологии 0,35 мкм, следующие — по 0,25 мкм. Модели с частотой 333 МГц выпущены в январе 1998 г. и содержали 7,5 млн транзисторов. В апреле того же года появились версии 350 и 400 МГц, а в августе — 450 МГц. Все Р2 имеют кэш второго уровня объемом 512 Кбайт. Есть также модель для ноутбуков — Pentium II РЕ, и для рабочих станций — Pentium II Xeon 450 МГц.

Pentium III (26 февраля 1999 г.). РЗ — один из самых мощных и производительных процессоров Intel, но в своей конструкции он мало чем отличается от Р2, увеличена частота и добавлено около 70 новых команд (SSE). Первые модели объявлены в феврале 1999 г., тактовые частоты — 450, 500, 550 и 600 МГц. Частота системной шины 100 МГц, 512 Кбайт кэша второго уровня, технологический процесс 0,25 мкм, 9,5 млн транзисторов. В октябре 1999 г. также выпущена версия для мобильных компьютеров, выполненная по 0,18-мкм технологии с частотами 400, 450, 500, 550, 600, 650, 700 и 733 МГц. Для рабочих станций и серверов существует РЗ Xeon, ориентированный на системную логику GX с объемом кэша второго уровня 512 Кбайт, 1 Мбайт или 2 Мбайт.

Pentium М (здесь «М» означает «мобильный», mobile) — последний процессор микроархитектуры Intel Р6. Это 32-разрядные одноядерные процессоры с системой команд х86, вышедшие в марте 2003 г. и входящие в платформу Intel Centrino. Максимальное энергопотребление Pentium М находится на уровне 3—25 Вт, и процессоры предназначаются для мобильных ПК. Особенности архитектуры:

  • • видоизмененное ядро Pentium III (конкретно — Pentium III Tualatin);
  • • используется интерфейс с шиной, разработанный для Pentium IV;
  • • усовершенствованный декодер команд и блок предсказания переходов;
  • • поддержка SSE2;
  • • больший объем кэш-памяти;
  • • технология энергосбережения SpeedStep 3 (предусматривающая большее число стадий «сна», чем предшествующие версии). Например, Pentium М (1,6 ГГц) в зависимости от загрузки переключается на частоты 600, 800, 1000, 1200, 1400 и 1600 МГц, при этом энергопотребление может изменяться от 5 до 27 Вт.

В a ni as. Поскольку линия процессоров «М» была первоначально разработана Центром Исследований и Разработок Intel (Intel's Research & Development Center) в Израиле, первый Pentium М получил кодовое имя «Banias» (античное наименование Голанских Высот), а в дальнейшем именовался Pentium М 705. Процессор изготовлялся по технологии 130 нм, рассчитан на частоты от 1,3 до 1,7 ГГц, использовал FSB на 400 MT/s, и имел L1 -кэш размера 1 Miss. Средняя энергоемкость ядра (Thermal Design Power — TDP) составляла 24,5 Вт.

Dothan. Усовершенствованная версия Pentium М (известная как Dothan, по названию другого античного израильского поселения) была выпущена в мае 2004 г. Pentium М был один из первых процессоров Intel, которым были присвоены «номера процессоров» («processor number», см. рис. 3.39) вместо частотного рейтинга, и основные образцы изделия известны как Pentium М 710 (1,4 ГГц), 715(1,5 ГГц), 725 (1,6 ГГц), 735 (1,7 ГГц), 745 (1,8 ГГц), 755 (2,0 ГГц) и 765 (2,1 ГГц). Процессор не поддерживал ни возможностей hyperthreading, ни набор команд SSE3.

Эта серия процессоров Pentium М была выпущена на основе технологии 90 нм, с удвоенным размером вторичного кэша. Размер кристалла, на котором размещалось 140 млн транзисторов (в основном используемых для реализации массивной кэш-па-мяти на 2 Miss), составлял 84 мм2. Энергопотребление снизилось до 21 Вт. Тесты, выполненные независимыми исследователями, показали, что Dothan превышает Banias по эффективности примерно на 10—20 % в большинстве ситуаций.

В 2005 г. был выпущен переработанный Dothan, предназначенный для чипсета Sonoma, поддерживающий FSB на 533 MT/s и опцию XD (версия Intel для!ХХ bit). Это были изделия с номерами 730 (1,6 ГГц), 740 (1,73 ГГц), 750 (1,86 ГГц), 760 (2,0 ГГц) 770 (2,13 ГГц) и 780 (2,26 ГГц), которые имели энергопотребление 27 Вт и кэш L2 на 2 Miss.

Частота процессоров к июлю 2005 г. достигла диапазона от 1,0 до 2,26 ГГц. Модели 718 (1,3 ГГц), 738 (1,4 ГГц), 758 (1,5 ГГц), 778 (1,60 ГГц) являются низковольтными (1,116 В) с тепловыделением 10 Вт, тогда как 723 (1,0 ГГц), 733 (1,1 ГГц) и 753 (1,2 ГГц) -ультранизковольтные (0,940 В), тепловыделение — 5 % Вт.

Несмотря на то что Intel позиционировала Pentium М исключительно как мобильный продукт, производители системных плат, такие как AOpen, DFI и MSI, начали поставлять изделия, совместимые с Pentium М, ориентируясь на рабочие станции, серверы и энтузиастов-пользователей. ASUS даже выпустила адаптер (СТ-479), позволяющий устанавливать Pentium М на некоторые системные платы ASUS, спроектированные для Pentium IV (Socket 478). Фирма Shuttle Inc. предлагает настольные ПК на Pentium М, характеризующиеся как малошумные изделия с низким энергопотреблением.

Архитектура Р6 продержалась три поколения — от Pentium Pro до Pentium III — и характеризовалась малым энергопотреблением, хорошей общей производительностью и относительно высоким отношением «число команд/число циклов» (instructions per cycle — I PC).

Архитектура IA-64. Данная архитектура была объявлена Intel в мае 1999 г. Типичным представителем архитектуры является ЦП Itanium. Процессоры IA-64 располагают мощными вычислительными ресурсами, включая 128 регистров для ФЗ, 128 регистров ПЗ и 64 регистра предикации наряду с множеством регистров специального назначения (рис. 3.19). Команды должны группироваться для параллельного выполнения различными функциональными модулями. Набор команды оптимизирован, чтобы обеспечить вычислительные потребности криптографии, видеокодирования и других функций, которые все более необходимы следующим поколениям серверов и рабочих станций. В процессорах IA-64 также поддерживаются и развиваются ММХ-техно-логии и SIMD-расширения.

А

V

PC

Выборка

Предсказание

команд

переходов

- >s 'Г' TO ТО

T CD

Sо о>

.0 Ф I О _о со

ТО ??

? 3

ТО О ? * CD ^

CsT О _1 О-

се о

il

  • 3 то то VO
  • * Tf CD

FSB данных (21x33 MHz)

Ad dr.

Контроль системной шины и 1_3-кэша

Л Кэш команд И, 4-канальный, 32 байта на строку кэша, всего 16 Кбайт

V

256

256 г

- 64 регистра предикации

128 регистров сФЗ

128 регистров с ПЗ

Стек регистров

І і

-Л Кэш данных 1.1, 4-канальный, 32 байта ^ на строку кэша, всего 16 Кбайт

ALAT

і

BSB

от/к кэш L3

Процессор Itanium

Рис. 3.19. Процессор Itanium

Архитектура IA-64 не является ни 64-битовой версией архитектуры Intel IA-32, ни адаптацией предложенной Hewlett-Packard архитектуры PA-RISC на 64 бита, а представляет собой полностью оригинальную разработку (табл. 3.4). IA-64 — это компромисс между CISC и RISC, попытка сделать их совместимыми (существуют два режима декодирования команд — VLIW и CISC, и ЦП автоматически переключается в необходимый режим исполнения).

Таблица 3.4. Основные различия архитектур IA-32 и IA-64

Характеристики

Архитектура х86

Архитектура 1А-64

Использование сложных команд переменной длины, обрабатываемых по одной

Использование простых команд одинаковой длины, сгруппированных по 3

Переупорядочивание и оптимизация команд в процессе исполнения

Переупорядочивание и оптимизация в процессе компиляции

Попытки предсказания переходов (ветвлений)

Выполнение нескольких последовательностей команд одновременно без предсказания ветвлений

Считывание данных из памяти (загрузка) по мере необходимости, в первую очередь проверяя кэш

Загрузка данных прежде, чем они потребуются

Основные инновационные технологии IA-64 — длинные слова команд (long instruction words — LIW), предикаты команд (instruction predication), устранение ветвлений (branch elimination), предварительное чтение данных (speculative loading) и другие ухищрения для того, чтобы «извлечь больше параллелизма» из кода программ.

Основная проблема архитектуры IA-64 заключается в отсутствии встроенной совместимости с х86 кодом, что не позволяет процессорам IA-64 эффективно работать с программным обеспечением, разработанным за последние 20—30 лет. Intel оборудует свои процессоры IA-64 (Itanium, Itanium 2 и т. д.) декодером, который преобразует инструкции х86 в команды IA-64. Декодер не является самым эффективным как по способу реализации, так и по принципу построения, ведь аппаратная поддержка инструкций х86 работает значительно быстрее. Поэтому

<-

Itanium и Itanium 2 характеризуются низкой производительностью в приложениях х86.

Мо п tec i to — кодовое наименование двухъядерных процессоров Intel Itanium 2, которые впервые были выпущены 18 июля 2006 г. под официальным наименованием «Dual-Core Intel Itanium 2 processor». По данным Intel, ЦП Montecito позволяет удвоить производительность по сравнению с предшествующим одноядерным Itanium 2 при снижении энергопотребления на 20 %.

Особенности архитектуры (рис. 3.20):

  • • два ядра на кристалл;
  • • многопоточность (multi-threading) до 2 потоков на ядро, 4 потоков на кристалл;
  • • для каждого ядра выделяется Ll-кэш по 16 Кбайт для программ и данных;
  • • для каждого ядра кэш L2 размером 1 Мбайт для команд и 256 Кбайт для данных;
  • • кэш L3 по 12 Мбайт на каждое ядро;
  • 22,72 мм

Pipeline Control

ю

CN

Technology: 90nm bulk, 7 layers Cu •1.72B transistors •596mm2

  • •2.(KGHz operaffan at self-selected voltage •100W electrical and thermal power limit •Two 11 issue, 2 way TMT EPIC cores
  • •3 level on-chip cache per core - 16K L1I. 16K L1D, 1MB L2I, 256K L2D, 12MB unified L3

qsng

эцэвоап

Foxton

Power

man«Q*mwt

  • 12MB 12 , Cache
  • 4ay>eQ

iftedqBQ jafe|L| I QQ“|

Рис. 3.20. Двухъядерный процессор «Dual-Core Intel Itanium 2 processor»

  • (Montecito)
  • • 1,72 млрд транзисторов, в том числе:
    • — схемы логики ядра — 57 млн, по 28,5 млн на ядро;
    • — кэши ядер — по 106,5 млн;
    • — кэш L3 (24 Мбайта) — 1550 млн;
    • — схемы шин и ввода-вывода — 6,7 млн транзисторов;
  • • размер кристалла — 27,72 х 21,5 мм, или 596 мм2.
  • • технологический процесс 90 нм;
  • • более низкое энергопотребление и тепловыделение по сравнению с более ранними ЦП Itanium, несмотря на большее число транзисторов и тактовую частоту (75—104 Вт). Это достигается в основном за счет использования различных типов транзисторов — при низкой нагрузке используются более медленные и слаботочные приборы, а с повышением нагрузки подключаются более мощные и сильноточные транзисторы;
  • • управление энергопотреблением Demand Base Switching — технология, поддерживаемая совместно с ОС;
  • • улучшенная компенсация ошибок в кэш-памяти (кодовое наименование — Pellston technology, официальное — Cache Safe Technology);
  • • технология виртуализации, поддерживающая работу нескольких копий ОС одновременно (кодовое наименование Silvervale technology, официальное — Intel Virtualization Technology);
  • • улучшенная полоса пропускания первичной шины (FSB), утроенная по сравнению с предшествующими образцами (до 21 Гбайт/с).

NetBurst. Это название Intel дала новой архитектуре, которая последовала за микроархитектурой Р6. Концепция NetBurst должна была улучшить производительность, повысить эффективность выполнения команд вне естественного порядка и позволить создать процессор, который может достигнуть намного более высоких частот и более высокой производительности относительно микроархитектур Р5 и Р6, при обеспечении обратной совместимости (рис. 3.21, а также см. рис 3.2, б).

Первый представитель архитектуры NetBurst — ЦП 7-го поколения Pentium IV (ядро Willamette, конец 2000 г. — рис. 3.22) — являлся самым большим шагом развития к архитектуре IA-32. Одно из самых важных изменений — внутренний конвейер процессора (гиперконвейер или Hyper Pipeline), включающий 20 стадий против 10 для микроархитектуры Р6 и способствующий ра-

Микроархитектура Netburst

Рис. 3.21. Микроархитектура Netburst

боте процессора на значительно более высоких частотах, чем у его предшественников.

Микроархитектура Net Burst предусматривает только один декодер (в противоположность трем для Р6), а блок выполнения команд вне естественной последовательности включает кэш-па-мять декодированных команд (execution trace cache — ЕТС), которая хранит расшифрованные микрооперации.

Pentium IV заранее превращает х86-инструкции в микрооперации, которые записываются в Trace Cache. Имеются также несколько буферов, используемых, чтобы демпфировать поток микроопераций. Способность ядра выполнять инструкции не в порядке поступления остается ключевым фактором в обеспечении возможности параллелизма (см. также рис. 3.2).

Pentium IV Prescott (февраль 2004 г.). В начале февраля 2004 г. Intel анонсировала четыре новых процессора Pentium IV (2,8; 3,0; 3,2 и 3,4 ГГц), основанных на ядре Prescott, которое включает ряд нововведений. Вместе с выпуском четырех новых процессоров Intel представила процессор Pentium IV 3.4 ЕЕ (Extreme Edition), основанный на ядре Northwood и имеющий 2 Мбайт кэш-памяти третьего уровня, а также упрощенную версию Pentium IV 2.8 А, основанную на ядре Prescott с ограниченной частотой шины (533 МГц).

Prescott выполнен по технологии 90 нм, что позволило уменьшить площадь кристалла, причем число транзисторов было увеличено более чем в 2 раза. В то время как ядро Northwood имеет площадь 145 мм2 и на нем размещено 55 млн транзисторов (рис. 3.22, б), ядро Prescott имеет площадь 122 мм2 и содержит 125 млн транзисторов (рис. 3.22, в).

Ядра процессоров Pentium IV

Рис. 3.22. Ядра процессоров Pentium IV:

а — Willamette, 0,18 мкм; б — NorthOwood, 0,13 мкм; в — Prescott, 0,09 мкм;

г — Smithfield (2 х Prescott 1М)

Перечислим некоторые отличительные особенности процессора:

  • • новые SSE-команды. Intel представила в Prescott новую технологию SSE3, которая включает 13 новых потоковых команд, которые увеличат производительность некоторых операций как только программы начнут их использовать. SSE3 является не просто расширением SSE2, так как добавляет новые команды, но и позволяет облегчить и автоматизировать процесс оптимизации готовых приложений средствами компилятора. Другими словами, разработчику программного обеспечения не надо будет переписывать код программы, необходимо будет только перекомпилировать ее;
  • • увеличенный объем кэш-памяти. Одним из важнейших с точки зрения производительности дополнений можно считать увеличенный до 1 Мбайт кэш второго уровня. Объем кэш-памяти первого уровня также был увеличен до 16 Кбайт;
  • • улучшенная предвыборка данных. Ядро Prescott имеет улучшенный механизм предвыборки данных;
  • • улучшенный Hyperthreading. В новую версию включено множество новых особенностей, способных оптимизировать многопоточное выполнение различных операций. Единственный недостаток новой версии заключается в необходимости перекомпиляции программного обеспечения и обновления операционной системы;
  • • увеличенная длина конвейера. Для увеличения рабочей частоты будущих процессоров ядро Prescott имеет увеличенную с 20 до 31 ступени длину конвейера. Увеличение длины конвейера негативно сказывается на производительности в случае неправильного предсказания ветвлений. Для компенсации увеличения длины конвейера была улучшена технология предсказания ветвлений.

Cedar Mill. «Последним из могикан» модельного ряда Pentium IV был ЦП Cedar Mill, выпущенный в начале 2006 г. и представлявший собой прямую переделку ядра серии 600 на технологию 65 нм, без какого-либо качественного развития.

Выпуск ядра Prescott, для которого Intel использовала технологический процесс 90 нм, вскрыл ряд труднопреодолимых проблем. Первоначально NetBurst была объявлена специалистами Intel как архитектура с существенным запасом производительности, который со временем можно будет реализовать посредством постепенного наращивания тактовой частоты. Однако на практике оказалось, что увеличение тактовой частоты процессора влечет за собой неприемлемое возрастание тепловыделения и энергопотребления. Причем, происходящее параллельно развитие технологии производства полупроводниковых транзисторов не позволяло эффективно бороться с ростом электрических и тепловых характеристик.

В результате третье поколение процессоров с архитектурой NetBurst (Prescott) осталось в истории процессоров как одно из самых «горячих» (процессоры, построенные на этом ядре, могли потреблять и, соответственно, выделять до 160 Вт, получив прозвище «кофеварки», «coffee heater») при том, что их тактовая частота не поднялась выше 3,8 ГГц. Высокие тепловыделение и энергопотребление вызвали множество смежных проблем. Процессоры Prescott требовали использования специальных материнских плат с усиленным стабилизатором напряжения и особых систем охлаждения.

Проблемы с высокими тепловыделением и энергопотреблением были бы не столь заметны, если бы не то обстоятельство, что при всем при этом процессоры Prescott не смогли продемонстрировать высокой производительности, благодаря которой можно было бы закрыть глаза на упомянутые недостатки. Заданный конкурирующими процессорами AMD Athlon 64 уровень быстродействия оказался для Prescott практически недостижимым, в результате этого данные ЦП стали восприниматься как провал Intel.

Поэтому не вызвало особого удивления, когда оказалось, что преемник NetBurst будет основываться на принципе эффективного энергопотребления, принятом в мобильной микроархитектуре Intel и воплощенном в семействе процессоров Pentium М.

Тем не менее перед появлением архитектур Core и Core 2 были выпущены двухъядерные процессоры Pentium D (Smithfield и Presler — рис. 3.23).

Кремниевый срез

a (waffer)) б

Рис. 3.23. Варианты изготовления двухъядерных процессоров:

а — Smithfield; б — Presler

Pentium D. Появление многоядерных процессоров для настольных ПК, как ожидается, прекратит гонку за тактовую частоту между Intel и AMD, которая длилась в течение нескольких лет (дальнейший рост частоты будет, вероятно, по-прежнему происходить по экспоненциальному закону). Вместо этого, пока закон Мура продолжает выполняться, следует ожидать, что увеличение числа транзисторов в ЦП перевоплотится, например, в увеличение числа ядер процессора, как это и произошло в Pentium D.

Pentium D построен по микроархитектуре NetBurst, как и все модели Pentium 4. Pentium D стал первым двухъядерным процессором, предназначенным для ПК архитектуры х86, хотя и не первым двухъядерным процессором этой архитектуры, — незадолго до этого AMD выпустила двухъядерные ЦП Opteron. Двухъядерные процессоры других архитектур существовали и ранее, например IBM PowerPC-970MP.

Smithfield (26 мая 2005 г.). По существу, ядро ЦП Smithfield — пара кристаллов Prescott 1М (90 нм), связанных вместе (рис. 3.22, г). Каждое ядро имеет собственную кэш-память L1 (16 Кбайт для данных + 12 тысяч операций), а также L2 (1024 Кбайт), к которому может обратиться другое ядро через специальную интерфейсную шину. Площадь кристалла — 206 мм2, 230 млн транзисторов. Максимальная TDP — 130 Вт, номинальное напряжение питания 1,4 В.

Даже при том, что новые двухъядерные чипы используют то же самое гнездо LGA775 как Pentium 4 Prescott, необходима новая системная плата, чтобы разместить их, поскольку они требуют поддержки от чипсета платы. Могут быть использованы более новые чипсеты 945 и 955Х, ранее известные под кодовыми названиями «Lakeport» и «Glenwood» соответственно. Они по существу обеспечивают те же самые возможности, что и более ранние 915 и 925Х, плюс поддержка двухъядерных процессоров. Первый — для использования с основным процессором Smithfield — разделяется на две версии: 945Р Express и поддерживающий графику 945G Express — в то время как второй предназначен для процессоров Extreme Edition.

Первые чипы Pentium D, представленные в мае 2005 г. были построены на технологии Intel 90 нм и имели номера моделей в ряду 800. В 2005 г. вышли три чипа Pentium D Smithfield, модели: 805 (2,66 ГГц), 820 (2,8 ГГц), 830 (3,0 ГГц), 840 (3,2 ГГц). Эффективная частота системной шины (FSB) — 800 МГц (для моделей 820, 830, 840), 533 МГц (для модели 805).

Presler. В январе 2006 г. был выпущен образец Pentium D с номерами 900 и кодовым наименование «Presler», изготовленный на технологическом процессе Intel 65 нм.

Чипы Presler включают пару ядер Cedar Mill. Однако, в отличие от предыдущего Pentium D Smithfield, здесь два ядра физически разделены. Включение двух дискретных кристаллов в единый пакет обеспечивает гибкость производства, позволяя использовать тот же самый кристалл как для одноядерного Cedar Mill, так и для двухъядерного ЦП Presler. Кроме того, производственные расходы улучшаются, поскольку при обнаружении дефекта выбраковывается только один кристалл, а не двухъядерный пакет (см. рис. 3.22).

Новая технология позволила увеличить не только тактовую частоту, но также и число транзисторов на кристалле. Как следствие, Presler имеет 376 млн транзисторов сравнительно с 230 млн для Smithfield. В то же самое время размер кристалла был уменьшен с 206 до 162 мм2.

Размер кэша L1 (для каждого ядра) — 16 Кбайт (для данных) + + 12 тысяч операций, кэша L2 (для каждого ядра) — 2048 Кбайт. Эффективная частота системной шины (FSB) 800 МГц, номинальное напряжение питания 1,25—1,4 В. Максимальная TDP 130 Вт, разъем — LGA775.

Размещение нескольких ядер центрального ЦП на одном кристалле имеет то преимущество, что кэш-память может работать при намного более высокой частоте.

Следует иметь в виду, что Pentium D сможет эффективно реализовать свои преимущества только при выполнении приложений, которые были написаны специально для многоядерных ЦП или мультипроцессорных систем, например, обработка трехмерных изображений или видеокодирование (декодирование) или же в ситуациях, если пользователь выполняет программу с интенсивным использованием ЦП, которая позволяет каждому ядру обрабатывать часть команд приложения. Так как большинство офисных приложений и игр по состоянию на 2005 г. обычно используют единственную «нить» (подпроцесс, поток), для них Pentium D не будет существенно отличаться от старших ЦП Pentium 4, работающих на той же частоте.

Модели процессоров — 920 (2,8 ГГц), 930 (3,0 ГГц), 940 (3,2 ГГц), 950 (3,4 ГГц), 960 (3,6 ГГц).

Считается, что Pentium D был последним процессором, несущим фирменный знак Pentium — основного изделия Intel, начиная с 1993 г.

Микроархитектура Intel Core. На Форуме Развития (Intel Development Forum) в марте 2006 г. Intel обнародовала подробности новой микроархитектуры Intel Core, являющейся преемником NetBurst и мобильных процессоров Pentium М, которая рассматривается в качестве основы для планируемых к выпуску многоядерных процессоров, ориентированных на серверные, настольные и мобильные компьютеры. Микроархитектура Intel Core была разработана той же группой инженеров Intel, которая спроектировала высокоэкономичные процессоры Pentium М.

На самом деле, первые процессоры Intel Core фактически появились в январе 2006 г. в составе технологий мобильных ЦП Centrino Duo. Процессор Core Duo (предварительное наименование «Yonah»), выпущенный тогда, был первым мобильным двухъядерным процессором Intel, основывавшимся на технологии 65 нм. Новая микроархитектура базируется на модифицированной версии ядра Yonah (рис. 3.24).

Ядро 1

Выборка

и предварительное декодирование

Очередь команд

Декодирование

Переименование

регистров

V

Буфер

переупорядо-

чивания

/ V

Планировщики

ч/

Выполнение

Рис. 3.24. Процессоры Intel Core

Ядро 2

Выборка

и предварительное декодирование

Очередь команд

Декодирование

Переименование

регистров

V

Буфер

переупорядо-

чивания

/Ч V

Планировщики

V*

Выполнение

Каждое ядро

Конвейер на 14 стадий

Глубокие

буферы

Декодирование 4 потоков команд

4 потока микроопераций

Микро-

и макрослияние

Ч/

Усовершенствованные АЛУ

V Ч/

V

Основываясь на принципах энергетической экономичности (важнейшая черта мобильных процессоров Intel Pentium М) и существующих технологиях Intel Pentium IV, многоядерная архитектура также включает ряд важных усовершенствований:

• расширенное динамическое выполнение (Intel Wide Dynamic Execution) позволяет каждому «широ-

кому» ядру выполнять до четырех полных команд одновременно, используя эффективный 14-стадийный конвейер — спекулятивное выполнение с изменением порядка инструкций, усовершенствованный алгоритм предсказания переходов, уменьшающий количество неверных предсказаний;

  • •интеллектуальное управление электропитанием (Intel Intelligent Power Capability);
  • •интеллектуальное управление кэш-памятью (Intel Advanced Smart Cache) — совместное использование Ь2-кэша, что позволяет уменьшить потребление мощности путем переключения трафика между модулями памяти ядер процессора; например, если одно из ядер не занято, второе может использовать полный (двойной) кэш;
  • • интеллектуальный доступ к памяти (Intel Smart Memory Access) — еще одна особенность, которая улучшает системную производительность, уменьшая латентность памяти и таким образом улучшая скорость передачи данных к подсистеме памяти;
  • •улучшенная цифровая обработка мультимедиа (Intel Advanced Digital Media Boost) — теперь многие из 128-битовых команд SSE, SSE 2 и SSE3 смогут выполняться в пределах только одного цикла процессора. Это фактически удваивает скорость выполнения этих команд, которые широко используются в мультимедийных и графических приложениях.

Кроме того, Intel Core также предусматривает микрослияние (micro-op fusion) и макрослияние (macrofusion) — см. рис. 3.6.

Yon a h — первоначально был кодовым наименованием первого поколения процессоров Intel, изготовленных по технологии 65 нм для мобильных систем, основанных на Banias/Dothan микроархитектуре Pentium М, включая технологию защиты LaGrande. Эффективность потоковой обработки (SIMD) была повышена посредством добавления команд SSE3 и улучшения реализации наборов команд SSE и SSE2, поскольку ранее выполнение целочисленных операций замедлялось повышенной латентностью кэша. Кроме того, Yonah предполагает поддержку NX bit.

Процессор Intel Core Duo состоит из двух ядер на одном кристалле, включает совместно используемый L2-K3iu объема 2 MiB. Предусматривается также отключение одного из ядер при снижении нагрузки для уменьшения энергопотребления.

Intel Core Solo (процессоры предназначаются для мобильных ПК) размещается на таком же двухъядерном кристалле, что и Core Duo, но задействует только одно активное ядро. Здесь обычно используются кристаллы с одним дефектным ядром, кроме того, вообще оказывается дешевле устанавливать двухъядерный кристалл с одним отключенным ядром, нежели налаживать отдельный выпуск одноядерных кристаллов. Intel уже использовала ранее такую стратегию в процессорах 486, где процессор 486SX представлял собой 486DX, в котором блок операций с ПЗ не прошел приемный контроль и потому был отключен.

Процессоры Core Duo. Core Duo содержит 151 млн транзисторов, с учетом совместного Ь2-кэша на 2 MiB. Исполнительное ядро Yonah содержит конвейер на 12 стадий, предполагаемая максимальная частота 2,33—2,50 ГГц. Коммуникации между кэшем L2 и обоими ядрами обрабатываются арбитражным блоком, который контролирует доступ как к Ь2-кэшу, так и к первичной шине (FSB, см. рис. 4.13).

Процессоры Core не лишены и ряда недостатков:

  • • относительно большие значения задержек при обращении к памяти, поскольку весь трафик традиционно проходит через контроллер памяти чипсета (NorthBridge). В то же время, например, в процессорах AMD К8, этот контроллер внедрен в процессор;
  • • невысокая эффективность операций с ПЗ, поскольку в каждом ядре небольшое количество исполнительных блоков ПЗ;
  • • отсутствует поддержка 64-разрядной системы команд (ЕМ64Т);
  • • такая же или даже более низкая приведенная эффективность («на 1 ватт») для однопроцессных приложений (сравнительно с предшествующими ЦП).

Sossaman — ЦП, производный от Yonah, был выпущен 14 марта 2006 г. как двухъядерный Xeon (Dual-Core Xeon LV). Sossaman почти идентичен Yonah, за исключением поддержки двухразъемной конфигурации (dual-socket configurations), для 4-х ядер, кроме того, здесь реализована 36-разрядная адресация (РАЕ mode). ЦП Sossaman предназначен для серверов, однако как и Yonah, не поддерживает ЕМ64Т, что для рыночного сектора серверов является серьезным недостатком.

В то время как первые процессоры Intel Core планировались исключительно для мобильных систем, объявленные Intel весной 2006 г. для выпуска ЦП ориентированы на все секторы рынка. Вот их кодовые имена:

  • • «Merom» — мобильные системы (35—40 Вт);
  • • «Сопгое» — рабочие станции (65—80 Вт);
  • • «Woodcrest» — серверы (40—80 Вт).

Таким образом, новая архитектура осуществила воссоединение настольных и мобильных линий в изделиях Intel.

Процессоры Core 2 являются 8-м поколением процессоров, производимых фирмой Intel. Первые образцы Core 2 были официально выпущены 27 июля 2006 г. Как и ЦП Intel Core, которые они должны заместить, Core 2 включает Duo (двухъядерные) и Solo (одноядерные) модели. Новые линии продуктов включают также модели Extreme (высокопроизводительный сектор) и Quad (четырехъядерные). Основные процессоры имеют кодовые имена «Сопгое» (для настольных ПК) и «Merom» (портативные модели), их варианты именуются «Kentsfield» (четырехъядерные Сопгое) и «Репгуп» (45 нм Merom). Хотя серверные процессоры «Woodcrest» также базируются на микроархитектуре Core, они фигурируют на рынке под маркой «Xeon», а не «Core 2».

Рассмотрим процессы в ЦП Сопгое (рис. 3.25), который является «прямым наследником» мобильного процессора Pentium М и «дальним» процессоров архитектуры Р6 (см. рис. 3.18), отличаясь от них разрядностью шин и количеством исполнительных устройств:

  • • поскольку это процессор гарвардской архитектуры (раздельные кэши первого уровня — кэш команд или I-cache и кэш данных или D-cache), выполнение программы начинается с того, что соответствующие команды попадают в I-cache;
  • • из I-cache команды, до которых дошел процессор, извлекаются в блок выборки команд (Instruction Fetch Unit). Этому блоку приходится отслеживать ход выполнения программы с учетом условных и безусловных переходов. В случае безусловного перехода он переключается на новое место в кэше, в случае же условного перехода, пользуясь данными блока предсказания переходов (Branch Prediction Unit — BPU), определяет, по какому пути пойдет дальше программа;
  • • взятый блоком выборки участок памяти делится на отдельные х86-команды, которые помещаются в очередь блока выбранных команд (Instruction Fetch Buffer), откуда затем передаются на декодеры команд (Instruction Decoders), где

Системная шина

Внутренняя шина

Микроархитектура процессоров Conroe

Рис. 3.25. Микроархитектура процессоров Conroe

переводятся в микрооперации (МкОП). Элементарными командами, которые удается конвертировать в одну МкОП, занимаются простые декодеры, остальными — сложный декодер, подставляющий вместо х86-команд последовательности из нескольких МкОП, при необходимости заимствуя

их из специальной области памяти — микропрограмм процессора;

  • • полученные из х86-кода МкОП проходят еще одну очередь, призванную сгладить неравномерность декодирования команд, и попадают в блок переименования регистров, в нем МкОП выдается разрешение на пользование теми или иными ресурсами процессора. В частности, определяется, из какого внутреннего регистра МкОП должна брать необходимые ей данные и куда их сохранять. Получив необходимые допуски, МкОП попадают в буфер внеочередного выполнения (ReOrder Buffer — ROB);
  • • буфер представляет собой таблицу, в которой указано, какие команды сейчас выполняются процессором, какие у них исходные данные и какие получаются результаты. По мере выполнения команди соответствующие записи в таблице обновляются. Когда результат становится известен, ROB «публикует» его, соответственно изменяя видимые пользовательской программе регистры процессора или разрешая записать вычисленное число в оперативную память, после этого стирает информацию о команде из таблицы;
  • • сделав отметку в ROB, МкОП передается на станцию резервирования (Reservation Station). Здесь МкОП стоят в очередях, ожидая, пока не дойдут все необходимые им данные (пока не завершится операция чтения из оперативной памяти или не будет вычислена предыдущая команда) и не освободится подходящее им исполнительное устройство процессора. Причем порядок, в котором они поступили в Reservation Station, не играет роли. Помимо возможности внеочередного выполнения кода, позволяющей во время непредвиденного простоя занять процессор каким-либо другим делом, Reservation Station помогает решить и другую задачу: благодаря тому, что к ней подключено сразу несколько функциональных устройств, на выполнение могут быть запущены до 5—6 МкОП одновременно;
  • • пройдя очередь в Reservation Station, МкОП отправляется вместе с готовыми данными на выполнение в одно из соответствующих исполнительных устройств — это один из самых коротких этапов конвейера: обычно он занимает один такт (на выполнение команды требуется свыше 14 тактов), в сложнейших случаях — от 4 до 7 тактов. Полученный результат вычислений возвращается в ROB, где дожидается

либо своей очереди на выписку, либо возникновения ошибки в ходе вычисления очередной МкОП, а такой сбой приводит, как правило, к сбросу конвейера со всеми ранее полученными результатами.

В отличие от ЦП архитектуры NetBurst (таких как the Pentium IV и Pentium D), дизайн Core 2 не основывается на повышении эффективности исключительно за счет достижения максимальных тактовых частот, а использует другие возможности, включая улучшение кэш-памяти и увеличение числа ядер. Энергопотребление таких процессоров существенно ниже, чем для настольных процессоров Pentium (65 Вт для Core 2 сравнительно с 130 Вт для Pentium 4 Prescott).

Процессоры Intel Core 2 поддерживают такие опции, как ЕМ64Т, Virtualization Technology, Execute Disable Bit и SSE3. Кроме того, Core 2 вводит технологии LaGrande Technology, Enhanced SpeedStep Technology и Active Management Technology (iAMT2).

Conroe. Процессоры выпускаются по технологии 65 нм и ориентированы на настольные ПК, заменяя Pentium 4 и Pentium D. Intel заявляет, что Conroe демонстрирует 40%-ное повышение эффективности при 40%-ном снижении энергопотребления сравнительно с Pentium D. Все ЦП Conroe имеют кэш L2 объемом 4 Мбайт, однако у моделей Е6300 и Е6400 половина кэша отключена (только 2 Мбайта используемого кэша L2).

Более дешевые ЦП моделей Е6300 (1,86 ГГц) и Е6400 (2,13 ГГц), оба с первичной шиной (FSB) на 1066 МТ/с были выпущены первыми. Традиционно процессоры одного ряда с меньшим кэшем просто представляют собой экземпляры, не прошедшие полный приемный контроль, в которых часть кэша поэтому отключена.

Следует отметить, что процессоры Conroe имеют высокий резерв по тактовой частоте — модель на 1,86 ГГц вполне может быть «разогнана» (overclocked) до значений более чем 3,0 ГГц при установке на качественной системной плате, которая поддерживает высокую скорость FSB.

Модели более высокого ряда (Е6600 и Е6700 Core 2 Duo) имеют заявленную тактовую частоту в 2,4 и 2,67 ГГц соответственно. Они имеют 1066 MT/s первичную шину, 4 Мбайта разделяемого кэша L2 и электрическую мощность 65 Вт. Проведенные тесты показали, что Е6700 и Е6600 стабильно работают при частотах до 4 ГГц (при воздушном охлаждении) и даже при

5,4 ГГц (при охлаждении жидким азотом).

Предполагается, что процессоры с номерами, оканчивающиеся на «50» будут иметь FSB на 1333 МГц.

Conroe ХЕ (Core 2 Extreme) предназначен для замены процессоров Pentium 4 Extreme Edition и двухъядерного Pentium Extreme Edition. Core 2 Extreme заявлен с частотой 2,93 ГГц и FSB на 1066 MT/s, электрическая мощность 75—80 Вт и при полной нагрузке температура не превышает 45 °С, а использование технологий SpeedStep позволяет почти уравнять среднюю температуре ЦП с окружающей атмосферой.

Как и Core 2 Duo, он имеет 4 Мбайта разделяемого кэша L2. «Разгон» процессора показал, что Core 2 Extreme работает при 3,6 ГГц при штатном охлаждении и без повышения напряжения питания, 4,1 ГГц требует усиленного воздушного охлаждения и повышения напряжения, более 5,5 ГГц — только при охлаждении жидким азотом.

Me гот — первый процессор Core 2 для мобильных систем, предполагается, что его энергетическая эффективность будет на 20 % выше, чем у мобильных Core Duo (Yonah). Объявлена мощность в 35 Вт для стандартной версии и 5 Вт для версии с очень низким напряжением питания (Ultra Low Voltage — ULV).

Merom является первым мобильным процессором Intel, в котором реализовано 64-разрядное расширение ЕМ64Т 64-bit extensions, скорость системной шины — 667 MT/s. Следующая версия предполагает FSB на 800 MT/s и новый интерфейс Socket Р.

Процессоры Merom имеют номера «Т5х00» и «Т7х00» (для Core 2 Duo), причем Т5200 заявлен с частотой 1,60 ГГц; Т5500 — 1,66; Т5600 - 1,83; Т7200 - 2,0; Т7400 - 2,16, а Т7600 - с частотой 2,33 ГГц. Модели Т5х00 выпускаются с общим кэшем L2 на 2 Мбайта, а Т7х00 — на 4 Мбайта.

Intel Penryn Core 2. Процессор построен по архитектуре Core 2, но является первым в серии, выпущенным по технологии 45 нм с использованием инновационной технологии транзисторов с металлическим затвором и диэлектрическим изолятором (см. рис. 1.22).

Предполагается, что он заменит ряд моделей Merom, в том числе версии на два или четыре ядра в одном кристалле.

В частности, четырехядерные процессоры Intel Core Quad включают 582 млн транзисторов, тогда как четырехъядерный Penryn — 820 млн на меньшей площади кристалла. Такое повышение числа транзисторов связано с реализацией в каждом ядре кэша L2 на 6 Мбайт (150 % по отношению к Core 2) — рис. 3.26.

Микроснимок двухъядерного процессора Репгуп

Рис. 3.26. Микроснимок двухъядерного процессора Репгуп

Другие особенности:

  • • Репгуп использует новый более быстрый блок деления, который обрабатывает 4 бита в такт вместо 2 бит для Conroe. Это убыстряет в 2 раза операции деления, извлечение корня осуществляется быстрее в 4 раза;
  • • используется новый режим управления питанием — Deep Power Down, в котором предусмотрено состояние ЦП Deep sleep (тактовый генератор останавливается, кэш-память отключена и напряжение питания падает до минимума);
  • • в то время как в процессорах Core 2 Duo введена концепция независимого «засыпания» ядер, когда одно из ядер работает в полную нагрузку, второе является «горячим резервом», в Репгуп сделан следующий шаг — недоиспользуемое ядро «жертвует» свою частоту и мощность питания полностью загруженному ядру;
  • • наконец, здесь внедрены «Репгуп Instructions», или набор команд SSE4, добавляющий новые возможности мульти-медиа-обработки, позволяя повысить на 40 % производительность тех программ, которые будут его активно использовать.

Kentsfield. ЦП Kentsfield, выпущенный в ноябре 2006 г., был первым четырехъядерным (quad core CPU) процессором Intel Core 2, предназначенным для настольных ПК. Могут быть выделены более мощные модели (Core 2 Extreme) и обычные образцы (Core 2 Quad). Все они укомплектованы двумя кэшами L2 по 4 Мбайт. Серия Core 2 Quad Q6600, с частотой 2,4 ГГц, начала выпускаться в январе 2007 г., а модели Extreme QX6850 Kentsfield — в июле 2007 г.

Аналогично ЦП Pentium D, процессор Kentsfield конструктивно включает два раздельных кремниевых кристалла (каждый эквивалентен одному Core 2 duo), размещенных на отдельном керамическом мультипроцессорном модуле (МСМ). Это оказывается более дешевым решением, однако при этом снижается скорость обмена данными между ЦП и «Северным мостом» чипсета, сравнительно с раздельным размещением ЦП, как это реализовано, например, в AMD Quad FX platform. Максимальная рассеиваемая мощность достигает от 95 до 130 Вт, что примерно вдвое выше, чем для Core 2 Duo с аналогичной частотой.

Многоядерные ЦП Kentsfield наиболее подходят для таких приложений, которые легко расщепляются на несколько параллельных потоков обработки (например, аудио-/видеокодирова-ние, сжатие данных, трехмерная графика).

Yorkfield представляет собой четырехъядерный ЦП на двух кремниевых кристаллах, с двумя общими блоками кэша L2 по 6 Мбайт. Собственно, кэш-памятью занята большая часть площади ядра. Это уже не первый раз, когда Intel использует возможности новых техпроцессов по уплотнению транзисторов в ядре одного и того же размера для наращивания объемов кэша, что вполне оправдано, поскольку многие приложения повышают эффективность при увеличение L2. Предусмотрены также версии с блоками кэша по 3 Мбайта.

Wo If dale — кодовое название серий Е5000 Pentium Dual Core и Е7000/Е8000 серий Core 2 Duo ЦП для настольных ПК, которые аналогичны Репгуп и Yorkfield ХЕ и должны сменить изделия Conroe. Выпуск был начат в январе 2008 г. ЦП изготовляются по технологии 45 нм и на одном кристалле размещаются два ядра ЦП. Модель Е7200, работающая на частоте 2,53 ГГц, имеет кэш L2 на 3 Мбайта и поддерживает скорость FSB (первичная процессорная шина) в 1066 МТ/с (миллионов передач в секунду), остальные модели, работающие на частотах 2,66—3,33 ГГц, имеют 6 Мбайт общего кэша L2 и скорость FSB в 1333 МТ/с. Изделия серии Е5200 работают на частоте 2,5 ГГц, имеют кэш L2 на 2 Гбайта и предназначены для замены процессоров Pentium Dual core.

В июне 2009 г. компания объявила об упразднении многообразия вариантов данной торговой марки (например, Core 2 Duo, Core 2 Quad, Core 2 Extreme) в пользу трёх ключевых наименований: Core i3, Core i5 и Core i7.

Nehalem — микроархитектура процессоров компании Intel, представленная для ядра Bloomfield в исполнении LGA 1366 и для ядра Lynnfield в исполнении LGA 1156. Микропроцессоры продаются под торговой маркой Core i7 и Core i5 соответственно.

Процессоры Nehalem содержат не менее 731 млн транзисторов, что на 10 % меньше, чем у процессоров Yorkfield. Но площадь кристалла значительно увеличилась по сравнению с предшественником — с 214 до 263 мм2.

Архитектура Nehalem построена на базе Core, но содержит такие кардинальные изменения, как:

  • • встроенный контроллер памяти, поддерживающий 2 или 3 канала DDR3 SDRAM или 4 канала FB-DIMM;
  • • новая шина QPI, пришедшая на смену шине FSB (только в процессорах для LGA 1366; процессоры для LGA 1156 используют шину DMI);
  • • возможность выпуска процессоров со встроенным графическим процессором (в бюджетных решениях на базе двух-ядерных процессоров);
  • • в отличие от Kentsfield и Yorkfield, которые состоят из двух кристаллов по 2 ядра на каждом, все 4 ядра Bloomfield находятся на одном кристалле;
  • • кэш 3-го уровня;
  • • поддержка SMT (организация 2-х логических ядер из 1 физического).

Первые процессоры Nehalem основаны на том же 45-нм техпроцессе, что и Репгуп.

Микроархитектура Intel Atom. Intel Atom — торговое название линейки ЦП от Intel, которые поддерживают системы команд х86 и х86-64 CPUs, изготовляются по технологии 45 нм CMOS (high-k metal gate, см. рис. 1.22, б) и предназначены для использования в ультрамобильных ПК, смартфонах и других портативных экономичных изделиях (рис. 3.27).

В апреле 2008 г. Intel официально объявила, что процессоры с кодовыми именами Silverthorne (серия Atom Z, процессоры Z500—Z540) и Diamondville (Atom N, изделия N270 и 230) базируются на одной микроархитектуре. Более дорогой энергосберегающий ЦП Silverthorne предполагается использовать в мобильных Internet-устройствах (Mobile Internet Devices — MID), в то время как Diamondville — в таких изделиях, как настольные системы (Nettops) и бюджетные ноутбуки (Netbooks).

Intel и Lenovo, в частности, совместно объявили о MID на основе Atom под названием IdeaPad U8, который весит менее 280 г, имеет 4,8" сенсорный экран и обеспечивает как лучшую порта-

Очередь

команд

Файл

регистров

сПЗ

Блок

предсказания

переходов

Декодер

длинных

команд

Кластер обработки команд

Файл

регистров

сФЗ

Кластер обмена с памятью

со

со

аз

X

I

БВА/AGU

БВА/AGU

АЛУ

Битовые

перестановки

Умнож.

SIMD

Умнож.

сПЗ

Пересылка

сПЗ

ROM ПЗ

Делен. ПЗ

Запись ПЗ

АЛУ

Сумм с ПЗ

DL1

prefetcher

Кэш

данных

Fill Buffers

АЛУ

АЛУ

т

Битовые

перестановки

Кластер операций с ФЗ

БИП/JEU

APIC

Кластер

шинных

операций

а:

аз

х

Ф

н

о

S

о

а:

аз

х

У

S

со

CL

ф

С

Кластер операций с ПЗ и SIMD

Рис. 3.27. Микроархитектура Intel Atom

тивность, чем типичный «Netbook», так и лучшую эффективность в Internet, чем мобильный телефон или карманный ПК (PDA).

Процессоры Atom имеют кэш L1 объемом 56 Кбайт, из которых 32 отведено под кэш инструкций, а 24 — под данные. Процессоры могут исполнять 32-битовый код и поддерживают наборы команд расширений ММХ, SSE, SSE2, SSE3 и SSSE3. Что касается 64-битового кода (х86-64), то его поддерживает только ядро Diamondville и только в модели Atom 230. В основном процессоры Atom являются одноядерными, однако они поддерживают технологию многопоточности (Hyper-Threading), которая позволяет исполнять два параллельных потока команд.

В сентябре 2008 г. Intel объявила о выпуске двухъядерного ЦП данной архитектуры (неофициальное кодовое имя — Dual Diamondville) под маркой Atom 330, который работает на частоте 1,6 ГГц и потребляет 8 Вт. Частота FSB — 533 МГц, на каждое из ядер приходится по 512 Кбайт кэша L2.

Intel Atom выполняет две команды на цикл (подобно Pentium в 1993 г.). Как и в других ЦП, команда х86 расщепляется на более простые операции перед исполнением, но гораздо в меньшей степени, чем это происходит в ЦП Intel Р6 или Intel Р68. В ЦП Atom внутренние микрооперации (МкОП) выполняют как считывание, так и запись в память в сочетании с операциями АЛУ. Это ближе к уровню х86 и оказывается более эффективным, чем МкОП в предшествующих проектах. При этом ПЦ обходится парой АЛУ и не использует таких механизмов, как внеочередное исполнение, опережающее исполнение, и ротация регистров.

Процессоры Хеоп и Celeron. Перечисленные выше архитектуры ЦП Intel имеют следующие модификации, предназначенные как для серверов и рабочих станций (Хеоп), так и для недорогих настольных ПК (Celeron).

Процессоры Хеоп. В июне 1998 г. Intel начала выпускать ЦП Pentium II Хеоп, работающий на частоте 400 МГц. Технически Хеоп представлял собой комбинацию технологий Pentium Pro и Pentium II и был разработан, чтобы предложить повышенную эффективность, требуемую в критических приложениях для рабочих станций и серверов. Используя интерфейс Slot 2, Хеоп были почти вдвое больше размером, чем Pentium II, прежде всего из-за увеличенной кэш-памяти L2.

В первых образцах чип снабжался кэш-памятью L2 на 512 Кбайт или 1 Мбайт. Первый вариант был предназначен для рынка рабочих станций, второй — для серверов. Версия на 2 Мбайт вышла позже — в 1999 г.

Основное усовершенствование сравнительно с Pentium II заключалось в том, что кэш-память L2 работала на частоте ядра центрального процессора в отличие от конфигураций на основе Slot 1, которые ограничивали кэш L2 половиной частоты ЦП, что позволяло Intel использовать более дешевую память Burst SRAM в качестве кэша, вместо того, чтобы применять обычную SRAM.

Другое ограничение, которое удалось преодолеть посредством Slot 2, был «двухпроцессорный предел». При использовании архитектуры SMP (симметрический мультипроцессор) процессор Pentium II оказался неспособен поддерживать системы с более чем двумя центральными процессорами, в то время как системы, основанные на Pentium II Хеоп, могли объединять четыре, восемь или более процессоров.

Вскоре после выхода Pentium III весной 1999 г. был выпущен Pentium III Xeon (кодовое имя Tanner). Это был базовый Pentium Xeon с добавлением набора команд SSE. Нацеленный на рынок серверов и рабочих станций, Pentium III Xeon первоначально выпускался на 500 МГц и с кэш-памятью L2 на 512 Кбайт (или 1,0—2,0 Мбайт). Осенью 1999 г. Xeon начал выпускаться с ядром Cascade (0,18 мкм) со скоростями, увеличивающимися от начальных 667 МГц до 1 ГГц к концу 2000 г.

Весной 2001 г. выпущен первый Xeon на основе Pentium IV со скоростями 1,4, 1,5 и 1,7 ГГц. Базирующийся на ядре Foster, он был идентичен стандарту Pentium IV, за исключением разъема microPGA Socket 603. Pentium IV Xeon поддерживался чипсетом i860, который подобен І850, однако предусматривает двухпроцессорные системы и позволяет увеличить максимальный размер памяти до 4 Гбайт. Через год была выпущена мультипроцессорная версия, позволяющая собирать 4- и 8-процессорные системы и включающая кэш-память L3 на 512 Кбайт или 1 Мбайт.

Процессоры Celeron. В попытке обратиться к сектору рынка дешевых ПК (до того времени — область AMD и Cyrix, выпускавших клоны и поддерживавших архитектуру Socket 7), в апреле 1998 г. Intel начала производство процессоров семейства Celeron.

Celeron — упрощенный вариант Р2 для дешевых компьютеров. Основные отличия этих процессоров — в объеме кэша второго уровня и частоте шины. Первые выпущенные в апреле и июне 1998 г. Celeron на 266 и 300 МГц не имели кэша вообще при частоте шины 66 МГц и выполнены в конструктиве Slot 1. Следущие модели имели 128 Кбайт кэша и выпускались как для Slot 1, так и для Socket 370 (PPGA), в их названии присутствует буква А (например, Celeron ЗЗЗА).

Основанный на той же самой микроархитектуре Р6, как и Pentium II, и изготовляемый на основе аналогичного процесса 0,25 мкм, первоначальный Celeron предлагал законченный пакет последних технологий, включая поддержку графики AGP, интерфейс жесткого диска АТА-33, а также SDRAM и ACPI. Эти процессоры работали с любыми чипсетами Intel Pentium II, поддерживавшими системную шину на 66 МГц — включая 440LX, 440ВХ и новый 440ЕХ — и определенно предназначенными для основного рынка ПК.

Covington. Первые ЦП Celeron (Covington) по существу представляли собой Pentium II, изготовленные без кэша L2.

В результате, имея частоту в 266 или 300 МГц (что существенно выше, чем для Pentium MMX), ЦП Celeron были намного медленнее чем части, для замены которых они были предназначены.

В отличие от Pentium II с его упаковкой Single Edge Cartridge (SEC), начальный Celeron не имел никаких защитных пластмассовых оболочек вокруг карты процессора, который Intel назвал Single Edge Processor Package (SEPP) и который был совместим со Slot 1, что позволяло использовать существующие системные платы (см. рис. 1.23, б).

Mendocino. Начиная с частоты 300, все ЦП Celeron начали оборудоваться кэш-памятью L2 объемом 128 Кбайт, расположенной на кристалле, работающей на полной скорости центрального процессора и поддерживающей внешнюю связь через шину 66 МГц.

Процессоры Celeron от 300 до 466 МГц выпускались в двух версиях — SEPP и PPGA (plastic pin grid array). Первый рассматривался как господствующая версия (совместимый с существующей архитектурой Slot 1), в то время как последний не был совместим ни с Socket 370, ни Socket 7 или Slot 1.

Coppermine. Весной 2000 г. общая картина процессорных конфигураций и интерфейсов усложнилась с появлением первых процессоров Celeron, основанных на ядре Pentium III Coppermine (0,18 мкм). Они производились, используя еще один форм-фактор — дешевую упаковку FC-PGA (flip-chip pin grid array). Это, казалось, указывало на «начало конца» как PPGA, так и Slot 1, с последующим выпуском чипов Pentium III, также поддерживающих FC-PGA. Процессоры Pentium III в FC-PGA имели два разъема reset (Сброс) и требовали спецификаций VRM 8.4. В дальнейшем существующие системные платы на Slot 370 стали называть «платами наследства», в то время как новые платы на Slot 370, поддерживающие новый форм-фактор FC-PGA, — «гибкими системными платами».

Первые ЦП Celeron, основанные на Coppermine, имели частоту 566 МГц, затем было произведено множество приращений вплоть до 766 МГц, и в начале 2001 г. вышла версия на 800 МГц, позволяющая использовать FSB на 100 МГц. К моменту выхода последнего процессора Celeron на базе Coppermine (осень 2001 г.) скорости достигли 1,1 ГГц.

Celeron Tualatin. Первый ЦП Celeron, использовавший ядро Tualatin Intel по технологии 0,13 мкм, был выпущен в начале 2002 г. и показывал частоту 1,2 ГГц. Предполагалось, что потенциал Tualatin сможет продвинуть семейство Celeron к частоте 133 МГц для FSB, однако даже версия на 1,3 МГц ограничивалась частотой FSB в 100 МГц и использованием модулей памяти стандарта PC 100.

В дальнейшем стало ясно, что для преодоления этого узкого места FSB необходима частота не менее чем в 1,5 ГГц. Поэтому был произведен переход к процессорам Celeron на базе ядра Pentium IV Willamette, обеспечивающего частоту 1,8 ГГц и более.

Процессоры Celeron класса NetBurst. Первый Celeron на базе Pentium IV был выпущен в мае 2002 г. Базирующиеся на ядре Willamette (0,18 мкм) и часто называемые Celeron 4, они имели кэш L2 128 Кбайт, а не 256 или 512 Кбайт, но в остальном очень походили на прототип. Их эффективность значительно пострадала по причине меньших размеров кэшей и вообще это первое поколение (Celeron 4) не было хорошо принято рынком.

К концу 2002 г. Celeron был модернизирован с использованием ядра Northwood (0,13 мкм), позволяя достигнуть частоты 2,0 ГГц (хотя Northwood и использует Ь2-кэш на 512 Кбайт, Intel ограничилась кэшем 128 Кбайт для ЦП Celeron).

Последний и самый быстрый Celeron, основанный на Northwood, был выпущен весной 2004 г. и имел частоту 2,8 ГГц.

Процессоры Cyrix

Длительное время компания Intel занимала комфортабельное положение в качестве основного производителя процессоров для ПК. Начиная с выпуска процессоров серии 486 (1989 г.), компания Cyrix вместе с «сотоварищем», также давним производителем клонов Intel, компанией Advanced Micro Devices (AMD), представляли наиболее серьезную угрозу доминированию Intel.

В начале 1990-х гг. AMD и Cyrix выпускали собственные версии 486DX, но из их продуктов наиболее известны клоны 486DX, первый — копия 486DX2-66 (представленный Intel в 1992 г.) и второй — повышающий до 80 МГц внутреннюю скорость. В основе 486DX2-80 была системная шина на 40 МГц, и в отличие от чипов Intel DX2, которые работали на напряжении 5 В, он использовал 3 В. AMD и Cyrix позже предложили версии своих 40 МГц 80486 процессоров с тройным коэффициентом умножения частоты (множителем), которые работали при 120 МГц. AMD

и Cyrix предложили функцию управления мощностью, начиная с процессоров с двойным множителем, которую Intel в итоге использовала в своем DX4, запущенном несколько лет спустя.

Хотя Intel прекратила выпускать 486 после DX4-100, AMD и Cyrix продолжали его развитие. В 1995 г. AMD предложила четырехкратный множитель 5x86, 33 МГц 486DX, который работал с внутренней частотой 133 МГц. AMD продвигала на рынке этот чип как сопоставимый с новым Intel Pentium 75, и поэтому компания назвала его 5x86-75. Но это был процессор 486DX во всех отношениях, включая к тому же кэш первого уровня (встроенный в процессор) на 16 Кбайт, который Intel применяла, начиная с DX4. Cyrix продолжала работать со своим собственным 5x86, названным Mise, но этот чип сильно отличался от чипа компании AMD. Фактически, Mise предложил характеристики, подобные Pentium, несмотря на то, что он был разработан для использования в системных платах для І80486. Работая на частотах 100 МГц и 120 МГц, чип включал 64-битовую внутреннюю шину, шестистадийный конвейер (против пятистадийного у DX4) и технологию предсказания переходов.

Важно помнить, однако, что Cyrix 5x86 появился после того, как Intel внедрила Pentium, так что эти особенности были более полезны в модернизации 486-го, чем для применения в новых системах.

В середине 1999 г. произошли важные события на рынках высоких информационных технологий. В августе Cyrix наконец-то покинула рынок процессоров для настольных ПК, когда National Semiconductor продала права на ее процессоры 80x86 основанному в Тайване производителю чипов VIA Technologies. Высоко интегрированная номенклатура продуктов MediaGX осталась за National Semiconductor, чтобы быть частью нового семейства Geode решений «компьютер-на-чипе», — компании, развивающейся на рынке клиентских устройств.

Другим важным фактом был запуск компанией AMD нового процессора Athlon (раннее кодовое название «К7») и захват технологического превосходства над Intel, которая была вынуждена объявить о задержке выпуска его 0,18-микронного Pentium III «Coppermine».

Cyrix 6x86. Обнародованный в октябре 1995 г., 6x86 был первым совместимым с Pentium процессором, позволявшим проникнуть на рынок и добиться сотрудничества с IBM Microelectronics Division (рис. 3.28). Распространение 6x86 первона-

Управление

очередью

Очередь

плавающей

точки

Коды

плавающей

точки

ЧТК RK1

РК2

РК2

ВА1

ВА1

ВА2

ВА2

ВЫП

ВЫП

ЗАП

ЗАП

X

У

Адрес команды

Команды

Данные X

Процессор

плавающей

точки

Данные У

Кэш команд 256 байт

Адрес

Конвейеры

Блок фиксированной точки

Линейный адрес X

Общий кэш 16 Кбайт

Данные

Блок

плавающей

точки

Физический адрес У

ск

s

со

h-

О

CD

§

C?

со

ffl

о

X

X

о

ц.

L?

Рис. 3.28. Схема функционирования процессора Cyrix 6x86:

ЧТК — чтение команды; РК1 — расшифровка команды, стадия 1; РК2, стадия 2; ВА1 — вычисление адреса, стадия 1;

ВА2, стадия 2; ВЫГТ — выполнение; ЗАП — запись результата

3.3. Микроархитектуры процессоров 291

чально было медленным, поскольку Cyrix установила слишком высокие цены, ошибочно думая, что, так как эффективность процессора была сопоставима с Intel, его цена могла быть такой же. Как только Cyrix пересмотрела свои позиции, чип стал оказывать значительное влияние в доле соответствующего сектора рынка как высокоэффективная альтернатива серии Pentium.

Начиная с 6x86 процессоры Cyrix были способны к уровню производительности, эквивалентному чипу Pentium, но при более низкой частоте. Для оценки производительности используется Processor Performance Rating — P-рейтинг (обозначение Р100+, например, символизирует производительность, эквивалентную Pentium с частотой 100 МГц). Процессоры Cyrix (как и AMD) традиционно работают на более низких частотах, чем численное значение их P-рейтинга без заметного снижения производительности. Например, Р133+ (P-рейтинг равен 133) работает на частоте ПО МГц, в то время как Р150+ и Р166+ работают на 120 и 133 МГц соответственно.

Превосходство 6x86 вытекало из усовершенствований архитектуры чипа, которая позволила 6x86 получать доступ к внутреннему кэшу и регистрам в одном цикле частоты (Pentium обычно задействует два или больше циклов для доступа к кэшу). Кроме того, первичный кэш 6x86-го был объединен, вместо того, чтобы включить две отдельные секции — 8 Кбайт для команд и данных. Эта объединенная модель была в состоянии хранить команды и данные в любом соотношении, обеспечивая «вероятность попадания» кэша в пределах 90 %. ЦП содержит

3,5 млн транзисторов, первоначально изготовленных по технологии пяти 0,5-микронных слоев. Интерфейс — Socket 7. Напряжение питания ядра — 3,3 В.

Характеристики 6x86 были подобны Pentium — суперскалярная архитектура, 80-битовый блок плавающей точки, 16-Кбайт кэш первого уровня и System Management Mode (SMM). Однако он имеет множество важных отличий.

Во-первых, это суперконвейер т. е. семь, вместо пяти, стадий (чтение команды, две стадии расшифровки, две стадии вычисления адреса, выполнение, запись результата — см. рис. 3.28).

Другие новые характеристики — удаление зависимости данных, предсказание переходов, выполнение команд вне естественного порядка (возможность более быстрым командам выходить из очереди конвейера, не нарушая процесс выполнения программы). Процессор 6x86 обращается с кодом команд без преобразования, что полностью оптимизирует набор команд 80x86 CISC. Это используется как для 16-, так и для 32-битового кодов. Pentium также делает это, но здесь происходит преобразование CISC-команд к RISC (или микрокомандам) прежде, чем они входят в конвейеры.

Однако процессоры 6x86 сталкивались с множеством проблем, особенно перегревом, низкой производительностью при работе с плавающей запятой и несовместимостью с Windows NT. Это неблагоприятно воздействовало на успех процессора, поэтому конкуренция с Pentium оказалась недолгой и закончилась с запуском Intel Pentium MMX.

Cyrix MediaGX. Введение процессора MediaGX в феврале 1997 г. определило первую новую архитектуру PC в десятилетии и определило новый сегмент рынка — дешевый «Основной ПК». Рост этого рынка был бурным, и технология процессора Cyrix и новшество уровня системы были ключевыми элементами.

Чем больше процессов, которые обрабатываются в центральном процессоре ПК непосредственно, тем выше общая производительность системы. В традиционных компьютерных разработках центральный процессор обрабатывает данные на частоте в мегагерцы, в то время как шина, которая перемещает данные в (и от) другие компоненты, работает только на половинной (или даже меньшей) скорости. Это означает, что движение данных к (и от) центральному процессору занимает больше времени. Cyrix устранила это узкое место введением технологией MediaGX (рис. 3.29).

Архитектура Cyrix MediaGX

Рис. 3.29. Архитектура Cyrix MediaGX

Архитектура MediaGX объединяет в блок процессора графические и звуковые функции, интерфейс PCI и диспетчер памяти, таким образом устраняя потенциальные конфликты в системе и проблемы конфигурации конечного пользователя. Она состоит из двух чипов — процессора MediaGX и сопроцессора MediaGX Сх5510. Процессор использует особое гнездо, требующее специально разработанной материнской платы.

MediaGX — х86-совместимый процессор, который непосредственно соединяет на шине PCI и память EDO DRAM по выделенной 64-битовой шине данных. Техника сжатия, используемая на шине данных, устраняет потребность в кэше второго уровня. Есть объединенный (16 Кбайт) кэш первого уровня на центральном процессоре — того же объема, что и на стандартном чипе Pentium.

Графика обрабатывается специальным конвейером непосредственно в центральном процессоре, и контроллер монитора находится также на главном процессоре. Нет никакой видеопамяти, буфера кадров, сохраняемых в главной памяти (традиционная Unified Memory Architecture — UMA), вместо этого используется собственная Cyrix Display Compression Technology (DCT). Операции с данными VGA выполняются аппаратными средствами ЭВМ, но регистры VGA управляются программами Cyrix — Virtual System Architecture (VSA).

Сопутствующий чип MediaGX Cx5510 содержит аудиоконтроллер и также использует программы VSA, чтобы эмулировать возможности стандартных звуковых карт. Этот чип соединяет процессор MediaGX через шину PCI с шиной ISA, а также с IDE и портами ввода-вывода, т. е. выполняет традиционные функции чипсета.

Cyrix 6х86МХ. Ответом Cyrix на технологию Intel MMX был 6x86MX, запущенный в середине 1997 г., незадолго до того, как фирма была приобретена компанией National Semiconductor. Компания осталась верной формату Socket 7 для своего нового чипа, это поддерживало на необходимом уровне затраты производителей системы и в конечном счете потребителей, продлевая жизнь существующего чипа и системных плат.

Архитектура нового чипа оставалась по существу той же , что и у его предшественника, с дополнением команд ММХ, некоторыми улучшениями к Floating Point Unit, большим (64 Кбайт) универсальным кэшем первого уровня и расширенным блоком управления памятью.

Cyrix МП. Процессор МП — развитие 6х86МХ, работает на более высоких частотах. К лету 1998 г. 0,25-микронные процессоры МП-300 и МП-333 производились на новых производственных мощностях компании National Semiconductor в шт. Мэн, нацеленных на развитие технологии 0,22 мкм, продвигаясь к своей конечной цели — 0,18 мкм в 1999 г.

Микроархитектуры АМй

АМО работала в сфере персональных компьютеров на протяжении всей истории отрасли (рис. 3.30). Компания поддерживала производство каждого поколения процессоров ПЭВМ, начиная с 8088, применяемых в первых ПК 1ВМ-РС, до современных процессоров 7--8-го поколений АМО (табл. 3.5, 3.6, рис. 3.30).

Таблица 3.5. Оценка числа произведенных процессоров, млн шт.

Год

2005

2006

2007

Всего процессоров

225,6

235,2

263,8

Производство Intel

183,3

180,4

197,8

Производство AMD

42,4

54,8

66,0

Процессоры AMD

Рис. 3.30. Процессоры AMD:

а — AMD 80286 (1982 г.); б — Sempron 3000+ (Socket А); в — Athlon (формат

Slot А); г — Athlon 64 (Socket 754)

Тип процессора

Архи

текту

ра

Год

выпуска

Кодовое

наименование

Количество транзисторов,

млн

Ядро,

мм

Ll-кэш,

Кбайт

L2-K3IJJ,

Кбайт

Размер минимальной структуры, мкм

Тактовая

частота

шины,

МГц

Тактовая частота процессора, МГц

Потреб

ляемая

мощность, Вт

Интерфейс

AMDK5

К5

1996

SSA/5

4,3

271—161

8+16

Внешн.

0,5—0,35

50—66

75—100

11—15

Socket 5/7

1996

Godot

4,3

181

8+16

Внешн.

0,35

60—66

90—115

12—16

Socket 5/7

AMD Кб

Кб

1997

Nx686 (Model 6)

8,8

162

32+32

Внешн.

0,35 CMOS

66

166—300

13—28

Socket 7

1998

Little Foot

8,8

88

32+32

Внешн.

0,25

66

200—300

13—28

Socket 7

K6-II

1998—2001

Chompers

9,3

81

64

Внешн.

0,25

66-100

266—550

15—30

Super7 (321 p)

Кб III

1999

Sharptooth

21,3

118

64

256

0,25

100

400—450

18—30

Super7

Athlon

К7

1999

Argon

22,0

184

128

512

0,25

200

500—700

36—54

Slot A (575 p)

2000

Pluto

22,0

102

128

512

0,18

200

550—950

31—62

Slot A

2000—2001

Thunderbird

37,0

120

64+64

256

0,18

200

700—1,4 ГГц

38—72

Socket А/

Slot A

Duron

2000—2001

Spitfire

25,0

100

64(1) + 64(D)

64—128

0,18

200

600—950

27—41

Socket A (Socket 462)

2001—2002

Morgan

25,18

106

128

64

0,18

200

900—1,3 ГГц

44—60

S 462

2003

Applebred

37,2

85

128

64

0,13

266

1,4-1,8

57

S 462

Athlon

XP/MP

2001—2002

Palomino

37,5

130

128

256

0,18

266

1,4-1,7

62—72

Socket 462

2002

Thoroughbred

37,2

85

128

256

0,13

266

1,4—2,25

49—74

S 462

2003—2004

Barton

54,3

101

64+64

512

0,13

266—400

1,86—2,33

66—77

Socket A

296 Глава 3. Процессоры: микроархитектуры и программирование

Тип процессора

Архи

текту

ра

Год

выпуска

Кодовое

наименование

Количество транзисторов,

млн

Ядро,

мм

U-кэш,

Кбайт

12-кэш,

Кбайт

Размер минимальной структуры, мкм

Тактовая

частота

шины,

МГц

Тактовая частота процессора, МГц

Потреб

ляемая

мощность, Вт

Интерфейс

Sempron

K7

2004

Thorton

54,3

101

128

256

0,13

333

1,5—2,0

62

S 754/S 939

2004

Thoroubred

37,2

85

128

256

0,13

333

1,5—2,0

62

S 462

2005

Winchester

68,5

84

128

128

0,09

400

1,6

62

S 754

2005

Palermo

68—75

84

64+64

128—256

0,09

400

1,6—1,8

59—64,0

Socket А/ Socket 754

2006

Manila

103

81

128

128—256

0,09

400

1,6-2,0

35—62

АМ2

Athlon 64

K8

2003—2004

Clawhammer

105,9

193

128

512—1024

0,13

400

1,8-2,4

89

S 754

2004

Newcastle

68,5

144

128

512

0,09

400

1,6-2,4

89

S 754

2004

Winchester

68,5

84

128

512

0,09

400

1,8-2,2

67

S 939

2005

Venice

76

84

128

512

0,09

400

2,0—2,4

16—89

S 754

2005

San Diego

114

115

128

512—1024

0,09

400

2,2

89

S 939

2006

Orleans

129

125

128

512

0,09

400

1.8-2,4

35—62

АМ2

2006

Manchester

154

147

128

512

0,09

400

2,0—2,2

67

S 939

Opteron

2003

Sledgehammer

64+64

1024

0,13

800/НТ

1,4-2,4

55—95

S 940

2005

Venus,

Troy,

Athens

64+64

1024

0,09

1000/НТ

1,6—3,0

55—95

S 940

Athlon

64 X2

К8

2-

ядер-

ные

2005

Manchester

154

147

64x2

512x2

0,09

667—800

2,0—2,4

69—110

S 939

2005

Toledo

233

199

64x2

512x2

0,09

1000/НТ

2,0—2,4

89—110

S 939

2006

Windsor

243

220

128x2

512x2

0,09

1000/НТ

2,0—2,6

35—89

АМ2

2006

Brisbane

153,6

183

128x2

1024x2

0,09

2,0—2,8

65—89

АМ2

3.3. Микроархитектуры процессоров 297

Окончание табл. 3.6

Тип процессора

Архи

текту

ра

Год

выпуска

Кодовое

наименование

Количество транзисторов,

млн

Ядро,

мм

U-кэш,

Кбайт

12-кэш,

Кбайт

Размер минимальной структуры, мкм

Тактовая

частота

шины,

МГц

Тактовая частота процессора, МГц

Потреб

ляемая

мощность, Вт

Интерфейс

Типоп

  • 64/Х2
  • (мобиль

ный)

К8

2005—2006

Lancaster,

Richmond,

Taylor,

Tyler

64-164

256—1024

0,09—0,065

800 HT

1600—2400

31—35

Socket 754, Socket S1

ОрТегоп

Оиабгсоге

К10

2007

Barselona,

Budapest

463

283

64-164

256—512 + 13 (2048)

65

1000 HT

1700—2500

95

Socket F

ОрТегоп

Оиабсоге

К10

2008—2009

Shanghai

128

512 +13 (6 Мбайт)

45 нм

HT 3.0

2,3—2,7 ГГц

55—105

Socket F/1207

РИепот

К10.5

2008—2009

Shanghai

758

243

128

512 +13 (6 Мбайт)

45 нм

HT 3.0

2,3—2,7 ГГц

55—105

Socket F/1207

2008—2009

Deneb (4 ядра)

738

258

128>4

4x512 ЮВ+ +13 (6 МЮ)

45 нм

HT

4,0 ГГц

2,6—3,0 ГГц

95—140

AM2+AM3

2009

Propus

4x512 №В

45

HT

4,0 ГГц

2,1—2,8 ГГц

45—95

Socket АМЗ

2010

Thuban (6 ядер)

904

346

128x6

  • 6x512 КШ+ +13
  • (6 Мбайт)

45

HT

4,0 ГГц

2,6—3,3 ГГц; ДО 3,7 ГГц (Turbo Core)

45—95

Socket AM2-h Socket АМЗ

АМоп/ Рбепот >2 (2 ядра)

К10

2007—2008

Kuma/Rana

2 2512 Кбайт +13 (2 Мбайт)

65 нм

HT 2,8— 4,2 ГГц

1,9—2,4 ГГц

65—95

AM2+

2009

Regor

2x1 МГС

45 нм

HT

4,0 ГГц

2,0 ГГц

45—65W

Socket АМЗ

298 Глава 3. Процессоры: микроархитектуры и программирование

AMD К5. Длительное время AMD (Advanced Micro Devices), подобно Cyrix, производила центральные процессоры 286, 386 и 486, которые были основаны на разработках Intel. К5 был первым независимо созданным х86 процессором, на который AMD возлагала большие надежды.

К5 был разработан компанией AMD как конкурент процессору Intel Pentium. Он был представлен в 1995 г., более чем на год позже Pentium, кроме того, AMD не удалось выпустить К5, работающие на первоначально запланированной частоте. Процессор содержал 4,3 млн транзисторов и обладал хорошей совместимостью с х86, но не поддерживал набор инструкций ММХ. ЦП включал пять блоков ФЗ, поддерживающих внеочередное выполнение, один блок ПЗ, сравнимый по производительности с двумя такими же в Pentium.

Под маркой К5 выпускалось два варианта процессоров SSA/5 и 5k86. SSA/5 работал на частотах от 75 до 100 МГц, 5к86 — от 90 до 133 МГц. AMD использовала так называемый рейтинг производительности (PR rating) для маркировки процессоров. Этот рейтинг показывал, какому процессору Pentium эквивалентен данный К5 по производительности. Например, 116-МГц процессор «5к86» был маркирован «К5 PR166», поскольку AMD считала его производительность эквивалентной Pentium-166.

Проект К5 был одной из возможностей компании AMD перехватить техническое лидерство у Intel. Но хотя при разработке использовались верные дизайнерские концепции, инженерное воплощение оказалось недостаточным. Низкая тактовая частота процессора частично объясняется трудностями с производственными мощностями, которые испытывала компания в то время, однако вчетверо больший, чем у Pentium, буфер предсказания переходов не показывал лучшую производительность, блок ПЗ был менее производительным, чем у Pentium, и т. д. Из за опоздания с выходом на рынок и недостаточной производительности К5 так и не завоевал признания у производителей компьютеров.

Архитектура AMD Кб. Однако покупка компанией AMD основанного в Калифорнии конкурента весной 1996 г., кажется, создала возможность лучше подготовиться к своей следующей атаке на Intel.

Процессор Кб начал жизнь как Nx686, будучи переименованным после приобретения NextGen. Серия ММХ-совместимых процессоров Кб была запущена в середине 1997 г., за несколько недель до Cyrix 6х86МХ, и сразу была одобрена пользователями.

Изготовленный по 5-слойной технологии 0,35 мкм, Кб был почти на 20 % меньше, чем Pentium Pro и при этом содержал на

3,3 млн транзисторов больше (8,8 против 5,5 млн). Большинство этих дополнительных транзисторов находилось в кэше первого уровня на 64 Кбайт (32 Кбайт кэш команд и 32 Кбайт кэш данных). Это равносильно четырем Pentium Pro или двум Pentium MMX и Pentium II.

ЦП Кб поддерживал технологию MMX Intel, включая 57 новых х86 команд, разработанных для развития мультимедийного программного обеспечения. Как и Pentium Pro, Кб был многим обязан классическим технологиям RISC. Используя суперскалярную микроархитектуру AMD RISC86, чип декодировал каждую х86-инструкцию в ряд более простых команд, которые могли быть обработаны, используя типичные принципы RISC — такие, как выполнение команд вне естественного порядка, переименование регистров, предсказание переходов, спекулятивное исполнение, опережающая выборка данных.

ЦП Кб начинал с версий 166, 200 и 233 МГц. Уровень его производительности был очень схож с Pentium Pro соответствующих частот, у которого максимальный размер кэша 2-го уровня достигал 512 Кбайт. Общая черта с чипом Cyrix MX — работа с плавающей запятой — была областью относительной слабости (но в несколько меньшей степени) по сравнению с Pentium Pro или Pentium II.

AMD Кб- 2. Процессоры AMD Кб-2 с 9,3 млн транзисторов производились по 0,25-микронной технологии AMD. Процессор был упакован в 100 МГц 8ирег7-совместимую, 321-контактную керамическую плату (ceramic pin grid array package — CPGA).

Кб-2 включает инновационную эффективную микроархитектуру RISC86, большой (64 Кбайт) кэш первого уровня (двухпортовый кэш данных на 32 Кбайт, кэш команд на 32 Кбайт с дополнительным предрасшифровывающим кэшем на 20 Кбайт), а также улучшенный модуль работы с плавающей запятой. Эффективная производительность при его запуске в середине 1998 г. была оценена в 300 МГц, к началу 1999 г. самым быстрым из доступных процессоров была версия 450 МГц.

Трехмерные возможности К6-2 представляли другое важное достижение. Они были воплощены в AMD технологии 3DNow!, как новый набор из 21 команды, который дополнял стандартные команды ММХ, уже включенные в архитектуру Кб, что ускоряло обработку трехмерных приложений.

AMD Кб-III. В феврале 1999 г. AMD объявила о начале выпуска процессора Кб-III на 400 МГц под кодовым названием «Sharptooth» и опробовала версию на 450 МГц. Ключевой особенностью этого нового процессора была инновационная разработка — трехуровневый кэш (рис. 3.31).

Традиционно процессоры ПК использовали два уровня кэша:

  • • кэш первого уровня (L1), который обычно помещался в кристалле (on-die);
  • • кэш второго уровня (L2), который мог располагаться либо вне ЦП, на материнской плате или слоте, либо непосредственно на чипе ЦП (on-chip).

Общее эмпирическое правило при проектировании подсистемы кэша — чем больше и быстрее кэш, тем выше производительность (ядро центрального процессора может быстрее получить доступ к инструкциям и данным).

Процессор Кб

Рис. 3.31. Процессор Кб

Признавая выгоды большого и быстрого кэша в удовлетворении потребностей приложений, все более требовательных к производительности ПК, «трехуровневый кэш» компании AMD вводил архитектурные новшества кэша, разработанные для увеличения производительности ПК на основе платформы Super7:

  • • внутренний Ь2-кэш (256 Кбайт), работающий на полной скорости процессора AMD-K6-III и дополняющий кэш L1 (64 Кбайт), который был стандартен для всего семейства процессоров AMD-K6;
  • • многопортовый внутренний кэш, позволяющий одновременное 64-битовое чтение и запись как кэшу L1, так и L2;
  • • первичная процессорная шина (100 МГц), обеспечивающая соединение с резидентной кэш-памятью на системной плате, расширяемой от 512 до 2048 Кбайт.

Проект многопортового внутреннего кэша процессора AMD-K6-III позволил как кэшу L1 (64 Кбайт), так и кэшу L2 (256 Кбайт) выполнять одновременное 64-битовое чтение и запись операций за один такт процессора. В дополнение к этому многопортовому проекту кэша ядро процессора AMD-K6-II1 было в состоянии получить доступ к кэшам L1 и L2 одновременно, что увеличивало общую пропускную способность центрального процессора.

Процессоры AMD К7. К этому типу относятся ЦП Athlon, Athlon ХР/МР, Sempron. К7 — первый из семейства микропроцессоров х86 7-го поколения, в котором присутствуют конструктивные решения, до сих пор не применявшиеся в процессорах архитектуры х86 и сулящие выигрыш в быстродействии даже при одинаковых тактовых частотах (рис. 3.30, б, в, рис. 3.32):

• многократные декодеры. Если Pentium II (Katmai) разбивает CISC х86-команды на более мелкие и быстрые RISC-команды, которые затем можно параллельно исполнять, то К7 оперирует блоками х86-инструкций, которые AMD называет МакОП (macroOPS, mOPs). Некоторые такие блоки могут содержать одну х86-инструкцию, а большинство содержит две. Например, «прочитать данные в регистр и инвертировать их». Конвейер декодирования инструкций может обрабатывать до 3 МакОП за цикл, после этого они идут в модуль контроля инструкций (ICU). Всего в обороте одновременно могут находиться до 72 х86-команд. С одной стороны, такие блоки, несомненно, больше небольших RISC-команд, с другой стороны, за счет такого подхода

Интерфейс шины

Архитектура AMD К7 (Athlon)

Рис. 3.32. Архитектура AMD К7 (Athlon)

ядро может непосредственно работать с х86-инструкциями вместо того, чтобы эмулировать их через RI S С-команды;

  • • блок контроля команд. Как только МакОП расшифрована за цикл до трех МакОП посылаются на блок управления инструкциями (Instruction Control Unit — ICU). Это буфер, который управляет выполнением каждой МакОП в целом, осуществляет переименование регистра для операндов, управляет любыми условиями исключения и действиями команды, посылает МакОП планировщику исполнения. ICU рассчитан на 72 инструкции против 20 у Pentium III; увеличивая этот буфер, удалось добиться того, чтобы дешифратор команд не простаивал из-за его переполнения;
  • • благодаря наличию трех конвейерных блоков исполнения целочисленных команд (АЛУО—АЛУ2), К7 может выполнять три целочисленные инструкции параллельно;
  • • новая архитектура узла вычислений с плавающей точкой (FPU). К7 содержит три узла вычислений с плавающей точкой, любой из которых способен принимать на вход инструкции каждый такт работы процессора. При этом один узел служит исключительно для выполнения команды FSTORE
  • (запись в память числа с ПЗ) и назначение этого узла — обеспечивать обмен между регистрами и памятью в то время как процессор выполняет другие инструкции. Остальные два — блок сложения (adder) и блок умножения (multiplier). Оба блока полностью конвейеризованы (fully pipelined);
  • • 200-мегагерцовая системная шина;
  • • кэш L1 увеличился в 2 раза — до 128 Кбайт;
  • • модернизируемый кэш L2 размещен по примеру Pentium II в картридже, а не интегрирован в кристалл, как для К6-3. К7 может включать кэш L2 размером от 512 Кбайт в дешевых моделях до 8 Мбайт в серверах;
  • • расширенный набор команд 3DNow! — модернизирован добавлением 24 новых команд к исходным 21 инструкциям 3DNow! (19 команд, чтобы улучшить целочисленные математические вычисления ММХ и передачу данных в Internet-приложениях, и 5 команд DSP-расширения для обычных модемов, модемов ADSL, систем Dolby Digital и MP3).

AMD Athlon. Выпуск процессора Athlon летом 1999 г. был наиболее удачным ходом AMD. Это позволило им гордиться тем, что они произвели первый процессор седьмого поколения (у него было достаточно много радикальных архитектурных отличий от Pentium I I/I II, и K6-III, чтобы заслужить название процессора следующего поколения), и это означало также, что они вырвали технологическое лидерство у Intel.

Древнегреческое слово Athlon означает «трофей» или «игры». Athlon — процессор, с помощью которого AMD надеялась увеличить реальное конкурентоспособное присутствие в корпоративном секторе, помимо ее традиционного преимущества на потребительском рынке и рынке трехмерных игр. Ядро размещается на кристалле в 102 мм2 и содержит приблизительно 22 млн транзисторов.

Atlon использует разъем Slot А компании AMD, который является механически совместимым с системными платами с разъемом Slot 1, но использует другой электрический интерфейс, подразумевая, что центральные процессоры Athlon не будут работать с обычной Slot 1 системной платой. Slot А разработан, чтобы электрически соединяться с системной шиной на 200 МГц, основанной на шинном протоколе Alpha EV6, предоставляя, таким образом, существенное преимущество в производительности перед инфраструктурой Slot 1. Так же, как обеспечение ее собственного оптимизированного чипсет-решения (чипсет AMD-750, см. рис. 4.26), компания работает над тем, чтобы вынуждать сторонних поставщиков чипов способствовать поставке ее собственных Athlon-оптимизированных решений.

Athlon первоначально выпускался в диапазонах скорости 500, 550 и 600 МГц и немного позднее — 650 МГц (все изготовлены по технологии 0,25 мкм). К концу 1999 г. AMD еще более повысил частоту — его ядро К75 (750 МГц), является первым процессором, построенным с использованием алюминиевой 6-слойной технологии 0,18 мкм компании AMD.

Утверждение о том, что это был самый быстрый х86-совмес-тимый ЦП тысячелетия, спорно, поскольку Intel быстро ответила объявлением Pentium III (800 МГц). Однако AMD вскоре вернула лидерство 2000 г. выпуском версий на 800 и 850 МГц и даже преуспела в опережении Intel в преодолении барьера 1 ГГц буквально на несколько недель.

Thunderb i г d. В середине 2000 г. была выпущена улучшенная версия Athlon с кодовым названием «Thunderbird».

Технология 0,18 мкм, кэш-память 2-го уровня (L2) размером в 256 Кбайт расположена на плате процессора и работает на полной частоте процессора (первые процессоры Athlon имели кэш L2, работавшую на меньших частотах, например при частоте в 1 ГГЦ, память L2 работала на 330 МГц).

Интерфейсы — 462-контактный Socket А и Slot А. Частоты от 0,75 до 1 ГГц. Размещение 256 кбайт памяти на кристалле привело к увеличению его размера до 120 мм2 (102 мм2 для ядра). Однако, он меньше исходного (0,25-micron) К7 Athlon, который занимает 184 мм2. Добавление 256 Кбайт к L2-K3iny на кристалле весьма увеличивает число транзисторов. ЦП Thunderbird включает 37 млн транзисторов, т. е. 15 млн добавились для размещения кэша L2.

Осенью 2000 г. был выпущен чипсет AMD760 (см. далее), обеспечивающий поддержку для памяти DDR SDRAM PC 1600 (200 МГц FSB) и РС2100 (266 МГц FSB). Другие особенности — AGP 4-х, 4 порта USB, адресация памяти 8 Гбайт на 4 DIMM и поддержка АТА-100. С этого момента процессоры Athlon выпускались только для разъемов Socket А. Последние из процессоров Athlon/Thunderbird были выпущены летом 2001 г., достигнув частоты 1,4 ГГц.

Duron. В середине 2000 г. был выпущен процессор Duron, предназначенный для дома и офиса (вариант Athlon, ядро —

Spitfire). Название происходит от латинского «durare» — «вечный», «длительный». Кэш-память L1 (128 Кбайт, по 64 Кбайта на код и на данные) и L2 (64 Кбайт) размещается на плате. Первичная системная шина работает на частоте 200 МГц. Поддерживается улучшенная технология 3DNow! Технология 0,18 мкм, частоты 600, 650, 1000, 1200 МГц. Интерфейс — 462-контактный разъем Socket А.

Содержит 25 млн транзисторов и имеет площадь 100 кв. мм, использует высокопроизводительную 100 МГц DDR (Double Data Rate, фактически данные передаются на частоте 200 МГц) системную шину EV6, все подсистемы работают на полной частоте ядра, напряжение питания — 1,5 В.

Palomino (серия Athlon ХР, «ХР» — «Extra Performance», сверхпроизводительность). Процессор выполнен по технологии 0,18 мкм с использованием медных проводников на плате (вместо алюминия), содержит 37,5 млн транзисторов на кристалле в 128 мм2. Достигнуто понижение на 20% энергопотребления сравнительно с Thunderbird. Введен ряд новшеств, в совокупности именуемых AMD как «QuantiSpeed Architecture»:

  • • введение дополнительного буфера — буфера быстрого преобразования адреса (БПА, TLB — Transition Lookaside Buffer). Это дополнительная кэш-память, расположенная между L1 и L2. В частности, TLB содержит данные, которые используются для перевода виртуальных адресов в физические и наоборот. Вероятность того, что процессор найдет необходимые данные в TLB (или TLB hit-rate), оказывается достаточно высокой;
  • • поддержка SSE-технологии Intel. В Palomino добавлены еще 52 новые команды SIMD по отношению к ранее имевшимся. Удвоено количество исходных 21 SIMD-команд, реализующих «3DNow!», и получена технология «Enhanced 3DNow!» («3DNow! Professional»);
  • • использование технологии упаковки О PGA (organic PGA) для замещения CPGA (ceramic PGA), которая использовалась ранее. Применение пластмасс вместо керамики технологичнее, платы оказываются легче и обладают лучшими тепловыми свойствами. Кроме того, можно плотнее размещать навесные элементы, что уменьшает наводки и помехи. OPGA размещаются на уже известном разъеме Socket А.

Morgan. Morgan представляет модификацию процессоров AMD, первоначально представлял ядро Palomino с удаленными 3/4 кэша L2 (64 Кбайт вместо 256 Кбайт). Размер кристалла — 106 мм2, число транзисторов — 25,18 млн. Напряжение питания было изменено от 1,6 до 1,75 В.

Thoroughbred. Летом 2002 г. AMD начала поставлять первый процессор с технологией 0,13 мкм и медными соединителями. Площадь кристалла — 80 мм2 (у его предшественников — 128 мм2). Питание — 1,65 В, размеры кэша на кристалле — 128 Кбайт для L1 и 256 Кбайт для L2, разъем — Socket А. Эквивалентная производительность Athlon ХР — 2400+ или 2600+.

Однако ядро Thoroughbred рассматривать как простую переделку Palomino с учетом новых норм технологического процесса все же не совсем верно. Thoroughbred по своей внутренней структуре значительно отличается от Palomino, в этом можно убедиться хотя бы по внешнему виду процессорных ядер (рис. 3.33).

Процессорные ядра Athlon ХР

Рис. 3.33. Процессорные ядра Athlon ХР: а — Palomino; б — Thoroughbred

Barton. В феврале 2003 г. AMD начинает выпускать первый процессор, основанный на обновленном ядре Athlon ХР (кодовое наименование «Barton»). В то время как этот чип Athlon 3000+ имел все особенности предыдущего процессора Athlon ХР, новое ядро позволило организовать более эффективный дизайн памяти, чем в любых предыдущих процессорах Athlon. Это связано с тем, что здесь были объединены лучшие характеристики предшественников — кэш L2, работающий на полной скорости (Thunderbird и его последователи), и больший размер кэша в 512 Кбайт исходного процессора Athlon.

Вследствие большего кэша здесь существенно увеличивается размер кристалла, который включает 56 млн транзисторов и измеряется 101 мм2. Это представляет существенное возрастание по сравнению с ЦП Thoroughbred (54,3 млн транзисторов на 84 мм2).

Однако ядро Barton предусматривает более быстрый доступ к главной памяти — в то время как более ранние ЦП Athlon ХР характеризуются частотой FSB 266 МГц (133 х 2), здесь частота FSB составляет 333 МГц (166 х 2).

В итоге Athlon ХР 3000+ показывает более высокую эффективность сравнительно с более ранним Athlon ХР 2800+, несмотря на меньшую тактовую частоту (2,167 ГГц против 2,250).

Появление ЦП Athlon 64 осенью 2003 г. подразумевало сход со сцены процессоров Barton, и последний процессор Athlon ХР (модель 3200+) вышел не более чем через три месяца после появления первых изделий Barton.

Sempron. Летом 2004 г. AMD объявила о выходе ЦП семейства Sempron. Первоначально задуманный как преемник успешного ЦП Duron и прямой конкурент процессору Celeron D (Intel, 90 нм), диапазон применения Sempron фактически перекрыл диапазон Athlon AMD ХР и поставил фирмы, выпускающие настольные и мобильные ПК перед выбором — либо Sempron, либо Athlon 64.

Все первые ЦП базировались на технологии AMD 130 нм. Наиболее мощные образцы (3100+) выпускаются в формате интерфейса Socket 754 (Athlon 64 — в формате Socket 939). Другие участники семейства — от 2 ГГц (2800+) до 1,5 ГГц (2200+) —используют Socket А.

В дальнейшем Sempron предполагается перевести на технологию 90 нм и интерфейс Socket 939.

Архитектура К8. Эта архитектура используется во всех современных серверных, настольных и мобильных процессорах AMD (Opteron, Athlon 64 и Athlon 64 Х2). Первым из процессоров К8 являлся Hammer (середина 2000 г.).

Одним из главных новшеств К8 является 64-разрядная архитектура х86-64 ISA. Примером 64-разрядных процессоров (IA-64) является Intel Itanium (см. рис. 3.19). Однако между 64-разрядны-ми архитектурами процессоров Itanium и К8 мало общего. Itanium — процессор, несовместимый с системой команд х86, тогда как К8, напротив, таковым является.

Стратегия AMD на 64 бита (х86-64) заключается в следующем — за основу взято производительное х86-ядро и расширен набор инструкций для возможности адресации 64-битового пространства памяти.

Особенности архитектуры х86-64 ( А М D 6 4):

  • • обратная совместимость с инструкциями х86;
  • • 8 новых 64-разрядных РОН плюс 64-разрядные версии прежних 8 РОН х86 (доступны лишь в 64-разрядном «длинном» режиме — табл. 3.7);
  • • поддержка SSE и SSE2 помимо восьми новых регистров SSE2;
  • • увеличен объем адресуемой памяти для приложений, работающих с большими объемами данных (доступно лишь в «длинном» режиме);
  • • высокая производительность 32-разрядных приложений, плюс поддержка появляющихся 64-битовых приложений, хороший вариант переходного процессора.

Таблица 3.7. Режимы процессоров К8

Режим

Подрежим

Назначение

Адресуемая память, Гбайт

Операционная система

Примечания

«Преемст

венный»

(Legacy

Mode)

Нет

Работа со всеми 16- или 32-би-

товыми

х86-приложе-

ниями

4

32-раз-

рядная

Используются только

32 разряда в 64-разрядных регистрах. Дополнительные 64-разрядные регистры не задействованы. Перекомпиляция ПО не требуется

«Длинный»

(Long

Mode)

Полный (64 разряда)

Работа с 64-раз-рядными приложениями (инструкции х86-64)

Более 4

64-раз-

рядная

Используются 64-разрядные основные и дополнительные регистры. Требуется перекомпиляция старых программ

Совместимости (Compatibility Mode)

Запуск 32-разрядных программ в 64-раз-рядной ОС

  • 2 в 32-бито-вой ОС,
  • 4 в 64-битовой ОС

Используются только

32 разряда в 64-разрядных регистрах. Дополнительные 64-разрядные регистры не задействованы. Перекомпиляция ПО не требуется

Основные недостатки:

  • • процессор продолжает поддерживать архитектуру х86, которая достаточно устарела;
  • • новые РОН можно использовать лишь в 64-разрядном режиме, что не позволяет повысить производительность 32-разрядных приложений посредством улучшения архитектуры системы команд.

Для реализации возможности работы как с 32-, так и с 64-би-товыми приложениями процессоры К8 поддерживают два режима работы — Long Mode и Legacy Mode. В режиме Long Mode также предусмотрено два подрежима — 64-битовый и Compability mode (совместимый) — табл. 3.7.

Некоторые прочие особенности К8 (рис. 3.34):

• контроллер памяти интегрирован в сам процессор. Традиционно он располагается в северном мосте чипсета на системной плате. Собственно говоря, контроллер памяти — это основной функциональный блок «северного моста» (в чипсетах Intel он так и называется — МСН, Memory Controller Hub). Преимущество такого решения очевидно — контроллер памяти работает на частоте процессора, а следовательно, обладает низкой латентностью, которая будет тем меньше, чем больше частота, на которой работает процессор;

Архитектура AMD К8

Рис. 3.34. Архитектура AMD К8

  • • встроенный порт («линк») шины HyperTransport — универсальной шины межчипового соединения — элемент транспьютерной архитектуры (см. рис. 2.46). В процессорах К8 Opteron может быть до 3—4 линков HT, что позволяет комбинировать их в 3- и 4-мерные кластерные структуры (см. рис. 2.41, а также рис. 2.42);
  • • архитектура К8 разработана с перспективой создания многоядерных процессоров и многопроцессорных систем: если ЦП Intel Xeon может продемонстрировать лишь 11%-ное увеличение производительности при переходе к двум процессорам, то в случае с Opteron оно составляет 24 %;
  • • усовершенствован блок предсказания переходов — для увеличения точности он содержит историю 16 000 переходов, а также 2000 адресов назначения.

Декодирование команд здесь происходит по схеме, близкой к рис. 3.6, г. Исполнение инструкций на конвейере К8 начинается с блока выборки инструкций (см. рис. 3.2, а, рис. 3.34). За один такт блок выбирает из кэша 16 байт данных и выделяет из них от одной до трех инструкций х86 — сколько в выбранных данных поместилось. Поскольку средняя длина команды х86 составляет 5—6 байт, то, как правило, блоку удается выбрать три команды за такт.

На втором такте конвейера выбранные команды распределяются по трем блокам декодирования инструкций. Самые сложные команды отправляются в декодер сложных команд (VectorPath), другие — в декодеры простых команд (DirectPath).

Исходные х86-инструкции на завершающих этапах работы декодера К7/К8 переводятся в макрооперации, или МакОПы (mOPs). Большинству х86-инструкций соответствует одна МакОП, некоторые преобразуются в 2 или 3, а наиболее сложные, например деление или тригонометрические, — в последовательность из нескольких десятков МакОП. Макрооперации имеют фиксированную длину и регулярную структуру.

Условно можно считать, что в определенный момент МакОп может «расщепляться» на две микрооперации (МкОП, цОП). Как правило, в К7 и в К8 МакОП содержит две МкОП — одну для АЛ У (ALU) (или блока ПЗ — FPU), другую — для УВА (устройства вычисления адреса, AGU — Address Generation Unit).

За счет конвейеризации возможны ситуации, когда одновременно в разных блоках процессора будут выполняться до двух десятков команд — и в К7, и в К8 имеется десять исполнительных устройств — три ALU, три FPU, три AGU и отдельный блок умножения.

Подобно тому, как объединение двух отдельных МкОП в одну МакОП дает явные преимущества, точно так же дела обстоят и с самими МакОП — практически везде они выступают не в виде самостоятельных единиц, а в виде группы. Группу образуют три МакОП, которые одновременно запускаются на параллельные каналы.

Вся дальнейшая работа идет не с одиночными, а с «тройками» МакОП («линиями», line). Такая «линия» воспринимается центральным управляющим блоком процессора ICU как единое целое: все основные действия выполняются именно над «линиями», в первую очередь — выделение внутренних ресурсов.

Сгенерированные линии от декодеров по одной за такт поступают в блок управления командами — Instructions Control Unit (ICU), где подготовленные к исполнению линии накапливаются в специальной очереди (24 линии).

Из очереди в 24 линии (по три МакОП в каждой) ICU выбирает в наиболее удобной для исполнения последовательности одну-три МакОП и пересылает их либо на АЛ У, либо на блок ПЗ в зависимости от типа микрооперации. В случае АЛУ микрооперации сразу же попадают в очередь планировщика (шесть элементов по три МакОП), который подготавливает необходимые для исполнения микрооперации ресурсы, дожидается их готовности и только потом отправляет. Причем при исполнении одной МакОП на самом деле может происходить исполнение сразу двух действий (МкОП).

Подготовка данных в планировщике занимает (в идеальном случае) один такт, исполнение — от одного (подавляющее большинство инструкций) до трех (при обращении к оперативной памяти) и даже пяти (64-разрядное умножение) тактов.

С блоком ПЗ (FPU) все обстоит сложнее. Для начала вышедшие из ICU МкОП проходят две стадии по подготовке их операндов. Затем накапливаются в планировщике FPU (двенадцать элементов по три МакОП), который по аналогии со своим целочисленным аналогом дожидается, пока данные для этих МакОП будут готовы, а исполнительные устройства освободятся, и распределяет накопленные МакОП по трем исполнительным устройствам. Но в отличие от целочисленной части конвейера (где содержатся по три одинаковых блока АЛУ и УВА), исполнительные устройства ПЗ специализированы — каждое производит только свой специфический набор действий над числами с плавающей запятой. Время выполнения — два такта на переименование и отображение регистров, один такт на планирование и ожидание операндов, четыре такта на собственно исполнение.

Hammer. Процессор, первоначально имевший кодовое имя «Sledgehammer», а в дальнейшем «Hammer», был выпущен в середине 2000 г.

В процессоре Hammer используется улучшенная конвейеризация, предполагающая 12-стадийный конвейер вычисления с ФТ и 17-стадийный конвейер для ПТ. Это связано с необходимостью упаковки-распаковки данных и команд при их передаче и декодировании. Одним из главных новшеств процессора Hammer является 64-разрядная архитектура х86-64 ISA.

Athlon 64. Осенью 2003 г. вышли две модели процессора AMD — Athlon 64 для массового рынка и Athlon 64 FX-51 для мультимедийных и профессиональных приложений (архитектура К8). В системе обозначений AMD Athlon 64 имеет эквивалентную частоту 3200+, при физической частоте 2 ГГц (FX-51 чуть выше — 2,2 ГГц).

Процессор приспособлен как для 32-, так и для 64-битовых приложений. Поддерживаются системы ОЗУ типов РС3200, РС2700, РС2100 или РС1600 DDR SDRAM. Установлены наибольшие по размерам для данного момента модули кэш-памяти на процессоре — 64 Кбайт L1 — кэш команд; 64 Кбайт L1 — кэш данных. Общая кэш-память может достигать 1152 Кбайт.

В то время как Athlon 64 использует 64-битовый одноканальный контроллер памяти, FX-51 включает 128-битовый двухканальный контроллер памяти на чипе.

Первоначально размер кэша 2-го уровня — 512 Кбайт, как и для Athlon ХР. Затем он был увеличен до 1 Мбайта, в связи с чем здесь число транзисторов достигло 106 млн по сравнению с 54 млн для Athlon ХР.

Процессор выпускается по технологии 0,13 мкм, разработанной в филиале AMD, Дрезден, Германия. Система команд AMD64, х86-64 — расширение AMD для команд Intel х86 — несовместима с Intel IA-64 архитектурой, например поддерживаемой в серверных процессорах Itanium. Однако AMD поддерживает полную совместимость с 32-битовыми процессорами ПЭВМ, выпускаемыми как Intel, так и AMD.

В то же время, когда AMD объявила Athlon 64, фирма Microsoft заявила о выпуске бета-версии Windows ХР 64-Bit

Edition для 64-битовых процессоров, которая может работать естественно как на процессорах AMD Athlon 64 (ПЭВМ), так и AMD Opteron (рабочие станции). Хотя здесь и поддерживаются все существующие 32-битовые приложения, 32-битовые драйверы устройств должны быть обновлены и перетранслированы.

Интересно, что Intel в начале 2004 г. объявила, что будущие версии процессора Prescott (Socket Т) будут включать 64-битовые расширения х86, совместимые с AMD 64-битовой архитектурой.

Athlon 64 Х2. AMD снова оказалась впереди Intel, продемонстрировав действующий экспериментальный образец двухъядерного процессора летом 2004 г., и поэтому Intel вызвала всеобщее удивление, все же выйдя первой на рынок с двухъядерным процессором весной 2005 г. Однако, несмотря на то, что AMD 64 Х2 был только короткое время позади Pentium Extreme Edition и Pentium D по датам выхода на рынок, он значительно опережал их по показателям эффективности.

Athlon 64 Х2 включает все возможности, заложенные в единственном ядре дизайна Athlon 64 (такие, как HyperTransport и Enhanced Virus Protection — EVP). Когда ЦП работает под ОС Windows ХР (SP2), EVP интерпретирует области системной памяти как «только данные», так что любой находящийся здесь фрагмент кода может быть либо прочитан, либо записан, но не может быть выполнен как код программы. Тем самым EVP действует как профилактическая мера против обычных злонамеренных вирусов, локализуя и обезвреживая их.

Когда процессоры Х2 были впервые выпущены, они показали большую производительность, чем самые быстрые в то время одноядерные процессоры (4000+), а именно 4200+, 4400+, 4600+ и 4800 +. Двухъядерные системы работают медленнее, чем единственное ядро для некоторых процессов, что затрудняет точное сравнение. Однако специалисты AMD считают, что Х2 обеспечивает 80%-ное превышение эффективности над системами с единственным ядром (при той же самой частоте) при выполнении приложений с обработкой мультимедийной информации.

Основная архитектура ядра Х2 по существу та же, как и у Athlon 64. Различие в том, что новые чипы, размещаемые на единственном кристалле в 199 мм2, причем каждый содержит более чем 233 млн транзисторов, изготовлены по технологии AMD 90 нм.

Степень интеграции двойных ядер больше, чем в системах Intel — два ядра AMD способны к прямой связи без использования внешней платы и чипсета и фактически совместно используют объединенный контроллер памяти.

Таким образом, спецификации первоначально объявленного диапазона Athlon 64 Х2 были эквивалентны таковым из существующих ЦП на 3500+, 3700+, 3800+ и 4000+, с изменением кэша L2 и тактовой частоты. Модели с 512 Кбайт кэша на ядре базируются на двойном ядре «Winchecter», в то время как версии кэша L2 на 1 Мбайт используют дизайн «Toledo». К лету 2005 г. диапазон был расширен с появлением нового чипа (3800 +).

Кроме скорости, другим существенным преимуществом, который системы AMD имеют по сравнению с Intel, является совместимость и, следовательно, возможность обновления существующих систем. Принимая во внимание, что ЦП Intel требуют новый чипсет и VRM, чтобы справиться с увеличением мощности (при этом сокращается напряжение питания ядра от 1,50 до 1,35 В), AMD спроектировала двухъядерный чип, соответствующий тому же самому разъему с 939 штырьками, что и у одноядерных процессоров. При этом достигается совместимость с существующими системными платами для Athlon 64 (90 нм) и только требуется модификация BIOS.

Tu г ion 64 — семейство 64-битовых мобильных (с низким энергопотреблением) процессоров. Данные процессоры, включая и Turion 64 Х2, являются ответом AMD на линейку мобильных процессоров компании Intel — Pentium М и Intel Core.

Процессоры Turion 64 (кроме Turion 64 Х2) совместимы с интерфейсом Socket 754 компании AMD и включают от 512 до 1024 Кбайт кэша 2-го уровня, 64-битовый одноканальный контроллер памяти, интегрированный на ядро, и шину HyperTransport (800 МГц). Основной акцент при позиционировании и продвижении данного процессора на рынке делается на его энергосберегающие функции, такие как PowerNow! и Cool & Quiet.

Lancaster (выпущен 10 марта 2005 г.) изготовлен по технологии 90 нм (SOI), кэш L1 составляет 64 + 64 Кбайт (команды и данные), кэш L2 — 512 или 1024 КБ, работающий на скорости ядра. Процессор поддерживает технологии MMX, Extended 3DNow!, SSE - SSE3, AMD64, PowerNow!, NX Bit.

Напряжение питания ядра: 1,00—1,45 В, потребление энергии (TDP) — максимум 25/35 Вт, диапазон частот — 1600, 1800, 2000, 2200, 2400 МГц, интерфейс — Socket 754, системная шина — HyperTransport (800 МГц, НТ800).

Richmond (1 сентября 2006 г.), технология изготовления 90nm (SOI), LI-кэш: 64 + 64 KiB (команды и данные), Ь2-кэш: 512 KiB (полная скорость ядра). Поддерживается стандартный список технологий (см. выше).

Напряжение питания ядра — 1,00—1,45 В, энергопотребление (TDP) — максимум 31 Вт, частоты — 2000, 2200 МГц, интерфейс Socket SI, HyperTransport (НТ800).

Tu ri on 64 X2 — двухъядерный мобильный 64-разрядный процессор AMD. Он конкурирует с процессорами Intel Core и Core 2. Процессор Turion 64 Х2 был представлен компанией AMD 17 мая 2006 г. после нескольких задержек. Процессор устанавливается в разъем Socket SI и использует память DDR2. В Turion 64 Х2 используются более совершенные энергосберегающие технологии по сравнению с предыдущими процессорами компании.

Первые модели Turion 64 Х2 производятся с использованием 90 нм SOI процесса компании IBM (Taylor). В дальнейшем осуществляется переход на 65 нм процесс (Tyler), вероятнее всего на основе технологии напряженного кремниево-германиевого процесса, который был недавно совместно разработан исследователями IBM и AMD и который является более совершенным по сравнению с другими 65 нм процессами.

Taylor (17 мая 2006 г.), технология 90 нм (SOI), кэш первого уровня: 64 (данные) + 64 (инструкции) Кбайт в каждом ядре; кэш второго уровня: 256 или 512 КБ в каждом ядре, работает на скорости ядра, поддерживает стандартные технологии. Контроллер памяти — двухканальный DDR2, 667 МГц. Интерфейс Socket SI, HyperTransport (800 МГц, НТ800), энергопотребление (TDP): 31, 33, 35 Вт максимум, частота: 1600, 1800, 2000 МГц.

Tyler (первая половина 2007 г.), технология 65 нм (SOI), кэш первого уровня: 64 + 64 Кбайт (данные + инструкции) в каждом ядре, кэш второго уровня: 512 Кбайт в каждом ядре, работает на скорости ядра. Контроллер памяти — двухканальный DDR2, 800 МГц, поддерживает стандартные технологии. Интерфейс Socket SI, HyperTransport, энергопотребление (TDP): 35 Вт максимум.

К9. Об архитектуре AMD К9 в анналах истории не сохранилось достоверных упоминаний... Есть сведения, что проект AMD Greyhound (2001—2003 гг.) имел кодовое название К9, кроме того, утверждают, что под этой вывеской первоначально объявлялся Athlon 64 Х2.

Существует, кроме этого, легенда о том, что «брэнд К9» был отвергнут разработчиками в связи с его сомнительным звучанием на английском языке — К9 (K-nine) произносится как ['kei'nain], т. е. аналогично латинскому «canina» («собачий»). Так это или не так, но следующим заметным шагом в АМ D-архитектурах стала архитектура К10.

Архитектура К10 представляет собой следующее поколение архитектур AMD. Впервые о существовании новой микроархитектуры заявил в апреле 2006 г. Henri Richard, исполнительный вице-президент AMD, директор департамента маркетинга и продаж. Рассмотрим характеристики микроархитектуры К10 (рис. 3.35, 3.36).

Микроархитектура К10 (символом «*» отмечены количественные или

Рис. 3.35. Микроархитектура К10 (символом «*» отмечены количественные или

качественные отличия от К8)

Блок операций с n3/SIMD/x87 (80 разрядов)

Блок записи/ считывания данных

Конвейер целочисленных операций

Конвейер

декодирования/

ротации/

ветвления

Блок операций с ri3/SIMD/x87 (64 разряда)

Кэш данных L1, 64 Кбайт

Контроллер кэша L2

Кэш команд L1, 64 Кбайт

Рис. 3.36. Одиночное ядро процессора архитектуры К10

Интерфейсы:

  • • Socket АМ2+ для процессоров Athlon 64 Х2, Phenom Х2 и Phenom Х4, а также для одноядерных ЦП Opteron и Socket F+ для процессоров Phenom FX, ориентированных на 4-процессорные платформы AMD Quad FX, а также для многоядерных ЦП Opterons, с поддержкой HyperTransport 3.0 и использованием банков ОП DDR2 DIMM;
  • • обратная совместимость с системными платами, укомплектованными разъемами Socket АМ2 и Socket F.

Добавление и расширение набора команд:

  • • новые команды обработки битовых строк: подсчет ведущих нулей и битов, установленных в единицу — lzcnt (Leading Zero Count) и popcnt (Population Count);
  • • новые команды SSE (названы SSE4a): комбинированного маскирования-сдвига (extrq/insertq) и потоковой записи данных в ОП (movntsd/movntss). Эти инструкции отсутствуют в Intel-SSE4;
  • • поддержка SSE-операций по загрузке невыравненных данных в ОП (ранее требовалось 16-байтовое выравнивание);
  • • добавлен блок ABM (Advanced bit manipulation), предназначенный для поддержки программных средств мультимедийной обработки (например, Microsoft Visual Studio 2008, а также улучшения генерации кода Visual C++ — см. рис. 1.10).

Усовершенствование конвейера исполнения (си. также рис. 3.34):

  • • блоки операций SSE на 128 разрядов;
  • • более «широкий» интерфейс с кэшем данных L1 (запись 128 бит за цикл, сравнительно с 64 битами на цикл для К8);
  • • меньшие задержки для операций целочисленного деления;
  • • блок косвенного предсказания переходов (indirect branch predictor) на 512 входов, более емкий стек возвратов (return stack) и буфер точек перехода (branch target buffer), размер удвоен по сравнению с К8;
  • • оптимизатор регистрового стека, связанный с увеличением/уменьшением указателя стека;
  • • ускорение исполнения инструкций call и RET-imm а так-же команд пересылки (MOV) из регистров SIMD в РОН.

Интеграция новых технологий в кристалл ЦП:

  • • 4-ядерные процессоры (Quad-core);
  • • Dynamic Independent Core Engagement (DICE) или Enhanced PowerNow! — разделение управления энергопотреблением между ядром ЦП и контроллером памяти (Northbridge), что позволяет им управлять питанием независимо;
  • • технология CoolCore, позволяющая отключать питание от незагруженных цепей ядра ЦП.

Усовершенствования в системах памяти:

  • • уменьшение задержек памяти:
    • — чтение команд и запись данных, связанные с перестановкой команд, выполняются ранее других аналогичных операций;
    • — более активная стратегия предвыборки команд (выбор 32 байтов вместо 16 для К8);
    • — использование памяти DRAM для предвыборки при буферизованном считывании;
    • — буферизованная пакетная обратная запись в ОП для снижения вероятности конфликтов;
  • • изменение в иерархии памяти:
  • — предвыборка команд непосредственно в кэш LI (L2 для семейства К8);
  • — кэш-память L3 (частично ассоциативная, 32 входа, объем не менее 2 MiB), разделяемая между ядрами ЦП (каждое из которых имеет 512 KiB эксклюзивного кэша L2), размещенными на одном кристалле;
  • — расширяемая кэш-память L3 (например, 6 MiB для процессора Shanghai, технология 45 нм);
  • • усовершенствования в управлении адресным пространством:
  • — два независимых 64-разрядных контроллера памяти, каждый со своим физическим адресным пространством. Это создает возможность лучшего использования доступной пропускной способности при случайных обращениях к памяти, инициируемых многопроцессными задачами. В К8 («interleaved» design) два канала данных были связаны с единственным адресным пространством;
  • — буфер TLB (Tagged Lookaside Buffers) большего размера (1 GiB) и новый страничный TLB (128 входов, 2 MiB);
  • — адресация памяти в 48 разрядов, что теоретически обеспечивает доступ к 256 TiB;
  • — зеркалирование (mirroring) памяти, улучшенная адресация строк ОП (RAS);
  • — технология AMD-V (virtualization, или вложенные таблицы страничной адресации), что снижает время переключения на 25 %.

Усовершенствования в интерфейсах:

  • • поддержка режима повторных пересылок в HyperTransport;
  • • обеспечение для HyperTransport 3.0 восьми связей «точка-точка» для каждого процессорного разъема.

Другие усовершенствования:

  • • автоматическая модуляция частоты тактового генератора;
  • • повышение скважности импульсов тактового генератора;
  • • поддержка сопроцессоров через разъемы НТХ или свободные гнезда ЦП посредством интерфейса HyperTransport.

Barcelona. В августе 2006 г. при запуске Socket F (известного так же, как Socket 1207) для двухъядерного процессора Opteron AMD объявила, что закончено проектирование четырехъядерного процессора на основе Opteron. Новый 4-ядерный процессор (Quad-Core Opteron) выпущен AMD в конце 2007 г. и является конкретной реализацией архитектуры К10. Первоначально спроектирован для серверов и рабочих станций и имеет кодовое название «Barcelona». В основе лежат процессоры

К оперативной памяти в

Рис. 3.37. Четырехъядерные процессоры AMD К10: а — общий вид кристалла Barcelona (65 нм); б — Shanghai (45 нм); в — блок-схема Barcelona

Opteron 2348 и 2350 с частотами ядра в 1,9 и 2,0 ГГц, с возможным дальнейшим ее повышением (рис. 3.37).

Как и двухъядерные архитектуры, 4-ядерные на некоторых сложных приложениях (параллельные процессы, интенсивные вычисления с ПЗ, обработка/кодирование графики или видео, 3-мер-ный рендеринг и пр.) демонстрируют существенное (многократное) повышение производительности, в то время как для более простых это повышение несущественно или вообще отсутствует.

Выполненное AMD тестирование показало повышение быстродействия на 65—70 % сравнительно с двухъядерными процессорами Opteron (Santa Rosa, Opteron 2222 — 3,0 ГГц).

В ядре AMD Barcelona существенно усилен блок SSE ЦП Opteron, что дает по различным методам измерения более чем удвоение эффективности. Следующая таблица (табл. 3.8) дает сравнение характеристик Barcelona с предшественниками.

Таблица 3.8. Сравнительные характеристики ЦП Barcelona

Характеристика

Более ранние ЦП

Barcelona

Длина обрабатываемых слов в SSE, бит

64

128

Скорость выборки команд, байт/цикл

16

32

Скорость кэша данных, бит/цикл

2x64

2х 128

Скорость обмена l-2-кэша и контроллера памяти, бит/цикл

64

128

Емкость планировщика ПЗ

36 X 64-битовых операций

36 X 128-битовых операций

Процессоры Barcelona используют три уровня кэш-памяти — L1 и L2 (64 и 512 Кбайт соответственно выделены каждому ядру, как это и было у ЦП Opterons и Athlon), тогда как ЬЗ-кэш (от 2 Мбайт) совместно используется всеми ядрами.

ЦП Barcelona будет выпускаться по технологии AMD 65 нм SOI (кремний на изоляторе), позволяющей использовать более низкие напряжение питания и рассеиваемую мощность. Первые образцы ЦП Barcelona потребляют около 95 Вт. Здесь используется улучшенная технология PowerNow! (позволяющая отдельным ядрам оперировать на той тактовой частоте, которая соответствует вычислительной нагрузке в данный момент).

AMD прилагает большие усилия по обеспечению обратной совместимости, обеспечивая возможность установки новых процессоров на существующие системные платы с интерфейсами АМ2 (при несущественном обновлении BIOS), хотя только интерфейс АМ2+ позволяет раскрыть все возможности новых процессоров.

Shanghai — серверные процессоры, замещающие Barcelona (рис. 3.37, б) и повторяющие ее архитектуру. С переходом на техпроцесс 45 нм здесь осуществляется не только снижение стоимости производства микрочипов, снижение их энергопотребления, но также и возможность повышения рабочей частоты процессоров. При одинаковой с решениями Barcelona рабочей частоте процессоры Shanghai превосходят их по производительности в среднем на 35 %, и в то же время потребляют на 35 % меньше электроэнергии. Это достигается как повышением объема кэш-памяти третьего уровня с 2 до 6 Мбайт, так и повышением числа выполняемых за один такт инструкций.

Объем кэш-памяти 1—2 уровней остается таким же, как в Barcelona AMD (128 Кбайт L1 и 512 Кбайт L2). Кроме того, здесь реализована технология AMD-V (повышенная эффективность виртуализации) и поддерживается система оперативной памяти DDR2-800.

Рабочая частота ЦП варьируется в пределах от 2,3 до 2,7 ГГц. Устройства поддерживают разъем Socket F ( 1207) и имеют интегрированный контроллер оперативной памяти стандарта DDR2.

Ядро Deneb (Shanghai) представляет собой 45нм процессор поколения К10.5. Состоит из «758 млн транзисторов и имеет площадь в 243 мм2 (против 463 млн и 283 мм2 соответственно у 65нм Barcelona и 731 млн и 246 мм2 у Intel Nehalem).

Основная цель — повышение частот процессорной линейки Phenom, снижение TDP, а также себестоимости производства. Первые процессоры на ядре Deneb выпущены AMD 8 января 2009 г. под именем Phenom II Х4 (модели 920 и 940 Black Edition).

Pro pus. Представляет собой аналог процессора Deneb, но без кэша L3.

Кроме того, к архитектуре К 10.5 относятся также процессоры:

  • • Thuban (технология 45 нм SOI), количество транзисторов: 904 млн, площадь процессора: 346 мм2, шесть ядер;
  • • Zosma (45 нм SOI) — четыре ядра (Thuban с двумя отключенными ядрами);
  • • Нека (45 нм SOI) — три ядра (Deneb с одним отключенным ядром);
  • • Callisto (45 нм SOI) — два ядра (Deneb с двумя отключенными ядрами).

Phenom — процессоры AMD для настольных ПК, основанные на микроархитектуре К10. Первыми на рынке появятся четырехъядерные процессоры Agena FX и Agena. Процессоры Phenom FX в исполнении Socket F+ предназначены для установки в системы класса Quad FX с двумя процессорными разъемами.

Четырехъядерные процессоры Phenom Х4 обладают схожими с Phenom FX техническими характеристиками: частоты лежат в диапазоне 2,2—2,4 ГГц, объем кэша второго уровня равен 4 х 512 Кбайт, объем кэша третьего уровня равен 2 Мбайт, мощность — не более 89 Вт. Все четырехъядерные процессоры AMD поколения К10 будут иметь частоту шины HyperTransport 3.0 порядка 3,2—3,6 ГГц. Эти же процессоры смогут работать и в более старых материнских платах, при этом частота шины HyperTransport будет понижена до версий 1.0—2.0 (см. табл. 4.3).

Переходя к двухъядерным процессорам Phenom Х2 (Кита), следует отметить, что их частотные характеристики будут гораздо выше соответствующих характеристик четырехъядерных. В частности, частоты ядра достигнут 2,8 ГГц, а частота шины HyperTransport 3.0 — до 4,2 ГГц.

На частотах до 2,6 ГГц процессоры Phenom Х2 сохраняют энергопотребление не более 65 Вт, на частоте 2,8 ГГц — до 89 Вт. AMD планирует выпустить процессоры Phenom Х2 с пониженным энергопотреблением (45 Вт). Частоты будут охватывать диапазон 1,9—2,3 ГГц, частота шины HyperTransport 3.0 — от 2,8 до 3,4 ГГц.

Для нижних ценовых диапазонов AMD представляет семейство Athlon 64 Х2, в которое войдут 2-ядерные Rana, и Sempron (одноядерные Spica).

Двухъядерные процессоры Rana, в которых по сравнению с Кита отсутствует кэш-память L3, сохраняют торговую марку Athlon Х2. Наличие кэша третьего уровня дает процессорам право носить имя Phenom. Единственный пока представитель ядра Rana будет работать на частоте 2,2 ГГц, иметь 2x512 Кбайт кэша второго уровня, энергопотребление 65 Вт. Частота шины HyperTransport 3.0 составляет 3,2 ГГц.

AMD Fusion — кодовое название проектов процессоров следующего (после К10) поколения, продукт сотрудничества между AMD и ATI, начатого в 2006 г.

Архитектура Fusion представляет собой гетерогенный многоядерный микропроцессор, комбинирующий ядра обычных процессоров (центральный процессор — ЦП, CPU) и графической обработки (графический процессор — ГП, GPU).

Термин «Fusion» (от англ. — плавление, сплав) отражает тенденцию интеграции в процессоры AMD функций, ранее исполнявшихся другими модулями чипсета (в архитектуре К8 это были контроллер памяти и порты/линки HyperTransport, в К10 — графический процессор и т. д.).

Процессоры серии Fusion будут базироваться на новой модульной методологии проектирования, именуемой «M-SPACE», которая предоставляет возможность построения различных сочетаний процессорных ядер в изделиях, настраиваемых на различные приложения в рамках единой архитектуры. При этом, например, ядро ГП может быть переработано или изменено, без необходимости перестройки ядер ЦП.

Bobcat — процессор архитектуры, промежуточной между К10 и Fusion. Представляет собой существенно упрощенное ядро х86, позволяющее осуществлять обработку программ х86 при энергопотреблении между 1 и 10 Вт. Предполагается, что Bobcat будет использоваться в устройствах UM PC, OLPC, КПК и других малогабаритных изделиях.

Bulldozer — кодовое название, данное ядру ЦП архитектуры Fusion, опирающегося на методологии проектирования, ядро которого будет иметь энергоемкость от 10 до 100 Вт. Ядро Bulldozer предполагается устанавливать на общем чипе с одним или более ядрами графической обработки, поддерживающими стандарты DirectX (предполагается, что это будут процессоры Radeon). Кроме того, планируется архитектура с кодовым именем Sandtiger, предусматривающая объединение от 8 до 16 ядер Bulldozer и предназначенная для серверов и высокопроизводительных вычислений (НРС applications). В ядрах Bulldozer также будет реализована следующая итерация Streaming SI MD Extensions (SSE), со 170 новыми командами, названными SSE5.

Предполагается также, что ядра Bulldozer в многоядерных архитектурах будут наделены способностями переключения незанятых исполнительных элементов (арифметико-логические устройства, ALU и блоки операций с ПЗ, FPU) от одного ядра к другому для выравнивания загрузки элементов процессора.

Процессоры IBM POWER и PowerPC

POWER (Performance Optimization With Enhanced RISC) — серия микропроцессоров, поддерживающих RISC-систему команд, разработанных в фирме IBM. Под тем же именем фигурирует семейство ЭВМ на основе RISC-архитектуры. Процессоры POWER используются как ЦП во многих серверах производства IBM, мини-компьютерах, рабочих станциях и суперЭВМ (табл. 3.9).

Тип процессора

Год выпуска

Количество транзисторов, млн

о

Ядро, мм

Ll-кэш,

Кбайт

1.2-кэш,

Кбайт

Размер минимальной структуры, мкм

Тактовая частота процессора, МГц

Потребляемая мощность, Вт

POWER 4 (два ядра) POWER 4+

2001—2002

174

414—267

64x2

1,4 Мбайтх2+ L3 (32 Мбайта)

0,18—0,13 (SOI)

1,1—1,3 ГГц

125

POWER 5

2005

276

389

1,8 Мбайт+

L3 (36 Мбайт)

0,13 (SOI)

1,5—1,9 ГГЦ

PowerPC 601

1991

2,8

121

32+32

Внеш.

0,5

50, 66, 80

603

1994

1,6

85,4

4+4

Внеш.

0,5

80

2,5

бОЗе

603ev

1995

2,8

98—79

Внеш.

0,5—0,35

80,100,166,200

3,2

604

1995

5,1

148

32+32

Внеш.

0,35

107,180, 200, 332

620

1995

7

311

32+32

Внеш.

(до 128 Мбайт)

0,5

  • 750
  • 750cxl
  • 1998
  • 2001

32+32

256

0,25; 0,22; 0,18

200,500, 600

970FX

2005

52

113—66

64+32

512—2 Мбайта

0,13—0,09

1,8 ГГц

42

326 Глава 3. Процессоры: микроархитектуры и программирование

Архитектура POWER (рис. 3.38) во многих отношениях представляет собой традиционную RISC-архитектуру. Она сохраняет наиболее важные особенности RISC: фиксированную длину команд, архитектуру «регистр—регистр», простые способы адресации, большой регистровый файл, а также трехоперандный формат инструкций. Однако POWER имеет и несколько дополнительных свойств, отличающих ее от других RISC-архитектур.

Обобщенная схема архитектур POWER и PowerPC

Рис. 3.38. Обобщенная схема архитектур POWER и PowerPC

Набор команд POWER изначально был основан на идее суперскалярной обработки. Команды распределяются по трем независимым исполнительным устройствам (блокам) — переходов, целочисленной и вещественной арифметики. Для сокращения времен выполнения были введены команды группового (векторного) чтения и записи данных, которые обеспечивали пересылку содержимого нескольких регистров в память (и обратно) с помощью единственной команды. Архитектура переходов POWER была организована с учетом их предварительного просмотра и методики свертывания.

Проект POWER восходит к давнишним процессорам IBM 801, которые во всех учебниках приводятся в качестве примера «подлинной RISC-архитектуры».

В 1974 г. IBM приступила к проекту, целью которого было создать крупную телефонную сеть с цифровым компьютерным управлением, в которой должно обрабатываться не менее 300 звонков в секунду. По оценкам специалистов, для поддержки ответов в реальном масштабе времени требовалось около 20 тыс. машинных команд на каждый звонок, вследствие этого скорость процессора должна была достигать 12 Mips (млн команд в секунду). Эти требования были чрезвычайно высокими для тех времен, однако было ясно, что здесь следовало использовать упрощенную конструкцию, поддерживающую только операции ввода-вывода, ветвления, суммирования «регистр—регистр» и пересылки данных между ОП и регистрами.

Хотя в 1975 г. этот проект телефонной сети был закрыт, в результате были разработаны многообещающие процессоры 801. Эти процессоры активно использовались в продуктах фирмы IBM, однако не были широко известны до появления IBM PC/RT в середине 1980-х гг. (не показавшей, однако, высокой производительности).

Основными недостатками 801 являлись:

  • • все команды выполнялись за один процессорный цикл, это исключало применение операций с ПЗ;
  • • хотя декодер команд предусматривал конвейер, в одноцикловой архитектуре не удавалось достигнуть суперскалярного эффекта.

На следующем этапе развития этих процессоров («America» Project, 1985—1986 гг.) IBM использовала новые алгоритмы, позволяющие осуществлять за один цикл умножение и деление чисел двойной точности. Кроме того, блок операций с ПЗ выделен из декодера и блоков ФЗ, и поэтому декодер может пересылать для исполнения команды на блоки ПЗ (FPU) и ФЗ (ALU) одновременно.

В дальнейшем здесь использовался комплексный декодер команд, способный одновременно осуществлять выборку одной команды, декодирование другой и пересылку двух команд в АЛУ и БПЗ (черты суперскалярного процессора, одного из первых в истории отрасли).

Процессор содержал 32 х 32-битовых целочисленных регистров и 32 х 64-битовых регистров чисел с ПЗ, блок обработки переходов также включал ряд внутренних регистров, в том числе СчАК.

Другой интересной чертой архитектуры была виртуальная адресация, отображавшая все адреса в памяти на 52-би-товое пространство. Тем самым приложения могли совместно использовать 32-битовое адресное пространство, с выделением каждым из них 32-битового блока памяти.

POWER и RS/6000. Первый компьютер фирмы IBM, использовавший архитектуру POWER, был выпущен в 1990 г. Архитектура получила наименование «RISC System/6000» или RS/6000. RS/6000 включали два типа машин: рабочие станции (POWERstation) и серверы (POWERserver). Процессор RS/6000, называвшийся RIOS (позднее — RIOS I или POWER1), состоял из 11 чипов — блок операций с ФЗ, блок ПЗ, кэш команд, 4 кэша данных, контроллер памяти, 2 блока ввода-вывода и тактовый генератор.

Реализация RIOS на одном чипе, RSC (для «RISC Single Chip»), была разработана для дешевых моделей RS/6000, первые ЭВМ на базе RSC были выпущены в 1992 г.

POWER2 (развитие RIOS/POWER1) был выпущен в 1993 г., и основным новшеством было включение дополнительного кэша на 256 KiB, блоков операций с ПЗ (128-разрядная арифметика) и ФЗ. Кроме того, был добавлен ряд новых команд:

  • • загрузка 4-словных операндов. При этом два рядом расположенных числа двойной точности загружаются в два смежных регистра операций с ПЗ;
  • • аппаратурная реализация извлечения квадратного корня;
  • • преобразования чисел ПЗ в формат ФЗ.

В 1996 г. была выпущена реализация POWER2 на одном чипе — P2SC («POWER2 Super Chip»).

POWER3 был выпущен в 1998 г. Здесь был реализован 64-разрядный набор команд POWER, включая альтернативные инструкции набора команд (бывшие в то время). ЦП включал также 2 блока ПЗ, 3 блока ФЗ, 2 декодера команд и 2 блока записи-выборки данных. Все последующие ЦП POWER реализуют полные наборы 64-разрядных команд PowerPC и POWER.

POWER3 и последующие процессоры серии POWER реализуют 64-разрядную архитектуру PowerPC. POWER3 и выше не поддерживают какие-либо старые команды POWER, которые были удалены из набора команд, когда был выпущен PowerPC или какие-либо из расширения POWER2, например Ifq или stfq.

Р О WER4. IBM представила процессор POWER4 (первый из GIGA-Series) в 2001 г. Это был полностью 64-разрядный ЦП, поддерживающий все 64-битовые команды PowerPC, а также AS/400-расширение, и использовавшийся как в системах RS/6000 так и в AS/400, заменяя процессоры POWER3 и RS64. Был разработан также новый набор команд, получивший название PowerPC 2.00 ISA, в котором было добавлено несколько новых инструкций. Количество команд в PowerPC 2.00 ISA превышало 100, причем многие их них являлись модификациями друг друга.

POWER4 уникален уже тем, что в нем даже один кристалл представляет собой мультипроцессорную систему — в одном корпусе содержится два 64-разрядных микропроцессора. Архитектуру кристалла POWER4 отличает несколько современных решений — суперскалярная структура, внеочередное исполнение команд, большая кэш-память на кристалле, специализированный порт для основной памяти, а также высокоскоростные л инки для объединения микропроцессоров в системы с архитектурой распределенной разделяемой памяти.

Каждый процессор POWER4 имеет два конвейерных блока для работы с 64-разрядными операндами с плавающей точкой, выбирающих на исполнение по пять команд каждый, и два блока для работы с памятью. Процессоры содержат раздельную кэш-па-мять команд и данных 1-го уровня объемом по 64 Кбайт каждая. Кроме того, имеется разделяемая (общая) кэш-память 2-го уровня на кристалле (объемом 1,4 Мбайт) и внешняя кэш-память 3-го уровня (32 Мбайт). Совместный доступ к внешней кэш-памяти выполняется по технологии DSI (Distributed Switch Interconnect). Для создания мультипроцессорных конфигураций имеются специальные линки с высокой пропускной способностью. Наряду с параллелизмом на уровне команд процессор использует параллелизм на уровне потоков (нитей, thread).

POWER4 изготавливался по технологии 0,18 мкм SOI с несколькими слоями медной металлизации на кристалле площадью около 400 мм2. Базовое напряжение питания POWER4 равнялось 1,5 В. Тактовая частота кристалла, содержащего 174 млн транзисторов, могла составлять 1,1 или 1,3 ГГц. Такие параметры обеспечивал технологический процесс CMOS-8S2, представляющий собой дальнейшее развитие известного процесса CMOS-8.

Одной из отличительных особенностей POWER4 стало наличие кэш-памяти 2-го уровня, разделяемой двумя процессорами кристалла, а также внешними процессорами других кристаллов через интерфейсы (линки) по 128 бит, работающие на тактовой частоте более 500 МГц, что обеспечивает пропускную способность свыше 10 Гбайт/с. При объединении четырех кристаллов и их специальном размещении проводники линков могут быть достаточно короткими и прямыми, что важно при работе на высоких тактовых частотах.

Физически кэш-память 2-го уровня объемом около 1,4 Мбайт состоит из нескольких одинаковых блоков, доступ к которым выполняется через коммутатор с пропускной способностью на уровне 100 Гбайт/с. Протокол когерентности обеспечивает размещение данных, поступивших по линкам, в том блоке кэш-памяти, который последним использовался для размещения данных. Порт кристалла РОУЕЯ4, предназначенный для подключения кэш-па-мяти 3-го уровня объемом до 32 Мбайт, имеет ширину 128 разрядов для каждого из двух направлений пересылки данных, обеспечивая пропускную способность на уровне 13—14 Гбайт/с. Скорость передачи данных между кэш-памятью 3-го уровня и основной памятью может достигать 12,8 Гбайт/с. Каждый сдвоенный процессор РО?ЕР4 упакован в керамический мультипроцессорный модуль (размером 4,5 х 4,5 дюйма), наподобие изображенного на рис. 3.39, а.

б

а

Рис. 3.39. Керамический модуль POWER5 МСМ с четырьмя процессорами и четырьмя модулями ЬЗ-кэша по 36 Мбайт (a); PowerPC 970FX (б)

Р О WER5 был выпущен в 2004 г., в него добавлен ряд новых команд, с учетом которых получен новый набор команд PowerPC 2.02 ISA. Другие основные отличия:

  • • двухъядерный процессор, который поддерживает многопоточную (multithreading) обработку данных (2 потока), так что он воплощает в себе 4 логических (с точки зрения операционных систем) процессора;
  • • частота более 1,9 ГГц;
  • • контроллер памяти на чипе;
  • • больший объем кэша L2;
  • • улучшенное управление энергопотреблением;
  • • технологии Hypervisor (virtualization technology) и eFuse (hardware re-routing around faults).

POWER5 — это девятое поколение 64-разрядной RISC-архитектуры IBM. И хотя в ней использованы многие решения, появившиеся еще в POWER4, разработчики нового процессора подчеркивают, что его нельзя рассматривать как всего лишь модификацию предшественника. Дело в том, что значительно изменилась конструкция самого кристалла, что позволило создавать более эффективные суперскалярные комплексы. В POWER5 реализована одновременная многопоточность, при которой процессорное ядро может запрограммировать порядок параллельного выполнения команд из нескольких потоков.

Технологии виртуализации предусматривают создание логических разделов (logical partitioning) и выделение микроразделов (Micro-Partitioning). Для каждого 1ДП могут быть созданы до 10 логических разделов (LPAR — logical partition), и в результате наиболее крупные системы могут поддерживать до 256 копий независимо выполняющихся ОС. Оперативная память, мощность 1ДП и средства ввода-вывода могут динамически перераспределяться между разделами.

С использованием виртуальной векторной архитектуры (Virtual Vector Architecture — ViVA) несколько ЦП POWER5 могут совместно действовать как один векторный процессор.

На кристалле POWER5 реализовано 276 млн транзисторов, которые занимают площадь 389 мм2. Изготовляется по технологии 0,13 мкм с применением медных проводников и «крем-ний-на-изоляторе» (SOI), что позволяет достичь большей производительности и снизить энергопотребление.

Для сравнения: у кристалла POWER4, изготовлявшегося по технологии 0,18 мкм, площадь равна 414 мм2, а у его модификации POWER4+, выпущенной в конце 2002 г., она уменьшилась до 267 мм2 благодаря переходу на технологию 0,13 мкм. На кристалле POWER5 размещены два одинаковых процессорных ядра и общая кэш-память 2-го уровня (L2) объемом 1,875 Мбайт, выполненная в виде трех отдельных блоков, у каждого из которых имеется свой отдельный контроллер (для POWER4 объем кэш-памяти 2-го уровня составлял 1,5 Мбайт). Физический адрес данных определяет, в каком блоке кэш-памяти 2-го уровня находятся данные. Каждое из процессорных ядер может независимо обращаться к любому из трех контроллеров кэш-памяти 2-го уровня. Тактовая частота POWER5 составляет от 1,5 до 1,9 ГГц.

Одно из главных новшеств в конструкции кристалла по сравнению с POWER4 — это интегрированная кэш-память 3-го уровня объемом 36 Мбайт. Стоит отметить, что в предыдущем поколении процессора кэш-память на 32 Мбайт располагалась вне кристалла. Благодаря переносу L3 ближе к процессорному ядру при отсутствии нужных данных в кэш-памяти 2-го уровня процессору намного реже придется обращаться за пределы кристалла, за счет чего в SMP-системе снижается интенсивность обмена данными между кристаллами. В результате, если системы на базе P0WER4 не могли масштабироваться до числа процессоров свыше 32 (это приводило к резкому увеличению задержек из-за увеличения межпроцессорного трафика), то P0WER5 обеспечивает построение 64-процессорных конфигураций. Кроме того, переход на технологию 0,13 мкм позволил конструкторам POWER5 интегрировать в него также контроллер памяти, что дополнительно сократило латентность считывания данных из памяти.

Структура конвейера команд POWER5 осталась полностью идентичной той, что применялась в POWER4, причем не изменились и величины задержек.

Четыре кристалла POWER5 (восемь процессорных ядер) вместе с четырьмя кристаллами кэш-памяти 3-го уровня упаковываются в многокристальный модуль MCM (MultiChip Module) размером 95 х 95 мм (см. рис. 3.39, а), который в итоге объединяет восемь процессоров. Может использоваться также двухкристальный модуль Double chip Module (DCM).

Многослойный керамический корпус МСМ содержит магистрали, соединяющие микросхемы между собой, а также с модулями кэш-памяти и высокоскоростным коммутатором для связи с удаленными процессорами. Четыре микросхемы POWER4, образующие восьмипроцессорную конфигурацию, расположены в МСМ под углом 90° друг относительно друга, что позволяет минимизировать длину шин расширения, соединяющих микросхемы. Шины расширения связывают между собой и модули МСМ. В этих шинах используется специальная технология волновой конвейеризации (wave pipelining), обеспечивающая очень низкие величины задержек. Пропускная способность каждой шины превосходит 8 Гбайт/с, и соответственно МСМ с четырьмя шинами расширения, ведущими к другим МСМ, будет иметь суммарную пропускную способность свыше 32 Гбайт/с. Такую пропускную способность обменов между МСМ будет иметь 32-процессорная SMP-конфигурация из четырех модулей МСМ.

Шины расширения, кроме собственно межмодульных шин, включают выделенные шины для организации ввода-вывода и создания NUMA-конфигураций.

Для объединения нескольких МСМ используется смешанная инфраструктура из шин и распределенного коммутатора — каждый модуль имеет четыре логические шины, позволяющие построить кольцо из четырех МСМ. Соединяющая МСМ восьмибайтовая шина работает на половине тактовой частоты процессора и обеспечивает пропускную способность 4 Гбайт/с. Для соединения шин применяется усовершенствованная версия распределенного коммутатора, разработанного для POWER4. Число шин увеличилось, что повысило суммарную пропускную способность по сравнению с POWER4.

При необходимости пара ядер может быть отключена, так что оставшиеся будут совместно использовать возможности системной шины и кэш-памяти L3.

Р О WЕ R6 объявлен 21 мая 2007 г. Это двухъядерный чип, работающий на частоте 4,7 ГГц и изготовленный по технологии 65 нм. Здесь используется более совершенная технология межъядерной коммуникации и, кроме того, энергопотребление не превышает показателей POWER5 при двукратном повышении производительности. В процессорах добавлены возможности VMX, а также используется новое поколение ViVA (ViVA-2).

Р О WЕR 7 разрабатывается в настоящее время IBM и является первым из Peta-Series. Предполагается, что он будет выпущен около 2010 г., но уже выбран DARPA как возможный процессор для проекта Peta-Flop Supercomputer (суперкомпьютер на 1000 Гфлопс).

PowerPC. В 1991 г. IBM пришла к выводу, что необходимо расширить рынок для POWER путем развития и модификации архитектуры процессоров. С этой целью она пригласила к сотрудничеству Apple для разработки семейства микропроцессоров POWER-архитектуры на одном чипе. Apple, в свою очередь, обратилась к Motorola (как к своему давнему поставщику ЦП) с предложением присоединиться к альянсу, который в дальнейшем получил название «AIM alliance» (от Apple, IBM, Motorola).

601. В результате к 1993 г. была разработана архитектура PowerPC, видоизменение POWER (первый чип назывался PowerPC 601 и базировался на RSC). Устройство имело 32-раз-рядную внутреннюю структуру и размещалось на кристалле площадью 121 мм2, общее количество транзисторов в нем составляло 2,8 млн. Были выпущены модели с тактовыми частотами 50, 66, 80 МГц.

Три исполнительных устройства (см. рис. 3.36) работали параллельно и в значительной степени независимо. Благодаря суперскалярной архитектуре за один такт могло одновременно выполняться до трех команд. Процессор оперировал с 8-, 16-, 32-разрядными целыми, а также с 32- и 64-разрядными числами с плавающей запятой. На кристалле также располагались раздельная кэш-память команд и данных объемом 32 Кбайт (16+16) и устройство управления памятью. Процессор имел 64-разряд-ную шину данных и 32-разрядную шину адресов.

603. (1994 г.). Структура этого процессора копировала структуру РошегРС 601, но он был размещен на кристалле площадью 85,1 мм2 и, будучи изготовлен по технологии 0,5 мкм, содержал 1,6 млн транзисторов. Потребляемая мощность процессора, работавшего на частоте 80 МГц, не превышала 2,5 Вт. Данное устройство во многом было упрощенной версией своего предшественника. Оно выполняло не более двух команд за такт, а размер кэш-памяти был уменьшен до 8 Кбайт (4+4).

В 1995 г. была выпущена улучшенная версия этого процессора под маркой РошегРС бОЗе. Процессор, производимый по технологии норм 0,5 мкм, размещался на кристалле площадью 98 мм2 и содержал 2,8 млн транзисторов. Первоначально он выпускался с тактовыми частотами 80 и 100 МГц. На частоте 100 МГц он потреблял примерно 3,2 Вт. Данные кристаллы нашли широкое применение в качестве встраиваемых микропроцессоров. Их тактовые частоты составляли 100, 166 и 200 МГц.

Еще одним новшеством в этом процессоре стало появление трех энергосберегающих режимов, а также устройства динамического управления энергопотреблением. При изготовлении по технологии 0,35 мкм площадь кристалла уменьшается до 79 мм2.

602. Одновременно с РошегРС бОЗе был выпущен ЦП для портативных компьютеров — РошегРС 602. Он был выполнен по технологии 0,5 мкм и на кристалле площадью 50 мм2 было расположено до 1 млн транзисторов. Шины адреса и данных устройства были мультиплексированы (сначала процессор выводил на шину адрес и специальным сигналом информировал об этом все устройства, а затем по той же шине передавал данные). Доступ к памяти организован в пакетном режиме, что делает снижение производительности процессора не столь ощутимым.

К трем исполнительным устройствам добавлен блок вычисления адреса (БВА, AGU — Address Generation Unit) доступа к памяти. Тем не менее архитектура процессора была упрощена по сравнению с PowerPC 603. Так, устройство для операций вещественной арифметики могло обрабатывать только 32-разряд-ные числа (ранее — 64-разрядные). Количество выполняемых за один такт операций сократилось до одной, что уменьшает размер блока декодирования и упрощает схему предсказания переходов. Кроме того, были исключены сложные графические и строковые операции, благодаря чему упрощается БВА. Операции пересылки были оптимизированы для выполнения за один такт. Объемы кэш-памяти команд и данных составляли теперь по 2 Кбайт (впоследствии 4 Кбайт) каждый. Процессор был снабжен быстрым механизмом защиты памяти и имел те же режимы энергосбережения, что и PowerPC 603.

  • 603ev (1996 г.) — процессор с тактовой частотой 166, затем 180 и 200 МГц, выпущенный по технологии 0,35 мкм. В нем были усовершенствованы блоки операций деления и управления кэш-памятью.
  • 604 (1995 г.) — последний 32-разрядный процессор этого семейства. Процессор производился по технологии 0,35 мкм и работал на тактовых частотах 100, 120, 133 и 150 МГц. Усовершенствованным вариантом этого процессора стал PowerPC 604е, выполненный с использованием того же технологического процесса и содержащий 5,1 млн транзисторов на кристалле площадью 148 мм2. Были выпущены микросхемы, работающие на тактовых частотах 167, 180, 200, а позднее — 332 МГц. Внутренняя кэш-память была увеличена вдвое — по 32 Кбайт для команд и для данных.
  • 620 (1995 г.) — первый 64-разрядный процессор семейства, который предназначался для рабочих станций и высокопроизводительных серверов. Этот кристалл имел шесть уже независимых исполнительных устройств и встроенную кэш-память 64 Кбайт (32+32), производился по технологии норм 0,5 мкм и на кристалле площадью 311 мм2 содержал 7 млн транзисторов. В PowerPC 620 использовалась четырехконвейерная суперскалярная архитектура с шестью исполнительными устройствами, в числе которых было три блока целочисленной арифметики, один блок операций с плавающей точкой, блок загрузки/сохранения и блок переходов. За один такт процессор мог выполнять до четырех команд. Шинный интерфейс этого процессора включал унифицированную внутреннюю поддержку кэш-памяти 2-го уровня объемом до 128 Мбайт.
  • 750 (1998 г.) — первый микропроцессор IBM с медными соединениями (см. рис. 1.22). Одной из особенностей PowerPC 750 была схема кэширования, отличавшаяся от используемой в предыдущих версиях PowerPC. Микросхема имела выделенную шину, с помощью которой кэш-память 2-го уровня (емкостью 0,5; 1 или 2 Мбайт) подсоединялась непосредственно к кристаллу (Back Side Bus, см. рис. 4.13), а не через системную шину. При этом выделенная шина работала на удвоенной тактовой частоте (системной шины). Это допускало использование микросхем памяти типа SRAM 233 МГц. Кристаллы PowerPC 750, работающие на тактовых частотах от 200 до 500 МГц, были выполнены по технологиям 0,25 (PID8t) и 0,22 (PID8p) мкм.

Версия микропроцессора PowerPC 750СХ отличается встроенной 2-входовой наборно-ассоциативной кэш-памятью объемом 256 Кбайт. Отметим, что 8-входовая наборно-ассоциативная кэш-память 1-го уровня для команд и данных имеет объем по 32 Кбайт каждая. Кристалл выполнен с учетом проектных норм 0,18 мкм, с шестислойной медной металлизацией. Рабочие тактовые частоты составляют 366, 400 и 466 МГц.

В феврале 2001 г. IBM сообщила о выпуске PowerPC 750СХе, который содержал 256 Кбайт встроенной кэш-памяти 2-го уровня и выпускался с использованием медных проводников и по технологии 0,18 мкм. IBM начала массовое производство PowerPC 750СХе с тактовыми частотами 400, 500, 600 МГц. Сейчас в эту линейку входят также микросхемы PowerPC 750СХг с тактовой частотой 533 МГц.

PowerPC 970FX (кодовое название Altair) — один из наиболее производительных микропроцессоров в линейке PowerPC, с тактовой частотой до 2,5 ГГц и пиковой производительностью до 10 GFLOPS. PowerPC 970FX (рис. 3.39, б) — не первый 64-разрядный микропроцессор данной архитектуры. Как уже отмечалось, первым был появившийся в 1998 г. PowerPC 620, но он оказался неудачным в коммерческом плане, и последующие 64-разрядные PowerPC-совместимые микропроцессоры в настольных системах никогда не применялись.

Считается, что PowerPC 970 представляет собой фактически упрощенную версию процессора POWER4. Последний содержит два процессорных ядра, 1,5 Мбайт кэш-памяти 2-го уровня, контроллеры кэш-памяти 3-го уровня и при площади 415 мм2 (для технологии 0,18 мкм) имеет 170 млн транзисторов. Переход на технологию 0,13 мкм в РОУЕЯ4+ существа дела не меняет. По сравнению с РОУЕ114 в РошегРС 970 резко уменьшилось число транзисторов (до 52 млн), площадь (113 мм2 для технологии 0,13 мкм или 66 мм2 при 90 нм) и энергопотребление (42 Вт при частоте 1,8 ГГц у РошегРС 970 против 125 Вт у РОУЕЯ4 с тактовой частотой 1,3 ГГц). Были упразднены одно процессорное ядро и названные выше контроллеры, объем кэш-памяти 2-го уровня был уменьшен до 512 Кбайт. Одновременно была существенно увеличена длина конвейеров, чтобы легче было поднимать тактовую частоту. Наконец, в РошегРС 970 была добавлена поддержка мультимедийного расширения системы команд АШУес.

Основу успеха Ро?егРС 970ГХ заложили отличные характеристики РОУЕ114, в частности, рекордное для ШБС-микропро-цессоров максимальное число команд, выполняемых за один такт, включая одну команду перехода.

РошегРС 970 как и РОУЕ114 — полностью 64-разрядный микропроцессор, имеющий 64-разрядные виртуальные адреса (64-разрядное «плоское» адресное пространство), 64-разрядные внутренние магистрали данных, 64-разрядные регистры общего назначения. Под адреса реальной памяти в обоих процессорах отводится 42 бита.

Все внутренние элементы Ро?егРС 970 — 64-разрядные, но регистры АШУес-расширения и соответствующие пути данных — 128-разрядные. В РошегРС 970 имеется по 32 регистра ФЗ, АШУес-регистра и регистра ПЗ плюс по 48 регистров каждого типа для переименования. Объем кэш-памяти команд 1 -го уровня составляет 64 Кбайт, а в дополнение к ней имеется буфер предварительной выборки на 32 строки. Ро?егРС 970 может выбирать до восьми команд за такт.

Интегрированная кэш-память 2-го уровня имеет емкость 512 Кбайт. В кэш-память первого уровня может осуществляться предварительная выборка до восьми потоков данных. Шина кэш-памяти 2-го уровня работает на частоте микропроцессорного ядра. Если в кэш-памяти 1-го уровня используется контроль по четности, то в VI — уже коды ЕСС.

Пропускная способность системной шины — еще один фактор повышения производительности РошегРС 970. Здесь реализованы две однонаправленные шины — для чтения и записи в память. Обе имеют ширину 32 разряда и работают на частоте, в 4 раза меньшей частоты процессорного ядра. Для 1,8 ГГц в ядре, таким образом, получается 450 МГц у шин, а эффективная частота равна 900 МГц. Соответственно суммарная пропускная способность равна 7,2 Гбайт/с (по 3,6 Гбайт/с для чтения и записи).

Конвейеры в Ро?егРС 970 имеют различную длину. Длина конвейера ФЗ в РошегРС 970 составляет 16 ступеней (12 в РОУЕ114). Конвейер загрузки регистров/записи в память имеет 17 ступеней, конвейер ПТ — 21 ступень, АШУес-конвейеры — до 25 ступеней. Из 16 ступеней целочисленного конвейера девять приходятся на выборку и декодирование команд.

Современные высокопроизводительные микропроцессоры все чаще становятся многоядерными. В микросхеме РОУЕ114 размещаются два процессорных ядра. Кроме того, иногда говорят о микропроцессорном ядре внутри процессора. Если забыть о длине конвейеров, микропроцессорное ядро в Ро?егРС 970 такое же, как в РОУЕ114 (рис. 3.40), а кэш-память 2-го уровня является внешней по отношению к нему.

Ядро Ро?егРС 970 аналогично ядру РОУЕК4. Эти процессоры реализуют широкий параллелизм исполнения команд и обладают относительно длинными конвейерами исполнительных устройств. Устройство выборки РошегРС 970 выбирает из кэша

L_____________J

Рис. 3.40. Схема микропроцессорного ядра PowerPC 970FX

команд до восьми инструкций за такт, направляя их в буфер, откуда они считываются декодером, который также способен декодировать до восьми PowerPC-инструкций за такт. Кроме того, декодер преобразует PowerPC-инструкции во внутренние микрооперации (Internal Operations — IOPs), более простые, подобно тому, как это делается в рассмотренных выше х86-процессорах. Большинство команд PowerPC транслируются в одну ЮР, но некоторые команды (наподобие групповой записи из регистров в память) разделяются на две IOPs (процесс называется «to crack» — взламывать, расщеплять) или большее число (милликодирование). Далее IOPs организуются в группы по пять в каждой, которые затем направляются в очереди исполнительных устройств. Выборка, декодирование и формирование групп занимают девять стадий конвейера. Затем диспетчер распределяет IOPs из групп по шести очередям функциональных устройств, после этого начинается их выполнение (вне естественного порядка).

В PowerPC 970 насчитывается двенадцать исполнительных устройств — два блока ФЗ, два блока записи/чтения, блок переходов, блок регистра условий, два блока ПЗ и четыре векторных устройства. Однако векторные устройства не являются универсальными, и каждое из них способно выполнять только специфические для него команды.

Используется техника переименования регистров, всего на разных стадиях исполнения может находиться до двухсот IOPs. Длина конвейера устройства с плавающей точкой — одиннадцать стадий, ALU — пять, векторных устройств — тринадцать. За каждый такт может завершаться максимум пять команд. Используется двухуровневый механизм предсказания ветвлений. В процессоре имеется таблица истории ветвлений на 16 тысяч записей, как в Opteron, и в 4 раза больше, чем в Pentium 4/Athlon ХР. Кроме того, существует дополнительная таблица на 16 тысяч записей, с каждой записью которой связан 11-битовый вектор, в котором записывается путь исполнения, выбранный для последних одиннадцати групп (состоящих из пяти IOPs). Таблица выбора (также на 16 тысяч записей) отслеживает эффективность первых двух схем для каждой инструкции ветвления, и по ее данным делается выбор в пользу той или иной схемы предсказания в каждом отдельном случае. Важное отличие комбинации PowerPC + AltiVec от аналогичных (Opteron + SSE2 или Pentium 4 + SSE2) состоит в том, что PowerPC с самого начала обладали «полноценными» FPU с тридцатью двумя 64-разрядными регистрами и им не требуется расширение для чисел с такой точностью. AltiVec, как и SSE, работает с векторами чисел с максимальной точностью лишь 32 бита, в то время как SSE2 поддерживает 64-битовые числа. В противоположность этому Pentium 4 и в меньшей степени Opteron, из-за совместимости с ранними процессорами (вплоть до 8087), имеют весьма неэффективный блок плавающей точки в худших традициях CISC, и для его замены потребовалось создавать SSE2. В итоге в большинстве вычислительных задач PowerPC использует свой RISC-FPU, a Opteron и Pentium 4 — SSE2, что дает PowerPC несколько большую гибкость.

Как и любая современная RISC-архитектура, Power PC применяется в серверах различного уровня, однако наиболее широко используется в компьютерах Apple (с 1997 г. по настоящее время). В настоящий момент наблюдается смещение Power PC в рыночную нишу высокопроизводительных мультимедиа-процессоров.

Процессоры с набором команд Power PC поддерживаются многими операционными системами, включая MacOS, Darwin (ОС, лежащей в основе MacOS X), OpenBSD, FreeBSD, MorphOS и многими другими.

Номера процессоров

В течение долгих лет развитие ЦП показывало, что использование только тактовой частоты является недостаточным критерием для сопоставления ЦП.

AMD долго стремилась преуменьшить важность «сырой» тактовой скорости как окончательного критерия уровня производительности процессора и перешла к «номеру модели», который сопоставлял реальные скорости ее процессоров с оценками чипов Intel. До недавнего времени казалось, что Intel достаточно было ограничиваться тактовой частотой, по-видимому, потому что их чипы показывали более высокую частоту, чем равноценные ЦП AMD.

Процессоры Intel. Ситуация изменилась весной 2004 г., когда Intel также решила использовать более общие критерии для сопоставления процессоров в глазах пользователей. В дальнейшем, кроме рассмотрения чистой скорости часов, номера процессоров Intel, также примут во внимание такие важные особенности, как размер кэш-памяти, скорость FSB, технологический процесс и другие существенные архитектурные особенности.

Результатом явилась разработка системы номеров процессора с использованием комбинации марки процессора («семейство процессоров») и определенного номера из трех цифр («номер процессора» — 3 цифры — 7хх, 5хх или Зхх) — рис. 3.41.

Наименование

процессора

Intel® Pentium® 4 processor

Семейство Номер

процессоров процессора

Рис. 3.41. Структура номера процессора

Это число да плюс «семейство процессоров» дают полное «наименование процессора». В пределах каждой последовательности определены номера процессора (например, 735, 560 или 320). Ссылка на тактовую скорость или на название процессора (как использовались в прошлом) заменяется номерами процессоров, которые теперь описывают более широкий набор особенностей. Семейства процессора могут также изменяться, чтобы отразить изменения в изделиях Intel.

Во время объявления системы обозначений примеры определенных семейств процессоров Intel выглядели следующим образом (табл. 3.10).

Таблица 3.10. Примеры номеров процессоров Intel

ПК

Процессоры

Номер

Настольные

Процессоры Pentium IV (включая процессоры Intel Pentium IV с поддержкой технологии Hyper-Threading)

5xx

Процессоры Celeron D

3xx

Мобильные

Процессор Intel Pentium М (компонент Intel Centrino)

7xx

Мобильный процессор Intel Pentium 4 processor (включая Mobile Intel Pentium 4 processor с поддержкой Hyper-Threading)

5xx

Процессор Intel Celeron M

3xx

Более высокий номер в пределах семейства процессора может отмечать улучшение какой-либо характеристики ЦП, или изменения в архитектуре. Следует отметить, что в некоторых случаях более высокий номер процессора может потенциально описывать улучшение одной из характеристик (не отражая ухудшение ряда других).

Номера процессоров предназначены, чтобы отразить различия в пределах некоторого семейства процессора (например, в пределах Intel Pentium IV) или в пределах последовательности (например, 550 против 540). Сами цифры не имеют никакого решающего значения, особенно в рамках семейства (например, 710 — не «лучше», чем 510 на том основании, что 7 больше 5!). Номера ассоциируются с различными семействами процессоров и таким образом представляют различные оценки для конечного пользователя.

Основные принципы интерпретации «номера процессора» комментируются в табл. 3.11.

Таблица 3.11. Интерпретация «номера процессора»

Что есть

Чего нет

Различает относительные особенности в пределах семейства процессоров

Способ сравнивать номера в рамках семейств процессора

Указывает на отдельные особенности или изменения в архитектуре

Мера эффективности

Будучи объединенным с маркой, помогает потребителю в выборе процессора

Единственный фактор в отборе процессора

Процессоры AMD. В частности, маркировка процессоров Athlon ХР на ядре Thoroughbred расшифровывается следующим образом (рис. 3.42).

Система модельных номеров Opteron состоит из трех цифр — XYZ. Первая цифра (X) указывает на общее число процессоров,

AXD А 2200 D К V З С

Частота системной шины: С = 266 МГц Размер кэша 1_2: 3 = 256 Кбайт Температура корпуса: Т = 90 °С, V = 85 °С Рабочее напряжение: 1_ = 1,50 В, I) = 1,6 В, К = 1,65 В Тип корпуса: О = ОРОА

Модель: 1700 работает на частоте 1467 МГц, 1800 на 1533 МГц, 1900 на 1600 МГц, 2000 на 1667 МГц, 2100 на 1733 МГц, 2200 на 1800 МГц

Класс энергопотребления: А = процессор для настольных систем

Архитектура: АХО = АМО АІИІоп ХР модель 8 с архитектурой Оиапйэреес!

Рис. 3.42. Пример интерпретации номера процессора AMD

которое можно использовать в многопроцессорной системе (ОрГегоп серии 200 может использоваться как в однопроцессорной, так и в двухпроцессорной конфигурациях, в то время как ОрГегоп серии 800 — также и в 4- и в 8-процессорных системах).

Оставшиеся цифры отражают относительную производительность (Ор1егоп Х44 быстрее Ор1егоп Х42, но причина здесь может заключаться в тактовой частоте, размере кэша или скорости шины НурегТгашроП).

Пример номеров ранних процессоров Ор1егоп, между которыми нет никаких других отличий, помимо тактовой частоты, приводится в табл. 3.12.

Таблица 3.12. Модельные номера AMD Opteron

Название процессора

Тактовая частота, ГГц

Opteron 244

1,80

Opteron 242

1,60

Opteron 240

1,40

 
<<   СОДЕРЖАНИЕ   >>