Ту хабаршысы

Персональная гибридная вычислительная система

жүктеу/скачать 15,98 Mb.

Pdf көрінісі

бет	46/82
Дата	15.03.2017
өлшемі	15,98 Mb.
	#9863

1 ... 42 43 44 45 46 47 48 49 ... 82

Тестирование. Анализ результатов
Результаты тестирования экспериментального образца ПГВС на базе трех графических процессоров Nvidia Tesla C2050 при различных объемах оперативной памяти и
Результаты тестирования влияния на производительность экспериментального образца ПГВС пропускной способности шины PCI Express

Персональная гибридная вычислительная система

Использовать вычислительные ресурсы графических карт для задач общего назначения

позволяет CUDA – технология (Compute Unified Device Architecture) – разработка компании NVIDIA.

Так же с использованием CUDA – технологии можно создавать на базе графических карт

персональные гибридные вычислительные системы, реализующие высокопроизводительные

параллельные вычисления [1, 2]. Такие решения уже существуют на сегодняшний момент за рубежом

и активно применяются в различных сферах деятельности. Данные системы не требуют

специализированных помещений, строгих правил эксплуатации и больших площадей для

размещения, а простота в техническом обслуживании и относительно невысокая цена, по сравнению

с суперкомпьютерами на базе центральных процессоров, делает такие решения доступными для

достаточно широкого круга потребителей.

На базе графических карт с использованием CUDA-технологии разработан экспериментальный

образец персональной гибридной вычислительной системы (ЭО ПГВС). Экспериментальный образец

ПГВС имеет пиковую производительность около 3 ТФлопс одинарной и 1,5 ТФлопс двойной

точности и позволяет заменить собой небольшой кластер. Кроме того, это устройство является

персональным супервычислителем, для которого не требуется специальных решений по

электропитанию и охлаждению как в случае с вычислительным кластером на базе центральных

процессоров размещенных в серверных стойках.

Разработанный экспериментальный образец ПГВС является хорошей альтернативой

дорогостоящим

суперкомпьютерам,

демонстрируя

существенно

лучшие

показатели

производительности

на

Ватт

потребляемой

мощности.

Мощность

энергопотребления

экспериментального образца ПГВС составила около 1200Вт. Соотношение производительности на

Ватт потребляемой мощности составило 552,5 МФлопс/Вт.

Производительность экспериментального образца ПГВС в расчете на стоимость владения

также чрезвычайно высока. Стоимость экспериментального образца ПГВС составила $13,4 тыс.

Соотношение цена производительность составило примерно $20 за 1 ГФлопс/сек на тесте Linpack.

Тестирование. Анализ результатов

При измерении производительности кластеров и суперкомпьютеров часто используется 2

варианта: пиковая производительность - теоретический предел производительности для данных

процессоров и реальная производительность, которую данный кластер или компьютер достигает при

решении практических задач.

Наиболее яркими и зарекомендовавшими себя представителями тестов производительности для

гибридных вычислительных систем являются пакеты CUDA Accelerated Linpack и SHOC. Данные

тесты производительности являются предпочтительными, так как поддерживает технологию Nvidia

CUDA и в основном применяется на гетерогенных системах [3-5].

Для задач тестирования гибридных вычислительных систем на базе графических процессоров

использовался Linpack Benchmark в версии для массивно-параллельных гибридных систем – HPL

(Portable Implementation of the High-Performance Linpack Benchmark for Distributed-Memory Computers

for GPU) [6].

Данный тест позволяет задать все значимые параметры алгоритма, подбирая их для

определения наиболее точного значения реальной производительности.

Тестирование производительности экспериментального образца ПГВС на базе трех

графических процессоров проводилось при разных тактовых частотах (1066 и 1333МГц) и разных

объемах оперативной памяти (от 2 до 24 Гб с шагом 2Гб), так же изучено влияние на

производительность пропускной способности шины PCI-Express.

На момент тестирования производительности экспериментального образца ПГВС

конфигурация системы отображена в таблице 1.

● Техникалыќ єылымдар

ЌазЎТУ хабаршысы №5 2014

263

Таблица-1. Характеристики ЭО ПГВС с тремя графическими процессорами

Компонент

Описание / характеристики

Количество

Процессор

Intel core i7-960 3.2Ghz

Графический процессор

Nvidia Tesla C2050

Видеокарта

GeForce 9800GTX+

Оперативная память

4Gb DDR3 1066/1333MHz

Материнская плата

Asus Rampage III

При проведении тестирования производительности с помощью теста Linpack для оценки

реальной производительности экспериментального образца ПГВС использовалось совместимое

свободно распространяемое программное обеспечение. Операционная система – Ubuntu 11.04 (2.6.38)

Desktop, CUDA версии 4.2, математическая библиотека Intel MKL 10, реализация библиотеки MPI -

OpenMPI 1.4.

Так как очень важную роль в тесте CUDA Accelerated Linpack играет обмен данными между

оперативной памятью центрального процессора и памятью графических процессоров, а основным

ограничивающим фактором в передаче данных между центральным и графическим процессорами

являются характеристики оперативной памяти и шины PCI-Express, то это накладывает жесткие

требования к этим компонентам, используемым в персональной гибридной вычислительной системе

на базе графических процессоров.

При тактовой частоте оперативной памяти 1066 МГц и при используемом объеме оперативной

памяти в 2 Гб реальная производительность составляет 227,8 ГФлопс а при объеме оперативной

памяти 24 Гб достигает предела, равного 622 ГФлопс. Анализируя полученные данные, можно

сказать, что с увеличением используемого объема оперативной памяти нелинейно возрастает и

производительность в тесте Linpack.

В сводной таблице тестов (таблица 2) получены значения производительности системы в

зависимости от объема оперативной памяти, размер декомпозиции на порции обработки исходных

данных подобран оптимально, экспериментальным методом (рисунок 1).

При тактовой частоте оперативной памяти 1333 МГц и при объеме оперативной памяти в 2 Гб

реальная производительность составляет 259,0 ГФлопс а при 24 Гб оперативной памяти достигает

предела, равного 663,4 ГФлопс. Таким образом, реальная производительность возросла в 2,5 раза.

Анализируя полученные данные, можно сказать, что можно достичь большей производительности

увеличив объем оперативной памяти, так как динамика прироста производительности по отношению

к приросту оперативной памяти все еще имеет место. Значения производительности системы в

зависимости от объема оперативной памяти представлены в таблице 3 и на рисунке 2.

Таблица-2. Результаты тестирования экспериментального образца ПГВС на базе трех

графических процессоров Nvidia Tesla C2050 при различных объемах оперативной памяти и

тактовой частоте 1066 МГц

Номер

теста

Объем оперативной

памяти, Гб

Размер

матрицы

(N)

Размер сегмента

матрицы (Nb)

Время

выполнения

теста, с

Производительность,

ГФлопс

1

2

14273

512

9,34

227,8

20822

512

18,4

327,2

25502

1024

27,71

399,1

29447

1024

37,81

450,3

32923

1024

50,73

469,0

36066

1024

63,52

492,4

38956

1024

73,34

537,4

41645

1024

89,33

539,1

44171

1024

99,15

579,5

46561

1024

112,98

595,7

48833

1024

129,07

601,5

52224

768

152,51

622,6

● Технические науки

№5 2014 Вестник КазНТУ

264

Рис. 1.

Зависимость производительности экспериментального образца ПГВС от объема

оперативной памяти при тактовой частоте 1066 МГц

В результате практических экспериментов была определена реальная производительность ЭО

ПГВС на базе трех графических процессоров Nvidia Tesla C2050 равная 663 ГФлопс, что составляет

44,2% от пиковой. Дальнейшее увеличение объема оперативной памяти позволило бы получить еще

больший прирост производительности, но на данном экспериментальном образце возможно

использование максимально только 24 Гб оперативной памяти.

Анализируя изменения реальной производительности экспериментального образца при разных

тактовых частотах памяти, получили среднее значение прироста производительности на 9,03% или

же 42,99 ГФлопс при увеличении тактовой частоты памяти на 25% с 1066 до 1333 МГц (рисунок 3).

Таблица-3. Результаты тестирования экспериментального образца ПГВС на базе трех

графических процессоров Nvidia Tesla C2050 при различных объемах оперативной памяти и

тактовой частоте 1333 МГц

Номер

теста

Объем

оперативной

памяти, Гб

Размер

матрицы

(N)

Размер

сегмента

матрицы (Nb)

Время

выполнения

теста, с

Производительность,

ГФлопс

14273

512

8.22

259.0

20822

512

17.18

350.4

25502

1024

25.62

431.6

29447

1024

35.54

479.0

32923

1024

45.76

520.0

36066

1024

57.72

541.8

38956

1024

67.81

581.2

41645

1024

79.52

605.5

44171

1024

90.21

636.9

46561

1024

105.11

640.3

48833

1024

119.73

648.4

52224

768

143.14

663.4

Рис. 2.

Зависимость производительности экспериментального образца ПГВС с тремя GPU

от объема оперативной памяти при тактовой частоте 1333 МГц

● Техникалыќ єылымдар

ЌазЎТУ хабаршысы №5 2014

265

Рис. 3.

Зависимость производительности экспериментального образца ПГВС с тремя

GPU-процессорами от частоты оперативной памяти

Тестирование влияния на производительность ПГВС пропускной способности шины PCI

Express проводилось для экспериментального образца ПГВС на базе 2-х графических процессоров

Tesla, поскольку архитектура современных центральных процессоров позволяет поддерживать не

более 40 линий PCI. Вследствие этого для проведения эксперимента были выбраны две

конфигурации: первая - два графических процессора Tesla со скоростью работы шины PCI Express

x16, вторая - два графических процессора Tesla и не участвующая в вычислениях видеокарта GeForce

со скоростью работы шины PCI Express x8. Значения производительности системы в зависимости от

пропускной способности шины PCI Express представлены в таблице 4.

Таблица-4. Результаты тестирования влияния на производительность экспериментального

образца ПГВС пропускной способности шины PCI Express

Номер

теста

Объем

оперативной

памяти, Гб

Размер

матрицы

(N)

Размер сегмента

матрицы (Nb)

Производительность

при PCI Express x16,

ГФлопс

Производительность

при PCI Express x8,

ГФлопс

14273

768

253,0

262,2

20822

768

358,4

333,6

25502

768

405,7

391

29447

1024

443,7

425,2

32923

1024

463,8

445,6

36066

1024

483,2

460,4

38956

768

501,2

483,9

41645

1024

515,4

506,6

44171

1024

530,3

522,2

46561

1024

539,7

519,6

48833

1024

542,3

532,7

52224

1024

555,8

536

При использовании шины PCI Express x8 и при объеме оперативной памяти в 2 Гб реальная

производительность составляет 262,2 ГФлопс а при 24 Гб оперативной памяти достигает предела,

равного 536 ГФлопс. Производительность увеличилась в 2 раза (рисунок 4).

При использовании шины PCI Express x16 и при объеме оперативной памяти в 2 Гб реальная

производительность составляет 253,0 ГФлопс, а при 24 Гб оперативной памяти достигает предела,

равного 555,8 ГФлопс. Производительность увеличилась в 2,2 раза (рисунок 5).

Анализируя изменения реальной производительности экспериментального образца при разных

скоростях шины PCI, получили среднее значение прироста производительности на 3,11% или же

14,46 ГФлопс (рисунок 6).

Отсюда можно сделать вывод, что значительного влияния на производительность ПГВС

скорость шины PCI Express не оказывает.

Скорость передачи данных по шине PCI-Express, соединяющей центральный процессор,

оперативную память и графический процессор, определяет материнская плата и количество центральных

процессоров. Незначительный прирост производительности при использовании различных шин PCI-

● Технические науки

№5 2014 Вестник КазНТУ

266

Express может быть обусловлен недостаточно высокими характеристиками используемой материнской

платы. При использовании материнской платы с лучшими характеристиками, в частности с большим

количеством поддерживаемых линий PCI Express, влияние пропускной способности шины PCI-Express на

производительность ПГВС может быть более значительным.

Рис. 4.

Зависимость производительности экспериментального образца ПГВС с двумя

GPU-процессорами от пропускной способности шины PCI Express x8

Рис. 5.

Зависимость производительности экспериментального образца ПГВС с двумя

GPU-процессорами от пропускной способности шины PCI Express x16

Рис. 6.

Сравнение производительности экспериментального образца ПГВС с двумя

GPU-процессорами при различных шинах PCI Express x8 и PCI Express x16

Заключение

Проведенный анализ результатов измерения производительности экспериментального образца

ПГВС, показал, что реальная производительность имеет прямую зависимость от объема оперативной

памяти системы. Приведенные результаты научных экспериментов показывают, что с увеличением

объема оперативной памяти нелинейно увеличивается производительность персональной гибридной

вычислительной системы. Но в какой-то момент происходит насыщение и дальнейшее увеличение

объема не дает существенного прироста производительности. Пределы насыщения оперативной

памяти для экспериментального образца с тремя графическими процессорами не были достигнуты. В

свою очередь увеличение количества графических процессоров требует увеличения объема

оперативной памяти, для эффективной загрузки графических процессоров и получения наибольшей

производительности системы.

● Техникалыќ єылымдар

ЌазЎТУ хабаршысы №5 2014

267

Также было определено, что увеличение частоты оперативной памяти при большем количестве

графических процессоров позволяет получить больший прирост реальной производительности в

тесте Linpack– 4,7% для 1-2 графических процессоров, и 9% для 3-х графических процессоров.

В данном эксперименте скорость шины PCI Express оказывает не значительное влияние на

производительность ПГВС. При использовании материнской платы с лучшими характеристиками, в

частности больший объем поддерживаемой памяти, возможно, добиться более высокого влияния

пропускной способности шины PCI-Express на производительность ПГВС.

Проведенное тестирование экспериментального образца ПГВС позволило определить реальную

производительность системы в тесте Linpack, которая составила 663 ГФлопс, что составляет 44,2% от

пиковой производительности. Данная величина не является предельной, т.к. реальная

производительность может достигать до 70% от пиковой, при лучших характеристиках основных

компонентов ПГВС, может быть, достигнут более высокий результат.

ЛИТЕРАТУРА

1. Боресков А.В., Харламов А.А. Основы работы с технологией CUDA. Москва, «ДМК», 2010 г., 232 с.

2. Алипбаев К.А., Ахмедов Д.Ш., Бопеев Т. М., Джамалов Н.К., Елубаев С.А., Сухенко А.С.

Использование CUDA – технологий при моделировании гравитационного поля Земли. XI Международная

научная конференция «Системы компьютерной математики и их приложения» (СКМП-2010), посвященная 70-

летию профессора В.П.Дьяконова. Смоленск, 17-19 мая 2010г.

3. Сервер, содержащий большое количество документации и программных пакетов для

высокоскоростных вычислений и измерения производительности: [Электронный ресурс]. URL: www.netlib.org

4. Top500 Supercomputer sites: [Электронный ресурс]. 2000-2012. URL: http://www.top500.org.

5. Тесты производительности компьютеров и системного ПО. [Электронный ресурс]. URL:

http://www.parallel.ru/computers/benchmarks

6. Техническая поддержка Nvidia: [Электронный ресурс]. URL: http://developer.nvidia.com.

REFERENCES

1. Boreskov A.V., Xarlamov A.A.: Osnovi raboti s texnologieiy CUDA. Moskva (2010) (in Russian)

2. Аlipbaev K.А., Аkhmedov D.SH., Bopeev T. M., Dzhamalov N.K., Elubaev S.А., Sukhenko А.S.:

Ispol'zovanie CUDA – tekhnologij pri modelirovanii gravitatsionnogo polya Zemli. XI Mezhdunarodnaya nauchnaya

konferentsiya «Sistemy komp'yuternoj matematiki i ikh prilozheniya» (SKMP-2010), posvyashhennaya 70-letiyu

professora V.P.D'yakonova. Smolensk, 17-19 maya 2010g. (in Russian)

3. Server containing a large amount of documentation and software packages for high-speed computations and

performance measurement, http:// www.netlib.org

4. Top500 Supercomputer sites, http://www.top500.org

5. Computer performance tests and system software, http://www.parallel.ru/computers/benchmarks

6. NVidia Technical support, http://developer.nvidia.com

Ахмедов Д.Ш., Елубаев С.А., Абдолдина Ф.Н., Бопеев Т.М., Муратов Д.М.

GPU-процессорлардың негізінде дербес гибридті есептеуіш жүйесінің жеке құраушыларының

сипаттамаларынан өнімділіктің тəуелділігін анықтау.

Аңдатпа. Мақалада жоғары өнімді есептеулер үшін графикалық процессорлардың негізінде дербес

гибридті есептеуіш жүйелердің əзірленуіне қатысты сұрақтар қарастырылады. Графикалық процессорлардың

есептеуіш қуаттарын пайдалану жəне CUDA паралелльді есептеу технологиялары орталық процессорлардың

негізінде қымбат бағалы суперкомпьютерлерге балама ретіндегі салыстырмалы түрде арзан дербес гибридті

есептеуіш жүйелерді құруға рұқсат береді.

Ұқсас есептеуіш жүйелерді құру тугелдей дерлік қазақстандық жоғарғы оқу орындарына, сонымен қатар

ғылыми-зерттеу жəне тəжірибелік-құрастырымдылық ұйымдарға, өндірістік компанияларға жоғары өнімді есептеуіш

жабдықтарына деген қажеттіліктерді қанағаттандыруға жəне арнайы қосымшаларға қолдануға рүқсат береді.

Мақалада Nvidia Tesla C2050 үш графикалық процессорлардың негізіндегі дербес гибридті есептеу

жүйесінің эксперименталдық үлгісінің өнімділігін тестілеудің нəтижелері баяндалған. Əр түрлі такттегі

жиіліктердегі (1066 жəне 1333 МГц) жəне əр түрлі оперативті жадтың көлемдеріндегі (қадамы 2 Гб, 2 ден 24Гб

дейін) жүйенің өнімділігін өлшеу үшін бірқатар тəжірибелер жүргізілді, сонымен қатар PCI-Express шинасының

өткізгіштік қабілетінің өнімділікке əсері зерттелінді.

Осы зерттеудің нəтижелері дербес гибридті есептеуіш жүйесінің тəжірибелі үлгісін құру процессінің

негізін құрады.

Мақаланың өзектілігі күмəнсіз, себебі осы жұмыстың нəтижелері дербес гибридті есептеуіш жүйенің

толымдаушыларының оптималды құрамын анықтауға тиімді, өйткені ол əзірленіп жатқан жүйеге арналған ең

жақсы баға/өнімділік қатынасына жетуге мүмкіндік береді.

жүктеу/скачать 15,98 Mb.

Достарыңызбен бөлісу:

1 ... 42 43 44 45 46 47 48 49 ... 82