Ту хабаршысы


Персональная гибридная вычислительная система



жүктеу 15.98 Mb.
Pdf просмотр
бет46/82
Дата15.03.2017
өлшемі15.98 Mb.
1   ...   42   43   44   45   46   47   48   49   ...   82

Персональная гибридная вычислительная система 

Использовать  вычислительные  ресурсы  графических  карт  для  задач  общего  назначения 

позволяет CUDA – технология (Compute Unified Device Architecture) – разработка компании NVIDIA. 

Так  же  с  использованием  CUDA  –  технологии  можно  создавать  на  базе  графических  карт 

персональные  гибридные  вычислительные  системы,  реализующие  высокопроизводительные 

параллельные вычисления [1, 2]. Такие решения уже существуют на сегодняшний момент за рубежом 

и  активно  применяются  в  различных  сферах  деятельности.  Данные  системы  не  требуют 

специализированных  помещений,  строгих  правил  эксплуатации  и  больших  площадей  для 

размещения, а простота в техническом обслуживании и относительно невысокая цена, по сравнению 

с  суперкомпьютерами  на  базе  центральных  процессоров,  делает  такие  решения  доступными  для 

достаточно широкого круга потребителей.  

На базе графических карт с использованием CUDA-технологии разработан экспериментальный 

образец персональной гибридной вычислительной системы (ЭО ПГВС). Экспериментальный образец 

ПГВС  имеет  пиковую  производительность  около  3  ТФлопс  одинарной  и  1,5  ТФлопс  двойной 

точности  и  позволяет  заменить  собой  небольшой  кластер.  Кроме  того,  это  устройство  является 

персональным  супервычислителем,  для  которого  не  требуется  специальных  решений  по 

электропитанию  и  охлаждению  как  в  случае  с  вычислительным  кластером  на  базе  центральных 

процессоров размещенных в серверных стойках.  

Разработанный  экспериментальный  образец  ПГВС  является  хорошей  альтернативой 

дорогостоящим 

суперкомпьютерам, 

демонстрируя 

существенно 

лучшие 


показатели 

производительности 

на 

Ватт 


потребляемой 

мощности. 

Мощность 

энергопотребления 

экспериментального  образца  ПГВС  составила  около  1200Вт.  Соотношение  производительности  на 

Ватт потребляемой мощности составило 552,5 МФлопс/Вт.  

 Производительность  экспериментального  образца  ПГВС  в  расчете  на  стоимость  владения 

также  чрезвычайно  высока.  Стоимость  экспериментального  образца  ПГВС  составила  $13,4  тыс. 

Соотношение цена производительность составило примерно $20 за 1 ГФлопс/сек на тесте Linpack. 

Тестирование. Анализ результатов 

При  измерении  производительности  кластеров  и  суперкомпьютеров  часто  используется  2 

варианта:  пиковая  производительность  -  теоретический  предел  производительности  для  данных 

процессоров и реальная производительность, которую данный кластер или компьютер достигает при 

решении практических задач.  

Наиболее яркими и зарекомендовавшими себя представителями тестов производительности для 

гибридных  вычислительных  систем  являются  пакеты  CUDA  Accelerated  Linpack  и  SHOC.  Данные 

тесты  производительности  являются  предпочтительными,  так  как  поддерживает  технологию  Nvidia 

CUDA и в основном применяется на гетерогенных системах [3-5]. 

Для задач тестирования гибридных вычислительных систем на базе графических процессоров 

использовался  Linpack  Benchmark  в  версии  для  массивно-параллельных  гибридных  систем  –  HPL 

(Portable Implementation of the High-Performance Linpack Benchmark for Distributed-Memory Computers 

for GPU) [6].  

Данный  тест  позволяет  задать  все  значимые  параметры  алгоритма,  подбирая  их  для 

определения наиболее точного значения реальной производительности.  

Тестирование  производительности  экспериментального  образца  ПГВС  на  базе  трех 

графических  процессоров  проводилось  при  разных  тактовых  частотах  (1066  и  1333МГц)  и  разных 

объемах  оперативной  памяти  (от  2  до  24  Гб  с  шагом  2Гб),  так  же  изучено  влияние  на 

производительность пропускной способности шины PCI-Express

На  момент  тестирования  производительности  экспериментального  образца  ПГВС 

конфигурация системы отображена в таблице 1. 


 Техникалыќ єылымдар 

 

ЌазЎТУ хабаршысы №5 2014  



 

263


Таблица-1. Характеристики ЭО ПГВС с тремя графическими процессорами 

 

Компонент 



Описание / характеристики 

Количество 

Процессор 

Intel core i7-960 3.2Ghz 

Графический процессор 



Nvidia Tesla C2050 

Видеокарта 



GeForce 9800GTX+ 

Оперативная память 



4Gb DDR3 1066/1333MHz 

Материнская плата 



Asus Rampage III 

 



При  проведении  тестирования  производительности  с  помощью  теста  Linpack  для  оценки 

реальной  производительности  экспериментального  образца  ПГВС  использовалось  совместимое 

свободно распространяемое программное обеспечение. Операционная система – Ubuntu 11.04 (2.6.38) 

Desktop, CUDA версии 4.2, математическая библиотека Intel MKL 10, реализация библиотеки MPI - 

OpenMPI 1.4. 

Так  как  очень  важную  роль  в  тесте  CUDA  Accelerated  Linpack  играет  обмен  данными  между 

оперативной  памятью  центрального  процессора  и  памятью  графических  процессоров,  а  основным 

ограничивающим  фактором  в  передаче  данных  между  центральным  и  графическим  процессорами 

являются  характеристики  оперативной  памяти  и  шины  PCI-Express,  то  это  накладывает  жесткие 

требования к этим компонентам, используемым в персональной гибридной вычислительной системе 

на базе графических процессоров. 

При тактовой частоте оперативной памяти 1066 МГц и при используемом объеме оперативной 

памяти  в  2  Гб  реальная  производительность  составляет  227,8  ГФлопс  а  при  объеме  оперативной 

памяти  24  Гб  достигает  предела,  равного  622  ГФлопс.  Анализируя  полученные  данные,  можно 

сказать,  что  с  увеличением  используемого  объема  оперативной  памяти  нелинейно  возрастает  и 

производительность в тесте Linpack.  

В  сводной  таблице  тестов  (таблица  2)  получены  значения  производительности  системы  в 

зависимости  от  объема  оперативной  памяти,  размер  декомпозиции  на  порции  обработки  исходных 

данных подобран оптимально, экспериментальным методом (рисунок 1). 

При тактовой частоте оперативной памяти 1333 МГц и при объеме оперативной памяти в 2 Гб 

реальная  производительность  составляет  259,0  ГФлопс  а  при  24  Гб  оперативной  памяти  достигает 

предела,  равного  663,4  ГФлопс.  Таким  образом,  реальная  производительность  возросла  в  2,5  раза. 

Анализируя  полученные  данные,  можно  сказать,  что  можно  достичь  большей  производительности 

увеличив объем оперативной памяти, так как динамика прироста производительности по отношению 

к  приросту  оперативной  памяти  все  еще  имеет  место.  Значения  производительности  системы  в 

зависимости от объема оперативной памяти представлены в таблице 3 и на рисунке 2.  

 

Таблица-2.  Результаты  тестирования  экспериментального  образца  ПГВС  на  базе  трех 



графических  процессоров Nvidia Tesla C2050 при  различных  объемах  оперативной  памяти  и 

тактовой частоте 1066 МГц 

 

Номер 



теста 

Объем оперативной 

памяти, Гб 

Размер 


матрицы

(N) 


Размер сегмента 

матрицы (Nb) 

Время 

выполнения 



теста, с 

Производительность, 

ГФлопс 





14273 

512 


9,34 

227,8 


20822 



512 

18,4 


327,2 



25502 

1024 


27,71 

399,1 


29447 



1024 

37,81 


450,3 

10 



32923 

1024 


50,73 

469,0 


12 


36066 

1024 


63,52 

492,4 


14 


38956 

1024 


73,34 

537,4 


16 


41645 

1024 


89,33 

539,1 


18 


44171 

1024 


99,15 

579,5 


10 

20 


46561 

1024 


112,98 

595,7 


11 

22 


48833 

1024 


129,07 

601,5 


12 

24 


52224 

768 


152,51 

622,6 


 

 Технические науки 

 

     



                                               

№5 2014 Вестник КазНТУ  

          

264 


 

 

Рис. 1.

 Зависимость производительности экспериментального образца ПГВС от объема  

оперативной памяти при тактовой частоте 1066 МГц 

 

В  результате  практических  экспериментов  была  определена  реальная  производительность  ЭО 



ПГВС на базе трех графических процессоров Nvidia Tesla C2050 равная 663 ГФлопс, что составляет 

44,2% от пиковой. Дальнейшее увеличение объема оперативной памяти позволило бы получить еще 

больший  прирост  производительности,  но  на  данном  экспериментальном  образце  возможно 

использование максимально только 24 Гб оперативной памяти. 

Анализируя изменения реальной производительности экспериментального образца при разных 

тактовых  частотах  памяти,  получили  среднее  значение  прироста  производительности  на  9,03%  или 

же 42,99 ГФлопс при увеличении тактовой частоты памяти на 25% с 1066 до 1333 МГц (рисунок 3). 

 

Таблица-3.  Результаты  тестирования  экспериментального  образца  ПГВС  на  базе  трех 



графических  процессоров Nvidia Tesla C2050 при  различных  объемах  оперативной  памяти  и 

тактовой частоте 1333 МГц

 

 



Номер 

теста 


Объем 

оперативной 

памяти, Гб 

Размер 


матрицы 

(N) 


Размер  

сегмента  

матрицы (Nb) 

Время  


выполнения 

теста, с 

Производительность, 

ГФлопс 


14273 



512 

8.22 


259.0 



20822 

512 


17.18 

350.4 


25502 



1024 

25.62 


431.6 



29447 

1024 


35.54 

479.0 


10 


32923 

1024 


45.76 

520.0 


12 


36066 

1024 


57.72 

541.8 


14 


38956 

1024 


67.81 

581.2 


16 


41645 

1024 


79.52 

605.5 


18 


44171 

1024 


90.21 

636.9 


10 

20 


46561 

1024 


105.11 

640.3 


11 

22 


48833 

1024 


119.73 

648.4 


12 

24 


52224 

768 


143.14 

663.4 


 

 

 



Рис. 2.

 Зависимость производительности экспериментального образца ПГВС с тремя GPU 

 от объема оперативной памяти при тактовой частоте 1333 МГц 


 Техникалыќ єылымдар 

 

ЌазЎТУ хабаршысы №5 2014  



 

265


 

 

Рис. 3.

 Зависимость производительности экспериментального образца ПГВС с тремя  

GPU-процессорами от частоты оперативной памяти 

 

Тестирование  влияния  на  производительность  ПГВС  пропускной  способности  шины  PCI 



Express  проводилось  для  экспериментального  образца  ПГВС  на  базе  2-х  графических  процессоров 

Tesla,  поскольку  архитектура  современных  центральных  процессоров  позволяет  поддерживать  не 

более  40  линий  PCI.  Вследствие  этого  для  проведения  эксперимента  были  выбраны  две 

конфигурации:  первая  -  два  графических  процессора  Tesla  со  скоростью  работы  шины  PCI  Express 

x16, вторая - два графических процессора Tesla и не участвующая в вычислениях видеокарта GeForce 

со скоростью работы шины PCI Express x8. Значения производительности системы в зависимости от 

пропускной способности шины PCI Express представлены в таблице 4. 

 

Таблица-4. Результаты тестирования влияния на производительность экспериментального 



образца ПГВС пропускной способности шины PCI Express

  

 



Номер 

теста 


Объем 

оперативной 

памяти, Гб 

Размер 


матрицы 

(N) 


Размер сегмента 

матрицы (Nb) 

Производительность 

при PCI Express x16, 

ГФлопс 

Производительность 



при PCI Express x8, 

ГФлопс 


14273 



768 

253,0 


262,2 



20822 

768 


358,4 

333,6 


25502 



768 

405,7 


391 



29447 

1024 


443,7 

425,2 


10 


32923 

1024 


463,8 

445,6 


12 


36066 

1024 


483,2 

460,4 


14 


38956 

768 


501,2 

483,9 


16 


41645 

1024 


515,4 

506,6 


18 


44171 

1024 


530,3 

522,2 


10 

20 


46561 

1024 


539,7 

519,6 


11 

22 


48833 

1024 


542,3 

532,7 


12 

24 


52224 

1024 


555,8 

536 


 

При  использовании  шины  PCI  Express  x8  и  при  объеме  оперативной  памяти  в  2  Гб  реальная 

производительность  составляет  262,2  ГФлопс  а  при  24  Гб  оперативной  памяти  достигает  предела, 

равного 536 ГФлопс. Производительность увеличилась в 2 раза (рисунок 4).  

При использовании шины PCI Express x16 и при объеме оперативной памяти в 2 Гб реальная 

производительность  составляет  253,0  ГФлопс,  а  при  24  Гб  оперативной  памяти  достигает  предела, 

равного 555,8 ГФлопс. Производительность увеличилась в 2,2 раза  (рисунок 5). 

Анализируя изменения реальной производительности экспериментального образца при разных 

скоростях  шины  PCI,  получили  среднее  значение  прироста  производительности  на  3,11%  или  же 

14,46 ГФлопс (рисунок 6).  

Отсюда  можно  сделать  вывод,  что  значительного  влияния  на  производительность  ПГВС 

скорость шины PCI Express не оказывает.  

Скорость  передачи  данных  по  шине  PCI-Express,  соединяющей  центральный  процессор, 

оперативную память и графический процессор, определяет материнская плата и количество центральных 

процессоров.  Незначительный  прирост  производительности  при  использовании  различных  шин  PCI-


 Технические науки 

 

     



                                               

№5 2014 Вестник КазНТУ  

          

266 


Express  может  быть  обусловлен  недостаточно  высокими  характеристиками  используемой  материнской 

платы.  При  использовании  материнской  платы  с  лучшими  характеристиками,  в  частности  с  большим 

количеством поддерживаемых линий PCI Express, влияние пропускной способности шины PCI-Express на 

производительность ПГВС может быть более значительным.  

 

 

 



Рис. 4.

 Зависимость производительности экспериментального образца ПГВС с двумя  

GPU-процессорами от пропускной способности шины PCI Express x8 

 

 



 

Рис. 5.

 Зависимость производительности экспериментального образца ПГВС с двумя 

 GPU-процессорами от пропускной способности шины PCI Express x16 

 

 



 

Рис. 6.

 Сравнение производительности экспериментального образца ПГВС с двумя  

GPU-процессорами при различных шинах PCI Express x8 и PCI Express x16 

 

Заключение 

Проведенный анализ результатов измерения производительности экспериментального образца 

ПГВС, показал, что реальная производительность имеет прямую зависимость от объема оперативной 

памяти  системы.  Приведенные  результаты  научных  экспериментов  показывают,  что  с  увеличением 

объема оперативной памяти нелинейно увеличивается производительность персональной гибридной 

вычислительной  системы.  Но  в  какой-то  момент  происходит  насыщение  и  дальнейшее  увеличение 

объема  не  дает  существенного  прироста  производительности.  Пределы  насыщения  оперативной 

памяти для экспериментального образца с тремя графическими процессорами не были достигнуты. В 

свою  очередь  увеличение  количества  графических  процессоров  требует  увеличения  объема 

оперативной памяти, для эффективной загрузки графических процессоров и получения наибольшей 

производительности системы. 



 Техникалыќ єылымдар 

 

ЌазЎТУ хабаршысы №5 2014  



 

267


Также было определено, что увеличение частоты оперативной памяти при большем количестве 

графических  процессоров  позволяет  получить  больший  прирост  реальной  производительности  в 

тесте Linpack– 4,7% для 1-2 графических процессоров, и 9% для 3-х графических процессоров. 

В  данном  эксперименте  скорость  шины  PCI  Express  оказывает  не  значительное  влияние  на 

производительность ПГВС. При использовании материнской платы с лучшими характеристиками, в 

частности  больший  объем  поддерживаемой  памяти,  возможно,  добиться  более  высокого  влияния 

пропускной способности шины PCI-Express на производительность ПГВС. 

Проведенное тестирование экспериментального образца ПГВС позволило определить реальную 

производительность системы в тесте Linpack, которая составила 663 ГФлопс, что составляет 44,2% от 

пиковой  производительности.  Данная  величина  не  является  предельной,  т.к.  реальная 

производительность  может  достигать  до  70%  от  пиковой,  при  лучших  характеристиках  основных 

компонентов ПГВС, может быть, достигнут более высокий результат.  

 

ЛИТЕРАТУРА 



1.  Боресков А.В., Харламов А.А. Основы работы с технологией CUDA. Москва, «ДМК», 2010 г., 232 с. 

2.  Алипбаев  К.А.,  Ахмедов  Д.Ш.,  Бопеев  Т.  М.,  Джамалов  Н.К.,  Елубаев  С.А.,  Сухенко  А.С. 

Использование  CUDA  –  технологий  при  моделировании  гравитационного  поля  Земли.  XI  Международная 

научная конференция «Системы компьютерной математики и их приложения» (СКМП-2010), посвященная 70-

летию профессора В.П.Дьяконова. Смоленск, 17-19 мая 2010г. 

3.  Сервер,  содержащий  большое  количество  документации  и  программных  пакетов  для 

высокоскоростных вычислений и измерения производительности: [Электронный ресурс]. URL: www.netlib.org 

4.  Top500 Supercomputer sites: [Электронный ресурс]. 2000-2012. URL: http://www.top500.org.  

5.  Тесты  производительности  компьютеров  и  системного  ПО.  [Электронный  ресурс].  URL: 

http://www.parallel.ru/computers/benchmarks 

6.  Техническая поддержка Nvidia: [Электронный ресурс]. URL: http://developer.nvidia.com.  

 

REFERENCES 



1.  Boreskov A.V., Xarlamov A.A.: Osnovi raboti s texnologieiy CUDA. Moskva (2010) (in Russian) 

2.  Аlipbaev  K.А.,  Аkhmedov  D.SH.,  Bopeev  T.  M.,  Dzhamalov  N.K.,  Elubaev  S.А.,  Sukhenko  А.S.: 

Ispol'zovanie CUDA – tekhnologij pri modelirovanii gravitatsionnogo polya Zemli. XI Mezhdunarodnaya nauchnaya 

konferentsiya  «Sistemy  komp'yuternoj  matematiki  i  ikh  prilozheniya»  (SKMP-2010),  posvyashhennaya  70-letiyu 

professora V.P.D'yakonova. Smolensk, 17-19 maya 2010g. (in Russian) 

3.  Server containing a large amount of documentation and software packages for high-speed computations and 

performance measurement, http:// www.netlib.org  

4.  Top500 Supercomputer sites, http://www.top500.org  

5.  Computer performance tests and system software, http://www.parallel.ru/computers/benchmarks 

6.  NVidia Technical support, http://developer.nvidia.com 



 

Ахмедов Д.Ш., Елубаев С.А., Абдолдина Ф.Н., Бопеев Т.М., Муратов Д.М. 



GPU-процессорлардың  негізінде  дербес  гибридті  есептеуіш  жүйесінің  жеке  құраушыларының 

сипаттамаларынан өнімділіктің тəуелділігін анықтау. 

Аңдатпа.  Мақалада  жоғары  өнімді  есептеулер  үшін  графикалық  процессорлардың    негізінде  дербес 

гибридті  есептеуіш  жүйелердің  əзірленуіне  қатысты  сұрақтар  қарастырылады.  Графикалық  процессорлардың 

есептеуіш  қуаттарын  пайдалану  жəне  CUDA  паралелльді  есептеу  технологиялары  орталық  процессорлардың 

негізінде  қымбат  бағалы  суперкомпьютерлерге  балама  ретіндегі  салыстырмалы  түрде  арзан  дербес  гибридті 

есептеуіш жүйелерді құруға рұқсат береді.  

Ұқсас  есептеуіш  жүйелерді  құру  тугелдей  дерлік  қазақстандық  жоғарғы  оқу  орындарына,  сонымен  қатар 

ғылыми-зерттеу жəне тəжірибелік-құрастырымдылық ұйымдарға, өндірістік компанияларға жоғары өнімді есептеуіш 

жабдықтарына деген қажеттіліктерді қанағаттандыруға жəне арнайы қосымшаларға қолдануға рүқсат береді.  

Мақалада  Nvidia  Tesla  C2050  үш  графикалық  процессорлардың  негізіндегі  дербес  гибридті  есептеу 

жүйесінің  эксперименталдық  үлгісінің    өнімділігін  тестілеудің  нəтижелері  баяндалған.  Əр  түрлі  такттегі 

жиіліктердегі (1066 жəне 1333 МГц) жəне əр түрлі оперативті жадтың көлемдеріндегі (қадамы 2 Гб, 2 ден  24Гб 

дейін) жүйенің өнімділігін өлшеу үшін бірқатар тəжірибелер жүргізілді, сонымен қатар PCI-Express шинасының 

өткізгіштік қабілетінің өнімділікке əсері зерттелінді. 

 Осы  зерттеудің  нəтижелері  дербес  гибридті  есептеуіш  жүйесінің  тəжірибелі  үлгісін  құру  процессінің 

негізін құрады. 

Мақаланың  өзектілігі  күмəнсіз,  себебі  осы  жұмыстың  нəтижелері  дербес  гибридті  есептеуіш  жүйенің 

толымдаушыларының оптималды құрамын анықтауға тиімді, өйткені ол əзірленіп жатқан жүйеге арналған ең 

жақсы баға/өнімділік қатынасына жетуге мүмкіндік береді. 





Поделитесь с Вашими друзьями:
1   ...   42   43   44   45   46   47   48   49   ...   82


©emirsaba.org 2019
әкімшілігінің қараңыз

    Басты бет