Персональная гибридная вычислительная система
Использовать вычислительные ресурсы графических карт для задач общего назначения
позволяет CUDA – технология (Compute Unified Device Architecture) – разработка компании NVIDIA.
Так же с использованием CUDA – технологии можно создавать на базе графических карт
персональные гибридные вычислительные системы, реализующие высокопроизводительные
параллельные вычисления [1, 2]. Такие решения уже существуют на сегодняшний момент за рубежом
и активно применяются в различных сферах деятельности. Данные системы не требуют
специализированных помещений, строгих правил эксплуатации и больших площадей для
размещения, а простота в техническом обслуживании и относительно невысокая цена, по сравнению
с суперкомпьютерами на базе центральных процессоров, делает такие решения доступными для
достаточно широкого круга потребителей.
На базе графических карт с использованием CUDA-технологии разработан экспериментальный
образец персональной гибридной вычислительной системы (ЭО ПГВС). Экспериментальный образец
ПГВС имеет пиковую производительность около 3 ТФлопс одинарной и 1,5 ТФлопс двойной
точности и позволяет заменить собой небольшой кластер. Кроме того, это устройство является
персональным супервычислителем, для которого не требуется специальных решений по
электропитанию и охлаждению как в случае с вычислительным кластером на базе центральных
процессоров размещенных в серверных стойках.
Разработанный экспериментальный образец ПГВС является хорошей альтернативой
дорогостоящим
суперкомпьютерам,
демонстрируя
существенно
лучшие
показатели
производительности
на
Ватт
потребляемой
мощности.
Мощность
энергопотребления
экспериментального образца ПГВС составила около 1200Вт. Соотношение производительности на
Ватт потребляемой мощности составило 552,5 МФлопс/Вт.
Производительность экспериментального образца ПГВС в расчете на стоимость владения
также чрезвычайно высока. Стоимость экспериментального образца ПГВС составила $13,4 тыс.
Соотношение цена производительность составило примерно $20 за 1 ГФлопс/сек на тесте Linpack.
Тестирование. Анализ результатов
При измерении производительности кластеров и суперкомпьютеров часто используется 2
варианта: пиковая производительность - теоретический предел производительности для данных
процессоров и реальная производительность, которую данный кластер или компьютер достигает при
решении практических задач.
Наиболее яркими и зарекомендовавшими себя представителями тестов производительности для
гибридных вычислительных систем являются пакеты CUDA Accelerated Linpack и SHOC. Данные
тесты производительности являются предпочтительными, так как поддерживает технологию Nvidia
CUDA и в основном применяется на гетерогенных системах [3-5].
Для задач тестирования гибридных вычислительных систем на базе графических процессоров
использовался Linpack Benchmark в версии для массивно-параллельных гибридных систем – HPL
(Portable Implementation of the High-Performance Linpack Benchmark for Distributed-Memory Computers
for GPU) [6].
Данный тест позволяет задать все значимые параметры алгоритма, подбирая их для
определения наиболее точного значения реальной производительности.
Тестирование производительности экспериментального образца ПГВС на базе трех
графических процессоров проводилось при разных тактовых частотах (1066 и 1333МГц) и разных
объемах оперативной памяти (от 2 до 24 Гб с шагом 2Гб), так же изучено влияние на
производительность пропускной способности шины PCI-Express.
На момент тестирования производительности экспериментального образца ПГВС
конфигурация системы отображена в таблице 1.
● Техникалыќ єылымдар
ЌазЎТУ хабаршысы №5 2014
263
Таблица-1. Характеристики ЭО ПГВС с тремя графическими процессорами
Компонент
Описание / характеристики
Количество
Процессор
Intel core i7-960 3.2Ghz
1
Графический процессор
Nvidia Tesla C2050
3
Видеокарта
GeForce 9800GTX+
1
Оперативная память
4Gb DDR3 1066/1333MHz
6
Материнская плата
Asus Rampage III
1
При проведении тестирования производительности с помощью теста Linpack для оценки
реальной производительности экспериментального образца ПГВС использовалось совместимое
свободно распространяемое программное обеспечение. Операционная система – Ubuntu 11.04 (2.6.38)
Desktop, CUDA версии 4.2, математическая библиотека Intel MKL 10, реализация библиотеки MPI -
OpenMPI 1.4.
Так как очень важную роль в тесте CUDA Accelerated Linpack играет обмен данными между
оперативной памятью центрального процессора и памятью графических процессоров, а основным
ограничивающим фактором в передаче данных между центральным и графическим процессорами
являются характеристики оперативной памяти и шины PCI-Express, то это накладывает жесткие
требования к этим компонентам, используемым в персональной гибридной вычислительной системе
на базе графических процессоров.
При тактовой частоте оперативной памяти 1066 МГц и при используемом объеме оперативной
памяти в 2 Гб реальная производительность составляет 227,8 ГФлопс а при объеме оперативной
памяти 24 Гб достигает предела, равного 622 ГФлопс. Анализируя полученные данные, можно
сказать, что с увеличением используемого объема оперативной памяти нелинейно возрастает и
производительность в тесте Linpack.
В сводной таблице тестов (таблица 2) получены значения производительности системы в
зависимости от объема оперативной памяти, размер декомпозиции на порции обработки исходных
данных подобран оптимально, экспериментальным методом (рисунок 1).
При тактовой частоте оперативной памяти 1333 МГц и при объеме оперативной памяти в 2 Гб
реальная производительность составляет 259,0 ГФлопс а при 24 Гб оперативной памяти достигает
предела, равного 663,4 ГФлопс. Таким образом, реальная производительность возросла в 2,5 раза.
Анализируя полученные данные, можно сказать, что можно достичь большей производительности
увеличив объем оперативной памяти, так как динамика прироста производительности по отношению
к приросту оперативной памяти все еще имеет место. Значения производительности системы в
зависимости от объема оперативной памяти представлены в таблице 3 и на рисунке 2.
Таблица-2. Результаты тестирования экспериментального образца ПГВС на базе трех
графических процессоров Nvidia Tesla C2050 при различных объемах оперативной памяти и
тактовой частоте 1066 МГц
Номер
теста
Объем оперативной
памяти, Гб
Размер
матрицы
(N)
Размер сегмента
матрицы (Nb)
Время
выполнения
теста, с
Производительность,
ГФлопс
1
2
14273
512
9,34
227,8
2
4
20822
512
18,4
327,2
3
6
25502
1024
27,71
399,1
4
8
29447
1024
37,81
450,3
5
10
32923
1024
50,73
469,0
6
12
36066
1024
63,52
492,4
7
14
38956
1024
73,34
537,4
8
16
41645
1024
89,33
539,1
9
18
44171
1024
99,15
579,5
10
20
46561
1024
112,98
595,7
11
22
48833
1024
129,07
601,5
12
24
52224
768
152,51
622,6
● Технические науки
№5 2014 Вестник КазНТУ
264
Рис. 1.
Зависимость производительности экспериментального образца ПГВС от объема
оперативной памяти при тактовой частоте 1066 МГц
В результате практических экспериментов была определена реальная производительность ЭО
ПГВС на базе трех графических процессоров Nvidia Tesla C2050 равная 663 ГФлопс, что составляет
44,2% от пиковой. Дальнейшее увеличение объема оперативной памяти позволило бы получить еще
больший прирост производительности, но на данном экспериментальном образце возможно
использование максимально только 24 Гб оперативной памяти.
Анализируя изменения реальной производительности экспериментального образца при разных
тактовых частотах памяти, получили среднее значение прироста производительности на 9,03% или
же 42,99 ГФлопс при увеличении тактовой частоты памяти на 25% с 1066 до 1333 МГц (рисунок 3).
Таблица-3. Результаты тестирования экспериментального образца ПГВС на базе трех
графических процессоров Nvidia Tesla C2050 при различных объемах оперативной памяти и
тактовой частоте 1333 МГц
Номер
теста
Объем
оперативной
памяти, Гб
Размер
матрицы
(N)
Размер
сегмента
матрицы (Nb)
Время
выполнения
теста, с
Производительность,
ГФлопс
1
2
14273
512
8.22
259.0
2
4
20822
512
17.18
350.4
3
6
25502
1024
25.62
431.6
4
8
29447
1024
35.54
479.0
5
10
32923
1024
45.76
520.0
6
12
36066
1024
57.72
541.8
7
14
38956
1024
67.81
581.2
8
16
41645
1024
79.52
605.5
9
18
44171
1024
90.21
636.9
10
20
46561
1024
105.11
640.3
11
22
48833
1024
119.73
648.4
12
24
52224
768
143.14
663.4
Рис. 2.
Зависимость производительности экспериментального образца ПГВС с тремя GPU
от объема оперативной памяти при тактовой частоте 1333 МГц
● Техникалыќ єылымдар
ЌазЎТУ хабаршысы №5 2014
265
Рис. 3.
Зависимость производительности экспериментального образца ПГВС с тремя
GPU-процессорами от частоты оперативной памяти
Тестирование влияния на производительность ПГВС пропускной способности шины PCI
Express проводилось для экспериментального образца ПГВС на базе 2-х графических процессоров
Tesla, поскольку архитектура современных центральных процессоров позволяет поддерживать не
более 40 линий PCI. Вследствие этого для проведения эксперимента были выбраны две
конфигурации: первая - два графических процессора Tesla со скоростью работы шины PCI Express
x16, вторая - два графических процессора Tesla и не участвующая в вычислениях видеокарта GeForce
со скоростью работы шины PCI Express x8. Значения производительности системы в зависимости от
пропускной способности шины PCI Express представлены в таблице 4.
Таблица-4. Результаты тестирования влияния на производительность экспериментального
образца ПГВС пропускной способности шины PCI Express
Номер
теста
Объем
оперативной
памяти, Гб
Размер
матрицы
(N)
Размер сегмента
матрицы (Nb)
Производительность
при PCI Express x16,
ГФлопс
Производительность
при PCI Express x8,
ГФлопс
1
2
14273
768
253,0
262,2
2
4
20822
768
358,4
333,6
3
6
25502
768
405,7
391
4
8
29447
1024
443,7
425,2
5
10
32923
1024
463,8
445,6
6
12
36066
1024
483,2
460,4
7
14
38956
768
501,2
483,9
8
16
41645
1024
515,4
506,6
9
18
44171
1024
530,3
522,2
10
20
46561
1024
539,7
519,6
11
22
48833
1024
542,3
532,7
12
24
52224
1024
555,8
536
При использовании шины PCI Express x8 и при объеме оперативной памяти в 2 Гб реальная
производительность составляет 262,2 ГФлопс а при 24 Гб оперативной памяти достигает предела,
равного 536 ГФлопс. Производительность увеличилась в 2 раза (рисунок 4).
При использовании шины PCI Express x16 и при объеме оперативной памяти в 2 Гб реальная
производительность составляет 253,0 ГФлопс, а при 24 Гб оперативной памяти достигает предела,
равного 555,8 ГФлопс. Производительность увеличилась в 2,2 раза (рисунок 5).
Анализируя изменения реальной производительности экспериментального образца при разных
скоростях шины PCI, получили среднее значение прироста производительности на 3,11% или же
14,46 ГФлопс (рисунок 6).
Отсюда можно сделать вывод, что значительного влияния на производительность ПГВС
скорость шины PCI Express не оказывает.
Скорость передачи данных по шине PCI-Express, соединяющей центральный процессор,
оперативную память и графический процессор, определяет материнская плата и количество центральных
процессоров. Незначительный прирост производительности при использовании различных шин PCI-
● Технические науки
№5 2014 Вестник КазНТУ
266
Express может быть обусловлен недостаточно высокими характеристиками используемой материнской
платы. При использовании материнской платы с лучшими характеристиками, в частности с большим
количеством поддерживаемых линий PCI Express, влияние пропускной способности шины PCI-Express на
производительность ПГВС может быть более значительным.
Рис. 4.
Зависимость производительности экспериментального образца ПГВС с двумя
GPU-процессорами от пропускной способности шины PCI Express x8
Рис. 5.
Зависимость производительности экспериментального образца ПГВС с двумя
GPU-процессорами от пропускной способности шины PCI Express x16
Рис. 6.
Сравнение производительности экспериментального образца ПГВС с двумя
GPU-процессорами при различных шинах PCI Express x8 и PCI Express x16
Заключение
Проведенный анализ результатов измерения производительности экспериментального образца
ПГВС, показал, что реальная производительность имеет прямую зависимость от объема оперативной
памяти системы. Приведенные результаты научных экспериментов показывают, что с увеличением
объема оперативной памяти нелинейно увеличивается производительность персональной гибридной
вычислительной системы. Но в какой-то момент происходит насыщение и дальнейшее увеличение
объема не дает существенного прироста производительности. Пределы насыщения оперативной
памяти для экспериментального образца с тремя графическими процессорами не были достигнуты. В
свою очередь увеличение количества графических процессоров требует увеличения объема
оперативной памяти, для эффективной загрузки графических процессоров и получения наибольшей
производительности системы.
● Техникалыќ єылымдар
ЌазЎТУ хабаршысы №5 2014
267
Также было определено, что увеличение частоты оперативной памяти при большем количестве
графических процессоров позволяет получить больший прирост реальной производительности в
тесте Linpack– 4,7% для 1-2 графических процессоров, и 9% для 3-х графических процессоров.
В данном эксперименте скорость шины PCI Express оказывает не значительное влияние на
производительность ПГВС. При использовании материнской платы с лучшими характеристиками, в
частности больший объем поддерживаемой памяти, возможно, добиться более высокого влияния
пропускной способности шины PCI-Express на производительность ПГВС.
Проведенное тестирование экспериментального образца ПГВС позволило определить реальную
производительность системы в тесте Linpack, которая составила 663 ГФлопс, что составляет 44,2% от
пиковой производительности. Данная величина не является предельной, т.к. реальная
производительность может достигать до 70% от пиковой, при лучших характеристиках основных
компонентов ПГВС, может быть, достигнут более высокий результат.
ЛИТЕРАТУРА
1. Боресков А.В., Харламов А.А. Основы работы с технологией CUDA. Москва, «ДМК», 2010 г., 232 с.
2. Алипбаев К.А., Ахмедов Д.Ш., Бопеев Т. М., Джамалов Н.К., Елубаев С.А., Сухенко А.С.
Использование CUDA – технологий при моделировании гравитационного поля Земли. XI Международная
научная конференция «Системы компьютерной математики и их приложения» (СКМП-2010), посвященная 70-
летию профессора В.П.Дьяконова. Смоленск, 17-19 мая 2010г.
3. Сервер, содержащий большое количество документации и программных пакетов для
высокоскоростных вычислений и измерения производительности: [Электронный ресурс]. URL: www.netlib.org
4. Top500 Supercomputer sites: [Электронный ресурс]. 2000-2012. URL: http://www.top500.org.
5. Тесты производительности компьютеров и системного ПО. [Электронный ресурс]. URL:
http://www.parallel.ru/computers/benchmarks
6. Техническая поддержка Nvidia: [Электронный ресурс]. URL: http://developer.nvidia.com.
REFERENCES
1. Boreskov A.V., Xarlamov A.A.: Osnovi raboti s texnologieiy CUDA. Moskva (2010) (in Russian)
2. Аlipbaev K.А., Аkhmedov D.SH., Bopeev T. M., Dzhamalov N.K., Elubaev S.А., Sukhenko А.S.:
Ispol'zovanie CUDA – tekhnologij pri modelirovanii gravitatsionnogo polya Zemli. XI Mezhdunarodnaya nauchnaya
konferentsiya «Sistemy komp'yuternoj matematiki i ikh prilozheniya» (SKMP-2010), posvyashhennaya 70-letiyu
professora V.P.D'yakonova. Smolensk, 17-19 maya 2010g. (in Russian)
3. Server containing a large amount of documentation and software packages for high-speed computations and
performance measurement, http:// www.netlib.org
4. Top500 Supercomputer sites, http://www.top500.org
5. Computer performance tests and system software, http://www.parallel.ru/computers/benchmarks
6. NVidia Technical support, http://developer.nvidia.com
Ахмедов Д.Ш., Елубаев С.А., Абдолдина Ф.Н., Бопеев Т.М., Муратов Д.М.
GPU-процессорлардың негізінде дербес гибридті есептеуіш жүйесінің жеке құраушыларының
сипаттамаларынан өнімділіктің тəуелділігін анықтау.
Аңдатпа. Мақалада жоғары өнімді есептеулер үшін графикалық процессорлардың негізінде дербес
гибридті есептеуіш жүйелердің əзірленуіне қатысты сұрақтар қарастырылады. Графикалық процессорлардың
есептеуіш қуаттарын пайдалану жəне CUDA паралелльді есептеу технологиялары орталық процессорлардың
негізінде қымбат бағалы суперкомпьютерлерге балама ретіндегі салыстырмалы түрде арзан дербес гибридті
есептеуіш жүйелерді құруға рұқсат береді.
Ұқсас есептеуіш жүйелерді құру тугелдей дерлік қазақстандық жоғарғы оқу орындарына, сонымен қатар
ғылыми-зерттеу жəне тəжірибелік-құрастырымдылық ұйымдарға, өндірістік компанияларға жоғары өнімді есептеуіш
жабдықтарына деген қажеттіліктерді қанағаттандыруға жəне арнайы қосымшаларға қолдануға рүқсат береді.
Мақалада Nvidia Tesla C2050 үш графикалық процессорлардың негізіндегі дербес гибридті есептеу
жүйесінің эксперименталдық үлгісінің өнімділігін тестілеудің нəтижелері баяндалған. Əр түрлі такттегі
жиіліктердегі (1066 жəне 1333 МГц) жəне əр түрлі оперативті жадтың көлемдеріндегі (қадамы 2 Гб, 2 ден 24Гб
дейін) жүйенің өнімділігін өлшеу үшін бірқатар тəжірибелер жүргізілді, сонымен қатар PCI-Express шинасының
өткізгіштік қабілетінің өнімділікке əсері зерттелінді.
Осы зерттеудің нəтижелері дербес гибридті есептеуіш жүйесінің тəжірибелі үлгісін құру процессінің
негізін құрады.
Мақаланың өзектілігі күмəнсіз, себебі осы жұмыстың нəтижелері дербес гибридті есептеуіш жүйенің
толымдаушыларының оптималды құрамын анықтауға тиімді, өйткені ол əзірленіп жатқан жүйеге арналған ең
жақсы баға/өнімділік қатынасына жетуге мүмкіндік береді.
Достарыңызбен бөлісу: |