Р. Г. Стронгина. Ниж- ний Новгород: Изд-во Нижегородского университета, 2002, 217 с

ПРОБЛЕМЫ ЭФФЕКТИВНОГО ИСПОЛЬЗОВАНИЯ УЗЛОВ

жүктеу/скачать 1,64 Mb.

Pdf көрінісі

бет	94/151
Дата	26.01.2022
өлшемі	1,64 Mb.
	#24342
түрі	Семинар

1 ... 90 91 92 93 94 95 96 97 ... 151

Байланысты:
Seminar 1

ПРОБЛЕМЫ ЭФФЕКТИВНОГО ИСПОЛЬЗОВАНИЯ УЗЛОВ
НА ОСНОВЕ АРХИТЕКТУР INTEL В ГЕТЕРОГЕННЫХ КЛАСТЕРАХ
А.А. Нарайкин, И.В. Лопатин
Нижегородская лаборатория Intel (INNL)
В  данной  работе  исследованы  некоторые  пути  увеличения  произ-
водительности  и  возможности  распараллеливания  прикладных  про-
грамм на архитектурах IA-32 и IA-64. Также рассмотрено применение
функций,  входящих  в  состав  библиотек Intel® Performance Libraries.
На  примере  программы  моделирования  водной  поверхности Sunset
исследованы возможности эффективного применения этих средств для
научных  приложений  на  архитектурах IA-32 и IA-64. Получены  ре-
зультаты для операционных систем Windows 2000 Professional и Linux
(дистрибутив RedHat 7.1).
Несмотря  на  бурное  развитие  вычислительной  техники,  увеличи-
вающаяся  сложность  прикладных  задач  заставляет  максимально  ис-
пользовать возможности, предоставляемые архитектурой и программ-
ными  средствами  разработки.  При  этом  часто  бывает  важно  обеспе-
чить  соответствие  кода  стандартам  и  сохранить  переносимость  про-
грамм.  Этих  целей  можно  достичь,  применяя  специализированные
библиотеки  и  задействуя  возможности  оптимизирующих  компилято-
ров.
При выполнении программ на гетерогенных кластерах можно вы-
делить  три  уровня  параллелизма – команд  процессора,  многопроцес-
сорных  узлов  с  общей  памятью и, наконец, коммуникаций между уз-
лами.  На  общую  производительность  кластера  существенно  влияет
эффективность выполнения программ на всех трех уровнях, однако в
данной  работе  проблемы  коммуникации  узлов  не  рассматриваются.
Использование оптимизации, специфической для архитектуры процес-

125
сора,  поддержка  векторных  вычислений  и  стандарта OpenMP позво-
ляют  достичь  максимальной  производительности  узлов  с  минималь-
ными затратами времени и изменениями исходного кода. Эти возмож-
ности  реализованы  как  в  компиляторах Intel® C/C++ и Intel® Fortran
[1], так и в наборе специализированных библиотек Intel® Performance
Libraries [2].
Для  иллюстрации  применения  данных  технологий  было  рассмот-
рено приложение Sunset [3], осуществляющее численное моделирова-
ние изображения водной поверхности в реальном времени. Его досто-
инствами  для  такого  рода  экспериментов  являются  относительно  не-
большой размер ядра (около 50 килобайт) в сочетании с интенсивными
вычислениями  с  плавающей  точкой,  которые  занимают  более 98%
времени  работы  приложения  (остальное  время  уходит  на  вывод  изо-
бражения).  Существуют  как  С,  так  и Fortran-версия  вычислительного
ядра, что позволяет оценить работу компиляторов сразу для двух язы-
ков. Приложение работает на архитектурах IA-32 и IA-64 под управле-
нием как Windows, так и Linux. Производительность легко измеряется
количеством кадров в секунду, которое показывается в нижней части
окна программы.
Рассмотрение использования параллелизма на разных уровнях ло-
гично  начать  с  самого  нижнего – команд  процессора.  Поддержка  па-
раллелизма  на  уровне  инструкций,  осуществляемая  компилятором,
позволяет избежать трудоемкого низкоуровневого кодирования, обес-
печивая при этом сопоставимую производительность. На архитектуре
IA-32  это,  прежде  всего,  выражается  в  возможности  автоматической
поддержки расширенных наборов инструкций MMX, SSE и SSE2, ра-
ботающих  по  принципу SIMD (Single Instruction Multiple Data), кото-
рые позволяют выполнять однотипные операции над несколькими ар-
гументами за одну команду. На IA-64 компилятор позволяет програм-
мисту использовать систему команд, построенную по принципу EPIC
(Explicitly Parallel Instruction Computing), дословно, допускающую па-
раллелизм в явном виде[4].
На графиках
*
1,2 виден эффект от применения данного подхода на
IA-32,  достигаемый  с  помощью  опций  компилятора (QxK
–
оптимизация для Pentium III, QxW – Pentium 4). Столь существенный

*
Результаты приведены для версии, реализованной на языке С. Аналогичные
результаты получены для Fortran 90.

126
прирост  производительности  достигнут  во  многом  благодаря  исполь-
зованию потоковых операций. Однако, следует помнить о возможных
зависимостях  внутри  циклов.  Для  диагностики  подобных  проблем  у
компилятора  существует  соответствующий  аппарат  (например,  опция
Qvec_report [1,2,3]). В  случае,  если  пользователь,  зная  алгоритм,  уве-
рен в отсутствии проблемы, о которой сигнализирует компилятор, то с
помощью  специальных  директив  возможно  форсированное  использо-
вание  векторных  инструкций  независимо  от  результатов  автоматиче-
ского анализа зависимостей.
Применение директив компилятора и функций времени выполне-
ния,  описываемых  в  стандарте OpenMP[5], позволяет  распараллелить
программу для запуска на системах с общей памятью (в случае с архи-
тектурой  IA-32 – SMP  от  двух  до  четырех  процессоров, Itanium – до
512  процессоров). OpenMP является  переносимым  промышленным
стандартом, поддерживаемым большим количеством производителей.
Внедрение  в  программу  директив OpenMP позволило  получить
почти линейное ускорение на всех рассмотренных платформах, как это
видно из графиков. Ввиду переносимости стандарта и реализации его в
Fortran  и  С,  один  и  тот  же  набор  директив  использовался  как  в 32-
битной Linux и Windows-версиях приложения, так и на 64-битной ар-
хитектуре.  Следует  отметить  относительную  простоту  использования
OpenMP по сравнению с реализацией той же функциональности явным
заданием  потоков  с  помощью  вызовов  функций  операционной  систе-
мы. Как правило, объем дополнительного кода невелик, что позволяет
без  больших  затрат  распараллеливать  уже  существующие  последова-
тельные приложения. В рассматриваемом примере для параллелизации
цикла размером около 700 строк потребовалось 20 строк кода, описы-
вающего директиву. Таким образом, применение OpenMP обеспечива-
ет  не  только  эффективное  использование  многопроцессорных  узлов
кластера,  но  и  высокую  переносимость  программ  между  операцион-
ными системами и различными архитектурами.
Набор специализированных библиотек Intel® Performance Libraries
также  позволяет  эффективно  использовать  аппаратные  возможности
архитектур Intel. Библиотеки предоставляют интерфейс к высокоопти-
мизированным  подпрограммам,  которые  находят  применение  в таких
областях, как цифровая обработка сигналов, решение систем линейных
уравнений, обработка аудио- и видео информации. Кроме того, функ-

127
циональность  библиотек  расширяет  возможности  компилятора,  огра-
ниченного рамками стандарта языка. В качестве примера можно при-
вести шкалируемость точности а, следовательно, и скорости вычисле-
ния трансцендентных математических функций. Эффект от использо-
вания библиотек отражен на графиках 2 и 3 и особенно ярко проявля-
ется на IA-64, что обусловено наличием технологии EPIC.
Описанные  выше  подходы  могут  быть  применены как по отдель-
ности,  так  и  совместно.  Последнее  приближает  к  максимуму  общую
эффективность  распараллеливания  на  многопроцессорных  компьюте-
рах. Глядя на графики, можно оценить влияние различных комбинаций
на производительность.
В заключение авторы хотят еще раз подчеркнуть важность полно-
ценного  использования  каждого  вычислительного  узла,  входящего  в
состав кластера. Полученные результаты говорят о том, что учет осо-
бенностей архитектуры в сочетании с возможно более полным задей-
ствованием  возможностей  мультипроцессоров  с  общей  памятью  по-
зволяет  на  порядок  повысить  эффективность  работы  вычислительной
системы в целом. Это позволяет понизить стоимость кластера при со-
хранении  сложности  решаемых  задач,  либо  использовать  уже  имею-
щуюся аппаратуру для решения задач большей сложности.

жүктеу/скачать 1,64 Mb.

Достарыңызбен бөлісу:

1 ... 90 91 92 93 94 95 96 97 ... 151