Р. Г. Стронгина. Ниж- ний Новгород: Изд-во Нижегородского университета, 2002, 217 с

CОЗДАНИЕ И ПРИМЕНЕНИЕ КЛАСТЕРОВ BEOWULF В

жүктеу/скачать 1,64 Mb.

Pdf көрінісі

бет	72/151
Дата	26.01.2022
өлшемі	1,64 Mb.
	#24342
түрі	Семинар

1 ... 68 69 70 71 72 73 74 75 ... 151

Байланысты:
Seminar 1

CОЗДАНИЕ И ПРИМЕНЕНИЕ КЛАСТЕРОВ BEOWULF В
СУПЕРКОМПЬЮТЕРНОМ ЦЕНТРЕ ИОХ РАН
*

М.Кузьминский, А.Мускатин
Институт органической химии им.Н.Д.Зелинского РАН, г.Москва
Задачи  вычислительной  химии  (в  частности,  квантовой  химии  и
молекулярной динамики) являются одними из основных мировых по-
требителей ресурсов суперЭВМ. В случае расчетов больших молекул
(или при применении наиболее точных методов неэмпирической кван-
товой  химии)  необходимо  распараллеливание  программ.  Соответст-
венно  при  использовании  кластеров  необходимо  иметь  высокий  уро-
вень  распараллеливания  для  достижения  лучшего  соотношения
cтоимость / производительность
по
сравнению
с
суперЭВМ
SMP/ссNUMA- или SMP-архитектур.

*
Работа финансировалась в рамках проекта РФФИ 01-07-90072.

93
Поскольку  каналы  связи  между  узлами  кластеров  имеют  более
низкую  пропускную  способность  и  более  высокие  задержки,  чем  со-
временные суперЭВМ, в то время как производительности применяе-
мых процессоров обычно близки, распараллеливание в кластерах ста-
новится  узким  местом  в  ряде  задач  вычислительной  химии [1]. В  на-
стоящей работе приведены некоторые данные о создании кластеров с
использованием  технологий Fast Ethernet и Gigabit Ethernet в  супер-
компьютерном центре (СКЦ) ИОХ РАН.
При создании кластеров в СКЦ ИОХ РАН была поставлена естест-
венная  задача – достижение  приемлемого  уровня  производительности
при  минимизации  отношения  стоимость/производительность.  Опти-
мальными по этим показателям узлами кластера являются ПК-серверы
на  базе x86-совместимых  микропроцессоров.  В  связи  с  этим  в  СКЦ
ИОХ РАН было создано 2 Linux-кластера.
В  первом  используются  узлы  на  базе  микропроцессоров Intel
Pentium III/600 МГц  с  внешним  кэшем  емкостью 512 Кбайт (8 одно-
процессорных  и 2 двухпроцессорных  узла,  материнские  платы ASUS
P3B-F/P2B-D c набором  микросхем 440ВХ,  с  оперативной  памятью
ECC PC100 емкостью 256 Мбайт на процессор). Во втором применя-
ются узлы на базе AMD Athlon/700 МГц с внешним кэшем емкостью
512 Кбайт (4 однопроцессорных узла с памятью ЕСС РС133 емкостью
128 Мбайт на процессор, материнские платы Gigabyte 7VX). Примене-
ние более высокочастотных микропроцессоров этих фирм имеет свой
недостаток – уменьшенную в 2 раза емкость кэша L2 (серверные вари-
анты микропроцессоров Intel Tualatin в настоящее время недоступны).
В  кластере  на  базе Pentium III для  соединения  узлов  использован
Fast Ethernet. Это – наиболее дешевое на настоящий момент решение,
обеспечивающее  минимально  приемлемую  для  распараллеливания
пропускную способность. В узлах кластера инсталлирована ОС Linux
RedHat 6.2. Применяемые в кластере программы (Gaussian-98, Gamess)
обеспечивают распараллеливание как в модели общего поля памяти (в
SMP-узлах),  так  и в модели обмена сообщениями. В частности, было
найдено,  что  неэмпирический  метод  ССП  удовлетворительно  распа-
раллеливается  в  кластере Fast Ethernet, а  уровень  распараллеливания
метода MP2 существенно хуже [1].
Поскольку обычно в кластере для распараллеливания применяется
МРI,  работающий  поверх TCP/IP, авторами  было  проведено  исследо-

94
вание производительности стека протоколов TCP/IP для основных ти-
пов  сетевых  плат,  применяемых  в  кластерах (3Сom 3c905B, Intel
EtherExpress Pro 100, Kingston KNE100TX, CNet CN100TX) на тестах
netperf.  В  этом  кластере  используется 24-портовый  коммутатор Fast
Ethernet D-Link DES 3224, который поддерживает режим «коммутации
на  лету» (сut-through)  и  имеет  пропускную  способность 5 Гбит/с, что
больше суммарной пропускной способности подсоединяемых каналов
Fast Ethernet. Было  исследовано  влияние  различных  факторов,  в  т.ч.
версии реализации стека протоколов TCP/IP в ОС Linux. Как и следо-
вало ожидать, большие задержки в протоколах TCP/IP привели к тому,
что  включение  режима cut-through не  приводит  к  существенному  по-
вышению  производительности,  и  его  следует  применять  при  работе
MPI без TCP/IP.
Производительность  различных  плат  на  тестах netperf оказалась
довольно близкой, однако из соображений хорошей «интероперабель-
ности» для режима channel bonding (по 2 канала Fast Ethernet на узел)
были выбраны EtherExpress Pro 100. При этом на тестах TCP_STREAM
достигается пропускная способность порядка 150 Мбит/с, а на тестах
UDP_STREAM – 190 Мбит/с [2].
Поскольку  пропускная  способность  каналов  связи  между  узлами
является узким местом в распараллеливании ряда задач квантовой хи-
мии, в кластере на базе AMD Athlon использована технология Gigabit
Ethernet на медной проводке. Эта технология считается перспективной
в  связи  с  ожиданием  резкого  падения  цен  на  соответствующую  про-
дукцию.  В  кластере  используется 8-портовый  коммутатор Gigabit
Ethernet – Intel NetStructure ES470T, а в узлах – сетевые карты Intel Pro
1000T.
Однако результаты измерений на тестах netperf показали не очень
высокий  уровень  пропускной  способности: 345 Мбит/с  для
UDP_STREAM  и 270 Мбит/с  для TCP_STREAM. Переход  от RedHat
6.2 (ядро 2.2) к RedHat 7.1 (ядро 2.4) и соответственно к новой версии
драйвера не улучшает результаты существенным образом. Так, пропу-
скная  способность  на  тестах TCP_STREAM увеличивается  лишь  до
305 Мбит/с. Аналогичная ситуация имеет место на минимально корот-
ких пакетах (для TCP_RR – возрастание примерно с 4570 до 4700). Для
исследования  влияния  задержек,  вносимых  коммутатором,  была  ис-
следована  также  производительность на коротких пакетах при соеди-

95
нении узлов кластера напрямую кабелем cross-over. При этом (для ядра
2.4) результаты тестов UDP_RR (на пакетах длиной 16 байт) возраста-
ют с 5230 до 4590, но эти результаты уступают типовым при работе с
картами Fast Ethernet (например, 7210 для EtherExpress Pro 100.
Это говорит о том, что применение Gigabit Ethernet более эффек-
тивно  при  распараллеливании,  характеризующемся  обменом  сообще-
ниями  больших  размеров.  Нагрузка  на  процессор  в netperf-тестах
STREAM в среднем не превышала 30%, т.е. производительность про-
цессора не является лимитирующим фактором. С учетом того, что эти
сетевые  платы  стоят  на  порядок  дороже,  чем Fast Ethernet (не  считая
стоимость  коммутатора),  применение  подобных  карт  в  таких  ПК-
серверах  с 32-разрядной  шиной PCI (в  частности,  для  многих  задач
вычислительной химии) не является сегодня эффективным по соотно-
шению стоимость/производительность.
Главным  направлением,  обеспечивающим  эффективное  распарал-
леливание (в частности, в кластерах) задач квантовой химии в приме-
нении к сверхбольшим молекулярным системам является, с точки зре-
ния  авторов, «пофрагментный»  подход  с  использованием  локализо-
ванных  орбиталей.  Так,  например,  традиционные  полуэмпирические
схемы  метода  ССП  распараллеливаются  плохо.  Однако  авторами  с
использованием оригинальной методики применения локализованных
орбиталей  в  полуэмпирических  схемах  ССП  и  средств MPI недавно
была  распараллелена  программа,  и  предварительные  оценки  показы-
вают  на  хорошую  эффективность  распараллеливания  в  кластере
FastEthernet.

жүктеу/скачать 1,64 Mb.

Достарыңызбен бөлісу:

1 ... 68 69 70 71 72 73 74 75 ... 151