Р. Г. Стронгина. Ниж- ний Новгород: Изд-во Нижегородского университета, 2002, 217 с


CОЗДАНИЕ И ПРИМЕНЕНИЕ КЛАСТЕРОВ BEOWULF В



Pdf көрінісі
бет72/151
Дата26.01.2022
өлшемі1,64 Mb.
#24342
түріСеминар
1   ...   68   69   70   71   72   73   74   75   ...   151
Байланысты:
Seminar 1

CОЗДАНИЕ И ПРИМЕНЕНИЕ КЛАСТЕРОВ BEOWULF В 
СУПЕРКОМПЬЮТЕРНОМ ЦЕНТРЕ ИОХ РАН
*
 
М.Кузьминский, А.Мускатин 
Институт органической химии им.Н.Д.Зелинского РАН, г.Москва 
Задачи  вычислительной  химии  (в  частности,  квантовой  химии  и 
молекулярной динамики) являются одними из основных мировых по-
требителей ресурсов суперЭВМ. В случае расчетов больших молекул 
(или при применении наиболее точных методов неэмпирической кван-
товой  химии)  необходимо  распараллеливание  программ.  Соответст-
венно  при  использовании  кластеров  необходимо  иметь  высокий  уро-
вень  распараллеливания  для  достижения  лучшего  соотношения 
cтоимость / производительность 
по 
сравнению 
с 
суперЭВМ 
SMP/ссNUMA- или SMP-архитектур. 
                                                           
*
 Работа финансировалась в рамках проекта РФФИ 01-07-90072.  


 
93 
Поскольку  каналы  связи  между  узлами  кластеров  имеют  более 
низкую  пропускную  способность  и  более  высокие  задержки,  чем  со-
временные суперЭВМ, в то время как производительности применяе-
мых процессоров обычно близки, распараллеливание в кластерах ста-
новится  узким  местом  в  ряде  задач  вычислительной  химии [1]. В  на-
стоящей работе приведены некоторые данные о создании кластеров с 
использованием  технологий Fast Ethernet и Gigabit Ethernet в  супер-
компьютерном центре (СКЦ) ИОХ РАН. 
При создании кластеров в СКЦ ИОХ РАН была поставлена естест-
венная  задача – достижение  приемлемого  уровня  производительности 
при  минимизации  отношения  стоимость/производительность.  Опти-
мальными по этим показателям узлами кластера являются ПК-серверы 
на  базе x86-совместимых  микропроцессоров.  В  связи  с  этим  в  СКЦ 
ИОХ РАН было создано 2 Linux-кластера. 
В  первом  используются  узлы  на  базе  микропроцессоров Intel 
Pentium III/600 МГц  с  внешним  кэшем  емкостью 512 Кбайт (8 одно-
процессорных  и 2 двухпроцессорных  узла,  материнские  платы ASUS 
P3B-F/P2B-D c набором  микросхем 440ВХ,  с  оперативной  памятью 
ECC PC100 емкостью 256 Мбайт на процессор). Во втором применя-
ются узлы на базе AMD Athlon/700 МГц с внешним кэшем емкостью 
512 Кбайт (4 однопроцессорных узла с памятью ЕСС РС133 емкостью 
128 Мбайт на процессор, материнские платы Gigabyte 7VX). Примене-
ние более высокочастотных микропроцессоров этих фирм имеет свой 
недостаток – уменьшенную в 2 раза емкость кэша L2 (серверные вари-
анты микропроцессоров Intel Tualatin в настоящее время недоступны). 
В  кластере  на  базе Pentium III для  соединения  узлов  использован 
Fast Ethernet. Это – наиболее дешевое на настоящий момент решение, 
обеспечивающее  минимально  приемлемую  для  распараллеливания 
пропускную способность. В узлах кластера инсталлирована ОС Linux 
RedHat 6.2. Применяемые в кластере программы (Gaussian-98, Gamess) 
обеспечивают распараллеливание как в модели общего поля памяти (в 
SMP-узлах),  так  и в модели обмена сообщениями. В частности, было 
найдено,  что  неэмпирический  метод  ССП  удовлетворительно  распа-
раллеливается  в  кластере Fast Ethernet, а  уровень  распараллеливания 
метода MP2 существенно хуже [1]. 
Поскольку обычно в кластере для распараллеливания применяется 
МРI,  работающий  поверх TCP/IP, авторами  было  проведено  исследо-


94 
вание производительности стека протоколов TCP/IP для основных ти-
пов  сетевых  плат,  применяемых  в  кластерах (3Сom 3c905B, Intel 
EtherExpress Pro 100, Kingston KNE100TX, CNet CN100TX) на тестах 
netperf.  В  этом  кластере  используется 24-портовый  коммутатор Fast 
Ethernet D-Link DES 3224, который поддерживает режим «коммутации 
на  лету» (сut-through)  и  имеет  пропускную  способность 5 Гбит/с, что 
больше суммарной пропускной способности подсоединяемых каналов 
Fast Ethernet. Было  исследовано  влияние  различных  факторов,  в  т.ч. 
версии реализации стека протоколов TCP/IP в ОС Linux. Как и следо-
вало ожидать, большие задержки в протоколах TCP/IP привели к тому, 
что  включение  режима cut-through не  приводит  к  существенному  по-
вышению  производительности,  и  его  следует  применять  при  работе 
MPI без TCP/IP. 
Производительность  различных  плат  на  тестах netperf оказалась 
довольно близкой, однако из соображений хорошей «интероперабель-
ности» для режима channel bonding (по 2 канала Fast Ethernet на узел) 
были выбраны EtherExpress Pro 100. При этом на тестах TCP_STREAM 
достигается пропускная способность порядка 150 Мбит/с, а на тестах 
UDP_STREAM – 190 Мбит/с [2]. 
Поскольку  пропускная  способность  каналов  связи  между  узлами 
является узким местом в распараллеливании ряда задач квантовой хи-
мии, в кластере на базе AMD Athlon использована технология Gigabit 
Ethernet на медной проводке. Эта технология считается перспективной 
в  связи  с  ожиданием  резкого  падения  цен  на  соответствующую  про-
дукцию.  В  кластере  используется 8-портовый  коммутатор Gigabit 
Ethernet – Intel NetStructure ES470T, а в узлах – сетевые карты Intel Pro 
1000T. 
Однако результаты измерений на тестах netperf показали не очень 
высокий  уровень  пропускной  способности: 345 Мбит/с  для 
UDP_STREAM  и 270 Мбит/с  для TCP_STREAM. Переход  от RedHat 
6.2 (ядро 2.2) к RedHat 7.1 (ядро 2.4) и соответственно к новой версии 
драйвера не улучшает результаты существенным образом. Так, пропу-
скная  способность  на  тестах TCP_STREAM увеличивается  лишь  до 
305 Мбит/с. Аналогичная ситуация имеет место на минимально корот-
ких пакетах (для TCP_RR – возрастание примерно с 4570 до 4700). Для 
исследования  влияния  задержек,  вносимых  коммутатором,  была  ис-
следована  также  производительность на коротких пакетах при соеди-


 
95 
нении узлов кластера напрямую кабелем cross-over. При этом (для ядра 
2.4) результаты тестов UDP_RR (на пакетах длиной 16 байт) возраста-
ют с 5230 до 4590, но эти результаты уступают типовым при работе с 
картами Fast Ethernet (например, 7210 для EtherExpress Pro 100. 
Это говорит о том, что применение Gigabit Ethernet более эффек-
тивно  при  распараллеливании,  характеризующемся  обменом  сообще-
ниями  больших  размеров.  Нагрузка  на  процессор  в netperf-тестах 
STREAM в среднем не превышала 30%, т.е. производительность про-
цессора не является лимитирующим фактором. С учетом того, что эти 
сетевые  платы  стоят  на  порядок  дороже,  чем Fast Ethernet (не  считая 
стоимость  коммутатора),  применение  подобных  карт  в  таких  ПК-
серверах  с 32-разрядной  шиной PCI (в  частности,  для  многих  задач 
вычислительной химии) не является сегодня эффективным по соотно-
шению стоимость/производительность.  
Главным  направлением,  обеспечивающим  эффективное  распарал-
леливание (в частности, в кластерах) задач квантовой химии в приме-
нении к сверхбольшим молекулярным системам является, с точки зре-
ния  авторов, «пофрагментный»  подход  с  использованием  локализо-
ванных  орбиталей.  Так,  например,  традиционные  полуэмпирические 
схемы  метода  ССП  распараллеливаются  плохо.  Однако  авторами  с 
использованием оригинальной методики применения локализованных 
орбиталей  в  полуэмпирических  схемах  ССП  и  средств MPI недавно 
была  распараллелена  программа,  и  предварительные  оценки  показы-
вают  на  хорошую  эффективность  распараллеливания  в  кластере 
FastEthernet. 


Достарыңызбен бөлісу:
1   ...   68   69   70   71   72   73   74   75   ...   151




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет