IT для среднего и малого бизнеса

Новый вычислительный кластер К-60 на основе платформ ASUS в ИПМ им. М. В. Келдыша

Интенсивные работы во всем мире по созданию вычислительных систем высокой и сверхвысокой производительности связаны не только с тем, что они позволяют получать новые фундаментальные знания, но и с тем, что их применение позволяет создавать принципиально новые технологии и модернизировать существующие производства. Высокий темп роста быстродействия ЭВМ стимулирует активное развитие предсказательного компьютерного моделирования. Такие методы предоставляют широкие возможности в решении прикладных задач в наиболее важных отраслях промышленности и перспективных областях науки и техники.

Одним из мировых лидеров в использовании вычислительной техники для решения прикладных задач математическими методами является Институт прикладной математики им. М. В. Келдыша Российской Академии Наук (ИПМ им. М. В. Келдыша РАН). Он был образован в 1953 году для решения широкого спектра сложных прикладных математических задач, связанных с государственными программами исследования космического пространства, развития атомной и термоядерной энергетики, на основе создания и широкого использования вычислительной техники и программного обеспечения. На данный момент ИПМ им. М. В. Келдыша является головной организацией по ряду ведущих направлений прикладной математики в России, и его специалисты – признанными ведущими авторитетами на мировом уровне.

ЗАО «Карма Групп» продолжительное время успешно сотрудничает с различными структурами РАН и Федерального агентства научных организаций (ФАНО). Компания зарекомендовала себя как надежный и эффективный поставщик широкого спектра самых передовых решений в создании высокопроизводительных вычислительных кластеров. Практический опыт, технические ресурсы и накопленные компетенции ЗАО «Карма Групп» позволяют ей успешно реализовывать самые сложные проекты в этой области, используя при этом самые передовые и эффективные технологии.

Одним из важных этапов для ЗАО «Карма Групп» стал совместный проект с ИПМ им. М. В. Келдыша РАН по созданию нового высокопроизводительного вычислительного кластера K-60. Специалисты ЗАО «Карма Групп» совместно с сотрудниками Института провели глубокий сравнительный анализ возможных вариантов построения системы и различного оборудования для ее реализации, в результате чего и были выбраны наиболее эффективные решения.

Задача проекта

На момент начала работы над проектом на базе ИПМ им. М. В. Келдыша РАН уже существовало несколько суперкомпьютеров, ранее разработанных в институте, главным из которых был кластер К-100. Кластер К-100 является первым в России суперкомпьютером с гибридной архитектурой. Его особенностью является использование в вычислениях наряду с универсальными процессорами общего назначения специализированных графических ускорителей. Суммарная пиковая производительность К-100 составляет 107,5 терафлопс. Кластер К-100 был введен в эксплуатацию в конце 2010 года и используется до настоящего времени. За прошедший период с его помощью решено множество сложных фундаментальных и прикладных задач в области аэродинамики и техники перспективных летательных и космических аппаратов, безопасной ядерной энергетики, нелинейных процессов в плазме и др.

В последнее время ИПМ им. М. В. Келдыша РАН появилась острая необходимость создания нового кластера, обусловленная потребностью разгрузить гибридный кластер К-100 за счет большого количества задач, использующих только центральные процессоры. Появилась идея перенести такие задачи на современный кластер с многоядерными процессорами и большой оперативной памятью на узлах. Такой подход способствует повышению эффективности К-100 за счет увеличения пропускной способности задач, использующих графические ускорители, и сокращения времени ожидания задач в очереди. Также появляется возможность существенного увеличения общего вычислительного ресурса совокупного кластера.

При определении архитектуры будущего кластера было учтено, что для задач, не использующих графические ускорители, важна многоядерность процессоров и большой объем оперативной памяти на вычислительном узле. Исходя из этого, а также учитывая экономический фактор, был выбран вариант архитектуры К-60. Отказавшись от графических ускорителей, удалось расширить вычислительное поле, организовать адекватную высокоскоростную коммуникационную сеть, а также увеличить емкость файлового хранилища.

Таким образом оба типа вычислительных задач в рамках разработанного проекта получили существенное улучшение эффективности в производстве расчетов. Естественно, что в процессе проектирования учитывался весь предыдущий опыт сотрудников ИПМ им. М. В. Келдыша РАН в разработках и эксплуатации как классических, так гибридных суперЭВМ.

Техническое решение

Основной задачей объединенного коллектива специалистов компании ЗАО «Карма Групп» и ИПМ им. М. В. Келдыша РАН был подбор современного оборудования, которое обеспечило бы максимум производительности при решении широкого спектра задач пользователей при минимальных финансовых затратах. В качестве основного серверного оборудования была выбрана платформа ASUS, т.к. она обеспечила нужное соотношение вычислительной мощности, надежности и цены.

По условиям технического задания необходимо было передать кластер К-60 заказчику в виде единого вычислительного комплекса с модульной структурой, полностью собранного и настроенного. Вычислительные узлы, входящие в его состав, должны были базироваться на процессорах x86_64. Максимальная производительность должна была составлять не менее 60 терафлопс в нормальных условиях эксплуатации. Кластер должен был включать не менее 64 вычислительных узлов по 28 вычислительных ядер на каждый узел.

В соответствии с указанными требованиями разработанный вычислительный кластер К-60 не использует сопроцессоры или графические ускорители и базируется только на центральных процессорах. Его суммарная пиковая производительность составляет 60 терафлопс. Хотя это меньше, чем у К-100, большинство задач новый кластер решает в несколько раз быстрее. Существенное ускорение расчетов на К-60 обеспечивается благодаря использованию технологии гиперпоточности, когда в вычислениях используются все 56 параллельных потоков двухпроцессорного узла.

Использованные в К-60 серверы ASUS поддерживают современные центральные процессоры x86_64 архитектуры и характеризуются отличной энергоэффективностью и экономичностью. Двухпроцессорная платформа ASUS RS520-E8-RS8 V2, которая использовалась в качестве базового узла кластера, хорошо масштабируется и допускает гибкую настройку аппаратной конфигурации.

Вычислительный кластер K-60 состоит из 64 вычислительных узлов. Все узлы кластера размещены в шести шкафах 47U. Логически кластер состоит из 6 основных модулей и двух вспомогательных. Основные модули содержат вычислительные, коммутационные, управляющие модули, а вспомогательные модули содержат дополнительные батареи и источники бесперебойного питания.

В качестве вычислительных узлов использовались серверы форм-фактора 2U со следующими характеристиками:

  • процессоры: 2 х Intel Xeon E5-2690 v4 (14 ядер, 28 потоков, до 3,5 ГГц);
  • объем оперативной памяти стандарта DDR4: 256 ГБ;
  • жесткий диск: 1 ТБ;
  • 2 сетевых адаптера Gigabit Ethernet;
  • 2 сетевых адаптера InfiniBand FDR (56 Гб/с).

Серверы ASUS RS520-E8-RS8 V2 используют систему охлаждения, которая обеспечивает эффективное теплоотведение. При необходимости скорость вращения вентиляторов может регулироваться вручную, обеспечивая условия для наиболее продуктивной работы. Некоторые компоненты серверов поддерживают замену в «горячем» режиме и резервирование.

Кроме непосредственно вычислительных узлов в состав кластера К-60 входит несколько сетей, а именно:

  • внутренняя сеть Gigabit Ethernet для управления вычислительными узлами и мониторинга на базе оборудования Huawei;
  • внутренняя сеть InfiniBand для обеспечения обмена данными между вычислительными узлами при счете параллельной программы на базе оборудования Mellanox.

В качестве файлового хранилища К-60 используется оборудование компании Huawei суммарной емкостью 522 ТБ. Для поддержания стабильной работы кластер был укомплектован источниками бесперебойного питания General Electric.

В качестве программного обеспечения используется операционная система CentOS 7.3. Поддерживаются компиляторы C/C++, Fortran. Для распараллеливания вычислений используются MPI и OpenMP. В качестве системы управления ресурсами используется "Система управления прохождением параллельных заданий СУППЗ" (разработана в ИПМ им. М. В. Келдыша РАН).

Результаты внедрения

Работа над созданием кластера началась в четвертом квартале 2016 года, когда компания ЗАО «Карма Групп» выиграла конкурс на его поставку. Уже в феврале 2017 года кластер был введен в эксплуатацию на территории ИМП им. М. В. Келдыша РАН.

В ходе работы над проектом специалисты компании ЗАО «Карма Групп» осуществили поставку всех компонентов вычислительного комплекса, провели работы по монтажу оборудования, включая вспомогательные инженерные системы, обеспечили настройку серверных узлов и программного обеспечения.

Все поставленное оборудование полностью соответствует требованиям технического задания заказчика. При проектировании кластера была заложена возможность увеличения его производительности более чем в два раза без существенного изменения конфигурации, что в последствии и было успешно произведено.

В 2017 г. кластер К-60 был модернизирован. Теперь в его составе находятся 78 расчетных модулей, содержащих 2184 ядер. Суммарная пиковая производительность К-60 доведена до 73 терафлопс. Также существенно ускорен доступ к СХД.

В январе 2018 года уже успевший пройти модернизацию кластер К-60 был успешно продемонстрирован руководству ФАНО России, которое дало ему и полученным на нем результатам высокую оценку.

За время полутора лет эксплуатации К-60 сотрудниками ИМП им. М. В. Келдыша РАН были решены многие актуальные задачи из области вычислительной гидродинамики. В частности расчет обтекания модели беспилотного летательного аппарата, движущегося с гиперзвуковой скоростью (Рис. 1), моделирование турбулентного течения вокруг винта современного скоростного вертолета на режиме осевого обтекания (Рис. 2), математическое моделирование процессов генерации шумов как от отдельных элементов конструкции авиалайнеров, так и от изделия в целом (Рис. 3) с целью их снижения.

 

Рис. 1. Распределение давления на поверхности модели
беспилотного экспериментального гиперзвукового летательного
аппарата NASA X-43.

Рис. 2. Визуализация турбулентных структур (изоповерхность Q-критерия, раскрашенная по модулю скорости) около винта вертолета.

 

Рис. 3. Распределения газодинамического и акустического полей
позади тыловой части авиадвигателя.

С помощью К-60 также были развернуты масштабные вычислительные эксперименты по моделированию нелинейных процессов в микро- и наносистемах, актуальные для развития современных нанотехнологий. В рамках этой тематики с помощью методов молекулярной динамики удалось провести ряд расчетов, связанных с разгоном наночастиц в установках сверхзвукового газодинамического напыления.