В пятой статье мы расскажем о важнейшем для компании проекте - суперкомпьютере JURECA, построенном для немецкого научного центра Юлиха. Здесь речь пойдет об условиях конкурса, особенностях решения и других организационных вопросах, связанных с созданием суперкомпьютера.

Это пятый материал из цикла, посвященного суперкомпьютерам и работе на этом рынке российской компании «Т-Платформы». Материалы созданы на основании интервью с Александром Голубом, директором департамента разработки «Т-Платформы», и Сергеем Клейменовым, главным специалистом по интеграции и внедрению, который занимал пост технического руководителя (так называемый «technical lead») проекта по строительству суперкомпьютера JURECA.

Оглавление

  1. Российский производитель суперкомпьютеров – компания «Т-Платформы»
  2. Как построить суперкомпьютер? Гонки технологий, сроки и скорость внедрения как решающий фактор
  3. Как построить суперкомпьютер? Свои технологии или покупные, собственная разработка плат как ключ к успеху, интеграция против разъемов и сложности производства в России
  4. «Т-Платформы» - крупнейшие проекты недавнего времени, другие направления деятельности
  5. Суперкомпьютер «Т-Платформы» в немецком суперкомпьютерном центре Юлиха
  6. Технические особенности суперкомпьютера JURECA производства «Т-Платформы»
  7. Программная часть суперкомпьютера JURECA, управление ресурсами, обслуживание и основные результаты проекта для «Т-Платформы».

Исследовательский центр Юлиха

Исследовательский центр Юлиха получил свое название по названию города Юлих в Германии, рядом с которым он расположен. Это крупный научный центр, занимающийся исследованиями в разных областях, в том числе по биологии (работа мозга), энергетике, экологии и др. Одним из подразделений является и специализированный суперкомпьютерный центр.

Задачи центра, требующие участия суперкомпьютера

Суперкомпьютеры центра используются для научных исследований в таких областях как квантовая физика, атомная физика и другие направления теоретической физики. Есть проекты в области астрофизики, биологии, есть проект по изучению и моделированию человеческого мозга, и др.

Большинство проектов связаны с научными исследованиями. Прикладных задач не так много, хотя они тоже встречаются. Один из интересных примеров прикладной задачи – создание алгоритмов для предсказания поведения толпы. Толчком к исследованиям послужила ошибка при строительстве стадиона в Дюссельдорфе: при экстренной эвакуации пропускной способности коридоров и узлов не хватало, начиналась давка. С помощью суперкомпьютера была создана и обкатана модель, которая отслеживает поведение людей в реальном времени и прогнозирует (до 7 минут в будущем), где может образоваться давка. После чего охрана может так перенаправить людские потоки, чтобы избежать опасности. Сейчас несколько групп исследователей работают над развитием и уточнением модели поведения толпы.

Новый суперкомпьютер для научного центра Юлиха

Суперкомпьютер JUROPA, который использовался в центре Юлиха до JURECA был построен в 2009 году на базе процессоров Intel Xeon X5570 (Nehalem-EP) quad-core с частотой 2,39 ГГц и полностью устарел как морально, так и физически. Суперкомпьютер с топовой производительностью в 308 терафлопс (по данным ТОП500 на июнь 2009, JURECA превосходит его по скорости в пять с половиной раз) устарел и морально – скорость вычислений не удовлетворяет современным требованиям, - и физически – участились отказы, а замену найти уже невозможно.

В объявленном конкурсе участвовали крупнейшие компании рынка. Финальный список участников конфиденциален, но заявки на конкурс подавали такие компании как Hewlett-Packard, Bull, Eurotec, Megware, Cray, Clustervision и другие.

Суперкомпьютерному центру Юлиха требовалась надежная и стабильно работающая рабочая система. Поэтому, хотя JURECA построен на современных технологиях, в его основу все же положены рабочие и обкатанные решения. А от ультрасовременных, но находящихся в стадии «бета-версий» технологий пришлось отказаться. Поэтому JURECA не стал самым мощным суперкомпьютером в Европе, хотя на сегодня он входит в пятерку самых производительных суперкомпьютеров Германии.

Долгое сотрудничество

Строительство JURECA стало крупнейшим, но не первым совместным проектом «Т-Платформы» и центра Юлиха. До этого стороны совместно работали над проектом по изучению целостности данных, динамических алгоритмов роутинга в шине Infiniband и других.

Один из успешных совместных проектов был посвящен так называемому «чек-пойнтингу» - созданию контрольных точек при вычислениях. Даже самый надежный кластер на застрахован от сбоя, при котором все результаты вычислений будут утеряны. Особенно неприятно, если сбой произошел в конце длинного цикла – получается, что все время (которое немало стоит) потеряно впустую. Чтобы этого не происходило, система в определенные моменты (когда цепочка вычислений и обмен данными между узлами завершены) делает бэкап содержимого памяти, кэшей и пр. Это дает возможность быстро восстановить состояние системы в случае сбоя и продолжить работу не с начала, а с момента последнего бэкапа.

Наконец, «Т-Платформы» построили для центра Юлиха тестовую систему – фактически, суперкомпьютер в миниатюре из пары стоек. На ней немецкие заказчики смогли оценить особенности системы, оптимизировать ПО и т.д.

Факторы успеха

Впрочем, опыт сотрудничества – это лишь один из компонентов успеха. Решающий выбор в пользу предложения Т-Платформы был сделан за счет нескольких факторов.

Во-первых, за счет модульной структуры серверов последнего поколения «Т-Платформы» могли очень гибко менять конфигурацию, подстраивая ее под требования и предпочтения немецких заказчиков. Например, только «Т-Платформы» смогли обеспечить использование последнего поколения технологии Infiniband EDR, которое на момент конкурса еще даже не вышло на рынок. Подробнее о ней мы поговорим чуть ниже.

Во-вторых, использование самых современных технологий. Например, тестовую систему собрали на последнем поколении Intel Xeon, которое тогда только-только официально вышло на рынок и у конкурентов еще не присутствовало. А для JURECA «Т-Платформы» смогли предложить систему с немного более высоким уровнем производительности, чем конкуренты, при той же цене. Впрочем, разница была невелика, и в отсутствие других факторов не стала бы решающей.

Наконец, важную роль сыграла готовность компании «Т-Платформы» к дальнейшему сотрудничеству. Суперкомпьютеры в центре Юлиха меняются раз в пять-шесть лет, но в процессе работы что-то постоянно модернизируется, оптимизируется и т.д. Постоянно развивается ПО, а для этого необходимо, чтобы поставщик системы дорабатывал свою часть – стек управляющего промежуточного ПО (Middleware), которое занимается управлением ресурсами.

Сейчас на главной