В четвертой статье мы расскажем о последних крупнейших проектах компании "Т-Платформы": построенном для МГУ суперкомпьютере "Ломоносов-2", в котором применен целый ряд уникальных технологий, включая жидкостное охлаждение, а также проекте суперкомпьютера JURECA для немецкого суперкомпьютера Юлиха. А также о других направлениях деятельности компании.

Это четвертый материал из цикла, посвященного суперкомпьютерам и работе на этом рынке российской компании «Т-Платформы». Материалы созданы на основании интервью с Александром Голубом, директором департамента разработки «Т-Платформ», и Сергеем Клейменовым, главным специалистом по интеграции и внедрению, который занимал пост технического руководителя (так называемый «technical lead») проекта по строительству суперкомпьютера JURECA.

Оглавление

  1. Российский производитель суперкомпьютеров – компания «Т-Платформы»
  2. Как построить суперкомпьютер? Гонки технологий, сроки и скорость внедрения как решающий фактор
  3. Как построить суперкомпьютер? Свои технологии или покупные, собственная разработка плат как ключ к успеху, интеграция против разъемов и сложности производства в России
  4. «Т-Платформы» - крупнейшие проекты недавнего времени, другие направления деятельности
  5. Суперкомпьютер «Т-Платформы» в немецком суперкомпьютерном центре Юлиха
  6. Технические особенности суперкомпьютера JURECA производства «Т-Платформы»
  7. Программная часть суперкомпьютера JURECA, управление ресурсами, обслуживание и основные результаты проекта для «Т-Платформы».

JURECA и «Ломоносов-2» – новейшие суперкомпьютеры «Т-Платформ»

В последнее время компания «Т-Платформы» реализовала два крупнейших проекта мирового уровня по созданию суперкомпьютеров – один в России и один в Германии.

В России построен новый суперкомпьютер «Ломоносов-2» для МГУ. «Т-Платформы» выступили поставщиком решения – компания отвечала за поставку, монтаж и поддержку оборудования, включая работу управляющего ПО. Управлением ресурсами суперкомпьютера занимается специализированная компания при МГУ.

«Ломоносов-2» используется в основном для научных расчетов. Его особенностью является то, что вычислительные ресурсы могут выделяться бесплатно, но специальная комиссия должна подтвердить научную ценность проекта.

Второй крупнейший проект компании - суперкомпьютер JURECA, созданный для Суперкомпьютерного центра при университете Юлиха в Германии и ставший одним из самых производительных суперкомпьютеров на архитектуре х86 в Европе.

Центр Юлиха занимается в том числе изучением работы суперкомпьютеров, так что JURECA – не только рабочая система, но и предмет научных исследований. Однако в рамках проекта требовалось создать именно стабильную и надежную систему, которая предназначена для решения задач клиентов, а не тестовый стенд на новейших технологиях. Сегодня вычислительные ресурсы JURECA предлагаются для научных и прикладных проектов заказчиков со всего мира.

Управлением ресурсами суперкомпьютера также занимается специализированная компания в структуре немецкого университета. В отличие от МГУ, ресурсы суперкомпьютера JURECA предлагаются за плату, а компания-оператор гарантирует сроки оказания услуг и несет за это ответственность. Это накладывает на «Т-Платформы» очень жесткие обязательства по срокам ликвидации любых неполадок в суперкомпьютере. Например, в суперкомпьютере МГУ, где доступ бесплатный, сбой или отказ в работе суперкомпьютера приводит только к тому, что сдвигается очередь расчетов и результат будет получен позже.

В этой и следующих статьях мы подробно поговорим о технических возможностях компании, особенностях ее работы и о суперкомпьютере JURECA, который как раз сейчас вводится в строй. А пока кратко остановимся на технических особенностях другого крупнейшего проекта компании, «Ломоносов-2».

«Ломоносов-2»: особенности решения и материнских плат

«Ломоносов-2» построен из серверных блоков, разработанных специально для него. Серверные блоки сделаны на базе серверов «Т-Платформ» A-Class с водяным охлаждением, смонтированных в специальную нестандартную секцию. А секции в свою очередь, устанавливаются в нестандартный теплоизолированный шкаф высотой 2,5 м, который также специально разработан для этого суперкомпьютера и учитывает его особенности по энергопотреблению и охлаждению. Расчетное энергопотребление каждого шкафа составляет около 130 кВт.

Поскольку сервера, система охлаждения и сама стойка нестандартные, единицей поставки выступает стойка целиком.

Вот более крупный вид стойки.

«Ломоносов-2» построен на последнем поколении серверных материнских плат «Т-Платформ». При их разработке компания поменяла концепцию: в отличие от предыдущего поколения, все второстепенные компоненты убраны с платы и устанавливаются в разъемы в виде карт расширения – даже плата управления и видеоплата (последняя использует стандартный разъем МХМ). Это дает большую гибкость: можно более точно подобрать конфигурацию под потребности клиента, а также отказаться от установки любых компонентов, которые заказчику не нужны, что позволяет снизить цену решения. В дальнейшем есть возможность поменять отдельную плату расширения, что позволяет упростить ремонт и легко заменять устаревшие или неподходящие под требования заказчика компоненты. Это также позволяет сэкономить на эксплуатационных расходах.

В «Ломносов-2» используются GPU NVIDIA GRID. Работают они, разумеется, не в качестве графических адаптеров, а как «числодробилки» под определенные расчеты, для них разработано свое ПО управления.

Для обмена данными между узлами суперкомпьютера используется технология InfiniBand. На сегодня именно она обеспечивает минимальные задержки и высочайшую скорость обмена данными. Решение дорогое, но вариантов с той же производительностью на рынке просто нет. В разработке есть и другие технологии (например, кольцевая сверхвысокоскоростная шина), но они пока не выведены на рынок.

Одно из наиболее интересных технических решений, примененных в «Ломоносов-2» – своя, тоже уникальная, система охлаждения на так называемой «горячей» воде. Смысл ее в том, что в качестве теплоносителя используется теплая вода температурой около 45 градусов. Такая схема позволяет даже в относительно жарком климате полностью отказаться от использования дорогих кондиционеров (чиллеров). Теплая вода просто выходит наружу и охлаждается в сухой градирне – фактически, это большой радиатор, который охлаждается либо в полностью пассивном режиме за счет конвекции, либо с помощью вентилятора. Так как температура воды гарантированно выше, чем температура окружающей среды (которая редко поднимается выше 25-30 градусов), этого хватает при любых условиях.

Использование схемы с теплой водой позволяет прилично сэкономить не только при покупке и монтаже системы, но и на потреблении энергии в процессе эксплуатации. Традиционный промышленный кондиционер мало того, что стоит дорого, так еще и потребляет 1 Вт энергии на отвод 2 Вт тепла. Полная мощность суперкомпьютера (в условиях, когда все стойки подключены и работают под максимальной нагрузкой) – 12-13 МВт. Т.е. активное охлаждение на чиллерах требовало бы дополнительно около 7 МВт. Это при том, что в Москве существует дефицит электрической мощности, и получить ее бывает сложно. Общий лимит энергопотребления для «Ломоносов-2» составляет 15 МВт, и благодаря отказу от активного охлаждения все освободившиеся ресурсы можно передать на увеличение мощности суперкомпьютера.

Система охлаждения организована следующим образом: в каждой секции установлены 8 алюминиевых блоков с внутренними каналами для водяного охлаждения, на каждый блок прикреплены 4 материнские платы. Водяное охлаждение сделано на быстроразъемных соединениях - если требуется провести обслуживание платы или что-то вышло из строя (например, паста подсохла и плата стала греться, вышел из строя модуль памяти и пр.), то эти соединения можно быстро закрыть, извлечь блок и вытащить плату.

Правда, работа с такой системой охлаждения накладывает определенные требования на дизайн материнской платы, связанные с отводом тепла через большой жидкостный радиатор. Есть разные варианты решения: например, в предыдущем поколении компания использовала свой собственный дизайн модуля оперативной памяти, чтобы можно было снимать с него тепло с помощью жидкостного охлаждения. В последнем поколении вместо этого разработали свой уникальный горизонтальный разъем DIMM, который позволяет использовать обычные односторонние модули памяти, которые гораздо дешевле, и при этом эффективно отводить от них тепло.

Суперкомпьютеры… что дальше? Что еще делают «Т-Платформы»

Суперкомпьютеры были первым и до сих пор остаются основным направлением работы компании «Т-Платформы». Однако сейчас компания все активнее работает и на смежных рынках: например, рынке серверов общего назначения.

Благодаря накопленному опыту, компания «Т-Платформы» не привязана к линейкам унифицированных решений мировых производителей, что дает ей большую гибкость при создании решений на базе своих серверных платформ с уникальными особенностями.

Компания также готовится к выходу на другие рынки – рынок сетевого оборудования, рынок промышленных систем и т.д.

Основные направления деятельности компании «Т-Платформы» включают в себя:

  • Разработка и создание суперкомпьютеров. «Т-Платформы» реализовали большое количество проектов по созданию высокопроизводительных вычислительных кластеров как в России, так и за рубежом.
  • Собственное производство серверных компонентов, серверов, в том числе общего назначения, полноценных серверных решений, вычислительных блоков для кластеров, создание уникальных решений «под ключ».
  • Собственный ЦОД с вычислительным кластером, в котором можно арендовать вычислительные ресурсы под проект (компания «Т-Сервисы»).
  • Уникальные проекты для государственных органов.
  • Собственные проекты компании.
  • Оборудование для рабочего места – например, моноблок собственной разработки.
  • Перспективное – оборудование для промышленности (УЧПУ, АСУТП, промышленное и сетевое оборудование).

Сервера общего назначения и моноблок

Насколько лет назад в компании было принято решение расширить свое присутствие на рынке, и одним из наиболее логичных направлений развития стало создание серверов общего назначения. Так у «Т-Платформ» появился новый тип сервера — двухюнитовый (2U) Е-Class.

Это – сервер широкого назначения с модульной конструкцией. Благодаря тому, что корпус и платформа допускают широкий спектр модификаций, функциональность системы может серьезно различаться в зависимости от требований заказчика.

Можно менять заднюю панель сервера, превращая его в платформу для работы с виртуализированными ресурсами графических адаптеров GRID или в СХД с возможностью установки до 20 HDD.

Можно изменять параметры платформы, оптимизируя ее под высокую производительность или под высокую скорость операций i/o. Практически все линии PCI Express выведены в разъемы PCIe на серверной плате, что позволяет установить много плат расширения под разные потребности заказчика. И все это – разные варианты одной и той же серверной платформы.

В ассортименте компании есть и клиентские устройства – в частности, моноблок на платформе Intel, который мы уже тестировали. С точки зрения технических характеристик, это вполне нормальный продукт для рынка, да и по цене он не сильно выделяется среди конкурентов. Но при этом он удовлетворяет специальным требованиям государственных органов и частных заказчиков, связанных с безопасностью.

Промышленное оборудование

Помимо этого, компания осваивает ряд новых для себя рынков и направлений. Так, сейчас «Т-Платформы» готовятся представить свою линейку маршрутизаторов и коммутаторов для профессионального применения (аналоги Cisco, Juniper и пр.).

Компания готовится вывести на рынок решения для промышленности, станков (в том числе, есть разработки под отраслевые решения, такие как станки для металлообработки), АСУ ТП.

Такие промышленные системы могут продаваться и как готовые решения, и как чисто аппаратная платформа, на которую заказчик сможет устанавливать свое ПО. Это может оказаться интересным предложением для рынка: в России и сейчас довольно много компаний, который разрабатывают ПО, а вот разработчиков аппаратных решений практически нет. В результате всем приходится выбирать из доступных готовых решений в Китае.

Сейчас на главной