IT для среднего и малого бизнеса

Как построить суперкомпьютер? Гонки технологий, сроки и скорость внедрения как решающий фактор

Это второй материал из цикла, посвященного суперкомпьютерам и работе на этом рынке российской компании «Т-Платформы». Материалы созданы на основании интервью с Александром Голубом, директором департамента разработки «Т-Платформ», и Сергеем Клейменовым, главным специалистом по интеграции и внедрению, который занимал пост технического руководителя (так называемый «technical lead») проекта по строительству суперкомпьютера JURECA.

Оглавление

  1. Российский производитель суперкомпьютеров – компания «Т-Платформы»
  2. Как построить суперкомпьютер? Гонки технологий, сроки и скорость внедрения как решающий фактор
  3. Как построить суперкомпьютер? Свои технологии или покупные, собственная разработка плат как ключ к успеху, интеграция против разъемов и сложности производства в России
  4. «Т-Платформы» - крупнейшие проекты недавнего времени, другие направления деятельности
  5. Суперкомпьютер «Т-Платформ» в немецком суперкомпьютерном центре Юлиха
  6. Технические особенности суперкомпьютера JURECA производства «Т-Платформ»
  7. Программная часть суперкомпьютера JURECA, управление ресурсами, обслуживание и основные результаты проекта для «Т-Платформ».

В современной экономике сроки играют огромную роль, зачастую сроки создания и вывода технологии и продукта на рынок оказываются куда важнее, чем финансовые затраты. Моделирование с помощью суперкомпьютеров позволяет сэкономить время и ускорить разработку.

Впрочем, для самих суперкомпьютеров сроки тоже играют первостепенную роль. Как только выходит новое поколение вычислительных платформ, прежние решения сразу становятся неинтересны рынку. Построенный и работающий компьютер морально устаревает за три-четыре года. Хотя еще некоторое время им пользуются – это слишком дорогая игрушка, чтобы менять его каждые три года. Но общий срок эксплуатации суперкомпьютера составляет не более шести-семи лет.

Новейшие технологии как залог успеха

Разработчики суперкомпьютеров обязаны оставаться на острие технологического прогресса. Им приходится постоянно исследовать и применять новейшие технологии, разрабатывать и обкатывать решения на новых поколениях вычислительных платформ и периферийных технологий, постоянно взаимодействовать с разработчиками в смежных отраслях, заниматься самостоятельными исследованиями. Все это отнимает большое количество времени и средств, но иначе очень легко утратить конкурентоспособность и вообще потерять рынок.

Потому что суперкомпьютер - это большая и сложная система, обслуживание которой стоит больших денег, зачастую сопоставимых с изначальной ценой решения. Новое поколение технологий всегда лучше по производительности и энергоэффективности, а значит, суперкомпьютер на новом поколении будет занимать меньше места и потреблять меньше электричества при том же уровне производительности. А раз так, то строить суперкомпьютер на устаревшей платформе не имеет смысла даже при наличии больших скидок: потом потеряешь больше денег на обслуживании, да и устареет он быстрее. В результате, суперкомпьютер имеет смысл строить только на самом последнем поколении вычислительных платформ, да и другие технологии лучше использовать поновее.

Для «Т-Платформ» это означает, что сразу после официального выхода на рынок нового поколения серверных платформ Intel компания должна представить свое новое поколение серверной платформы. В частности, то, что компания смогла предложить решения на последнем поколении платформ Intel буквально через несколько дней после их выхода на рынок, позволило «Т-Платформам» выиграть конкурс на строительство суперкомпьютера JURECA в Германии. 

Серверная платформа V-class «Т-Платформ» последнего поколения

Конечно, новейшие технологии – не единственное требование на серверном рынке. Важнейшую роль играют такие факторы как надежность и совместимость, и использование новейшей платформы не дает права на провал по этим направлениям. Но гарантировать надежность и совместимость можно лишь по результатам широкого тестирования, которое отнимает огромное количество времени и ресурсов. Некоторые производители мирового уровня объясняют более поздний выход своих продуктов на рынок как раз тем, что проводят дополнительные тестирования на совместимость и надежность.

В результате, заказчикам приходится либо мириться с использованием устаревшей платформы, либо терять время в ожидании, пока компании первого эшелона выпустят свои «протестированные» решения на новой платформе, либо обращаться к тем компаниям, которые уже имеют готовые решения.

Сотрудничество на ранних этапах разработки

В результате, чем быстрее компания сможет выпустить свое решение на самой свежей платформе – тем лучше. Поэтому важно взаимодействовать с разработчиками новых технологий и решений начиная с ранних этапов – это позволяет заранее познакомиться с новым поколением и его возможностями, оценить его и подготовиться к его выходу на рынок.

Поскольку важнейший компонент сервера - вычислительная платформа, ключевую роль играет взаимодействие с ее производителем. На сегодня все серверы «Т-Платформ», включая решения суперкомпьютеров, используют архитектуру х86 (почему – поговорим ниже) и платформу Intel.

Хотя Intel является на сегодняшний день единственным разработчиком серверных платформ х86, вокруг компании сложилось огромное сообщество разработчиков и партнеров, которое помогает формировать направления развития, обменивается идеями и мнениями, решает проблемы и т.д. Развитое сообщество – один из основных факторов, благодаря которому х86 динамично развивается и эффективно отражает потребности заказчиков. Другие отрасли, где сообщества нет или оно значительно меньше, развиваются не столь активно.

Intel предоставляет партнерам информацию, спецификации, документацию, предсерийные образцы и т.д., дает консультации, указывает на особенности работы новой платформы и интересные возможности. Специалисты Intel помогают в решении вопросов, связанных с работой решений на ее платформах – где-то передает готовое и обкатанное решение, которому обязательно нужно следовать для правильной работы платформы, где-то предлагает варианты решений, оставляя выбор за производителем конкретного решения. А какие-то вопросы полностью отдает на откуп производителям.

Кроме того, Intel для каждой новой платформы предлагает референс-дизайн материнской платы. С одной стороны, это позволяет производителям очень быстро и без затрат на собственную разработку развернуть производство материнских плат со стандартным набором возможностей. С другой – он не всегда оптимален: например, переработав схемотехнику, сторонний производитель может уменьшить количество слоев платы без ущерба для надежности, что при больших тиражах даст значительную экономию в производстве.

Кроме того, для крупных игроков стандартный дизайн чаще всего не подходит из-за уникальных особенностей их решений и платформ. Например, у «Т-Платформ» своя система охлаждения, что накладывает ограничения на расположение процессора, системы питания, слотов памяти и т.д., и своя система управления платой. А еще свои требования к функциональности: сколько должно быть слотов памяти и где они расположены, сколько и каких слотов PCI-Express, где они выводятся, сколько разъемов выходит наружу, как будут объединяться материнские платы между собой – ведь в шасси их ставится до 10 штук. Требования для топовых серверов А-класса (на них строятся самые мощные суперкомпьютеры) – еще выше.

Поэтому «Т-Платформы», как и любой крупный разработчик со своей школой и парком техники, создают собственный дизайн материнских плат, который учитывает не только требования разработчика процессора и платформы, но и особенности и ограничения, накладываемые техническими особенностями компонентов самих «Т-Платформ».

Платформы х86 как оптимальный и единственный выбор

На сегодняшний день компания «Т-Платформы» работает только с архитектурой х86. Специалисты компании постоянно отслеживают рынок и оценивают эффективность различных альтернативных платформ. Например, в свое время пробовали работать с таким экзотическим решением как Cell. Но специфическая архитектура требовала больших работ по адаптации, к тому же у Cell практически отсутствовало сообщество разработчиков, которое помогало бы развивать архитектуру и устранять ошибки и проблемы. Впрочем, это направление вообще быстро закрылось.

На сегодня единственной реальной альтернативой для х86 остаются решения с архитектурой PowerPC от IBM. Однако у этих решений тоже своеобразная архитектура, требующая оптимизации под себя, тоже небольшое сообщество разработчиков, целиком завязанное на одного производителя. Но главный недостаток состоит в том, что процессоры и другие компоненты для этой экосистемы очень дорогие, и в результате выигрыш в производительности не окупает роста финансовых затрат. В результате, от работы с этой архитектурой компания отказалась по экономическим соображениям.

Причем если суперкомпьютеры еще можно строить на экзотических решениях, так как это закрытая система с готовым управляющим ПО, то для серверов общего назначения открытая архитектура и развитое сообщество разработчиков играет ключевую роль. Те архитектуры и решения, которые не смогли создать вокруг себя развитое сообщество партнеров, разработчиков и пользователей, быстро теряли конкурентоспособность и сходили со сцены.

В результате, на сегодня архитектура х86 представляет собой оптимальный выбор как с технической, так и с экономической точки зрения.

И другое…

Обвязка и чипы для периферийных устройств могут быть от самых разных производителей из разных стран. Решение об использовании того или иного варианта может приниматься как на основе технических и технологических особенностей, так и в силу экономических факторов: если при той же функциональности чип дешевле, то при большом объеме производства это дает существенную экономию. Купил дешевле на доллар? При производстве миллиона штук – сэкономил миллион долларов.

В то же время, хотя «Т-Платформы» строят свои решения на западной элементной базе (т.к. альтернатив пока нет), но все работы, связанные с разработкой и производством компания предпочитает выполнять сама. И об этом мы поговорим в следующем материале.