В третьей части цикла поговорим о сложных вопросах, возникающих при разработке серверных платформ. Разрабатывать свои технологии или покупные? Интегрировать компоненты на плату или устанавливать в разъемы? А также собственная разработка как ключевой фактор успеха и сложности производства в России

Это третий материал из цикла, посвященного суперкомпьютерам и работе на этом рынке российской компании «Т-Платформы». Материалы созданы на основании интервью с Александром Голубом, директором департамента разработки «Т-Платформ», и Сергеем Клейменовым, главным специалистом по интеграции и внедрению, который занимал пост технического руководителя (так называемый «technical lead») проекта по строительству суперкомпьютера JURECA.

Оглавление

  1. Российский производитель суперкомпьютеров – компания «Т-Платформы»
  2. Как построить суперкомпьютер? Гонки технологий, сроки и скорость внедрения как решающий фактор
  3. Как построить суперкомпьютер? Свои технологии или покупные, собственная разработка плат как ключ к успеху, интеграция против разъемов и сложности производства в России
  4. «Т-Платформы» - крупнейшие проекты недавнего времени, другие направления деятельности
  5. Суперкомпьютер «Т-Платформы» в немецком суперкомпьютерном центре Юлиха
  6. Технические особенности суперкомпьютера JURECA производства «Т-Платформы»
  7. Программная часть суперкомпьютера JURECA, управление ресурсами, обслуживание и основные результаты проекта для «Т-Платформы».

Технически суперкомпьютер представляет собой большое количество (несколько десятков/сотен/тысяч) высокопроизводительных серверов, объединенных в кластер с помощью очень быстрой шины обмена данными. На этих серверах работает специализированное ПО, которое не только обеспечивает работу каждого сервера, но и отвечает за распределение ресурсов всех серверов между задачами. В набор ПО входит операционная система с драйверами оборудования, специальное ПО для распределения и балансирования нагрузки, что позволяет оптимально загружать вычислительные ресурсы, а также ПО для сбора и правильного хранения результатов. Система хранения данных (СХД) суперкомпьютера может быть как интегрированной, так и внешней.

Один из основных вопросов, который необходимо решить при создании суперкомпьютера – какие решения и технологии можно «купить на стороне», а какие необходимо разрабатывать самостоятельно. И какой подход перспективнее.

Покупать технологии или разрабатывать самим?

То, что информационные технологии (ИТ) и рынок высокотехнологичного электронного оборудования развиваются быстрыми темпами – расхожий штамп, к которому мы все уже вроде привыкли. Но эта скорость развития, которая нам кажется положительным моментом, оказывает на все предприятия отрасли тяжелейшее давление. Они вынуждены постоянно инвестировать большое количество ресурсов (денег, времени, сотрудников) в исследования и разработку новых технологий и решений, причем по достаточно широкому кругу направлений. И без каких-либо гарантий успеха – ведь не факт, что новая технология или продукт будут разработаны в срок и по своим характеристикам и возможностям не будут отставать от конкурентов.

При этом технологический уровень в ИТ вырос настолько, что уже невозможно быть специалистом во всем. И каждая компания, занимающаяся разработкой новых технологий и продуктов, постоянно стоит перед сложным выбором: какие технологии разрабатывать своими силами (с постоянным риском получить недостаточно эффективное решение или получить его слишком поздно), а какие покупать или заказывать у партнеров?

Александр Голуб демонстрирует последнее поколение серверной платформы.

По мнению Александра Голуба, директора департамента разработки «Т-Платформ», лучше придерживаться золотого правила: «80% делаешь сам, 20% можешь отдать на сторону». Но главные, критичные для бизнеса направления обязательно нужно развивать самому – просто чтобы оставаться в контексте развития.

Покупка готовой технологии подкупает своей простотой и предсказуемостью: речь идет о готовом рабочем решении, то есть сразу можно оценить его плюсы и минусы, а также рыночные перспективы. Легко оценить, легко отчитаться – поэтому этот способ так любят крупнейшие западные компании. Собственно, это одна из причин расцвета «экономики стартапов», где этап «экспериментов и поиска» выносится из большой неповоротливой компании в маленькие, а большие компании получают возможность выбирать и оплачивать только готовые успешные решения.

Но у такого подхода есть и весомые минусы, главный из которых – серьезное отставание по времени. Ведь технологию или решение еще нужно подогнать под себя, что также требует много времени и сил. Но еще хуже, что при таком подходе компания постепенно теряет инженерную культуру, деградирует, теряет темп и безнадежно отстает от конкурентов.

По словам Александра Голуба, зачастую в период высокой загрузки возникает соблазн отдать часть задач на аутсорс хотя бы ради оптимизации загрузки персонала. Но все равно возникает риск, что собственные сотрудники быстро потеряют нужные навыки и опыт, что еще аукнется в следующих проектах.

При этом выигрыш может оказаться не так уж велик. Даже если, например, компания хочет сосредоточиться на ПО и отдать аппаратную часть на откуп сторонним производителям, все равно нужно иметь своего схемотехника и архитектора, которые будут контролировать производителя и помогать в отладке. Часто получается так, что проще добавить в команду еще пару специалистов и сделать все самому.

Поэтому всю разработку плат, систем и решений компания «Т-Платформы» выполняет собственными силами, поддерживая штат необходимых специалистов. Благодаря этому ее инженеры всегда хорошо понимают, почему выбрано именно это решение, зачем на плате установлен именно этот элемент и какую функцию он выполняет. Плюс, специалисты компании получают возможность накапливать знания и опыт, которые облегчают выполнение следующих проектов и дают компании конкурентное преимущество на рынке.

Внешним партнерам отдается только само производство плат и других компонентов (тех же корпусов и платформ), т.к. стратегия компании пока не предусматривает владение собственными заводами по производству электроники.

Материнские платы, платы расширения и решения в целом: только собственная разработка

Во всех решениях «Т-Платформ» используются материнские платы собственной разработки, причем компания способна выполнить собственными силами все этапы разработки. По словам Александра Голуба, в России нет других производителей, обеспечивающих полный цикл разработки плат.

Сэмплы просто стоят по стенкам. Ими заставлены почти все свободные простенки.

Основные этапы разработки выглядят так:

  • Сначала формируется список требований с учетом текущих потребностей рынка и заказчиков, а также технологических возможностей и перспектив. Очень важно правильно оценивать перспективы и сроки выхода на рынок новых технологий, чтобы на выходе не получить морально устаревший продукт.
  • Далее архитекторы (в штате компании их несколько) прорабатывают дизайн перспективной системы. Они создают концепцию: разрабатывают корпус устройства, базового юнита для суперкомпьютера.
  • Инженеры-схемотехники рисуют электрическую принципиальную схему, далее трассировщики делают разводку печатной платы, после чего компания заказывает производство опытных образцов на одном из партнерских заводов. Производство может идти на разных заводах, это не столь важно, главное – обеспечение нужного уровня качества.
  • Получив референсные образцы, специалисты компании проверяют их, чтобы понять – все ли сделано и работает правильно. Если что-то не так, в дизайн вносятся изменения для исправления обнаруженных ошибок.

Параллельно программисты компании пишут коды BIOS и BMC (board management controller – он управляет платой). Все ПО низкого уровня создается внутри компании ее специалистами, что исключает возможность «закладок» и дает полный контроль над его функциональностью и работой.

Интеграция или платы расширения?

При проектировании серверной материнской платы нужно определиться с важным вопросов: максимально интегрировать компоненты на плату или наоборот, вынести их на платы расширения, подключаемые через разъемы?

В самом общем виде, интегрированные решения имеет смысл использовать там, где и компоненты, и платы достаточно дешевы. Если что-то выйдет из строя – проще не разбираться, а выкинуть плату целиком. Если плата и чипы на ней достаточно дорогие, то имеет смысл использовать разъем – так при выходе из строя чего-то одного можно будет сохранить все остальное.

Кроме того, если распаивать все компоненты на плате и не использовать разъемы, то она получится дешевле, что особенно заметно при больших объемах производства. С другой стороны, в этом случае плата получается с фиксированным набором возможностей: всем покупателям придется переплачивать даже за те компоненты и возможности, которые им не нужны, такую плату сложно или вообще невозможно подогнать под специфические требования, а при выходе нового поколения любого важного компонента она морально устаревает вся целиком, и приходится разрабатывать новое решение.

На фото платформ видно, как расположены основные элементы. Это платформа для сервера под традиционное воздушное охлаждение. Внизу видны платы расширения синего цвета.

Например, в предыдущем поколении материнских плат для серверов V-класса компания интегрировала на плату чип Infiniband. Получилось дорого (т.к. сам чип довольно дорогой), не всем нужно (многие клиенты используют другие решения для интерконнекта и не хотят переплачивать за неиспользуемый чип), и к тому же все решение привязано к конкретному чипу. Т.е. после выхода на рынок нового поколения Infiniband, и плата, а с ней и все решение разом, окажется морально устаревшей.

Поэтому в новом поколении материнских плат «Т-Платформ» практически все второстепенные компоненты вынесли на платы расширения, которые подключаются через порты или разъемы. Из-за этого платформа стала чуть дороже, но зато обеспечивается полная модульность, а решение можно максимально подогнать под требования клиента, даже совсем экзотические, под которые можно сделать отдельную плату расширения.

Производство плат: проблемы российского производства электроники

До недавнего времени практически все производство плат для «Т-Платформ» шло в Китае – во-первых, так дешевле, а во-вторых, на китайских фабриках отлажены производственные и технологические процессы.

«Т-Платформы» готовы сотрудничать и с российскими производителями. Простые сервисные платы (например, платы управления) компания с 2012 года производит только в России, однако в более сложных случаях сотрудничество идет, скажем так, с переменным успехом.

Даже если не брать более высокую стоимость производства (этот недостаток во многом скомпенсирован девальвацией рубля), многие российские предприятия еще страдают от недостатка опыта. Большую часть заводов уже оснастили современным оборудованием, но этого недостаточно – есть целый ряд вопросов, связанных с правильной настройкой оборудования, где ключевую роль играют навыки и опыт технолога. Нужно правильно подобрать условия – как греть, какой термопрофиль, сколько олова под микросхемой, чтобы она не «поплыла» и не отваливалась после пайки и т. д. Все это приходит с опытом, которым предприятия производства электроники массового сегмента пока похвастаться не могут. В области уникальных разработок для оборонки, АЭС и пр. ситуация скорее всего другая, но там и задачи отличаются, и цены. А вот если речь идет о массовом производстве, где нужно максимально снижать издержки - а для этого грамотно подбирать соотношение цена/качества и оптимизировать сами процессы производства, - там ситуация с отлаженностью бизнес-процессов похуже. Причем ключевым фактором является именно то, как отлажены процессы на конкретном предприятии - есть компании, где все хорошо и с амбициозностью руководства, и с технологичностью, и с персоналом.

Напомню, что к теме российского производства электроники мы обращались: в репортаже о конференции, где рассматривались вопросы производства и роли импортозамещения, а также в интервью с Сергеем Зориным на той же конференции).

Сейчас на главной