Системы управления и мониторинга серверами BullSequana S

APC

Сегодня мероприятие проводит Артем Иванов (компания Atos) он расскажет как можно осуществлять управление и мониторинг серверов BullSequana S.

Почему сегодня была выбрана тема "Пришел-увидел-оповестил"? Не секрет, что инструменты управления и мониторинга очень важны при управлении инфраструктурой серверов. Особенно, если в ЦОДе заказчика стоит не один сервер, а два или более. В этом случае мониторинг систем управления является просто необходимой вещью. Сначала будет в теории рассмотрено, какими инструментами могут управляться и мониториться серверы компании Atos, а потом на практике будет показано, как происходит подключение, как производится настройка работы подобных систем.

Для начала немного истории: компания Atos в 2014 году купила компанию Bull, которая много лет занималась производством серверов и суперкомпьютеров. Таким образом это почти 90 лет инноваций. И с 2014 года компания Atos, которая до этого была интегратором, консалтером, т.е. всем тем, что связано с информационными технологиями, после покупки компании Bull стала еще и полноценным серверным вендором. Тот сервер, о котором мы сегодня поведем разговор, это BullSequana S, по сути это просто конструктор Lego, при котором вы можете с шагом в два процессора из 2-хпроцессорных модулей составлять необходимую конфигурацию. 

Т.е. от 2-х процессоров до 32-х до 48 Тбайт оперативной памяти и по числу стандартных процессоров можно устанавливать такое же количество и графических адаптеров. На усмотрение заказчика тут может быть и до 32-х графических контроллеров. Серверы применяются как для задач, которые могут быть распараллелены, т.е. такие, как работа с Big Data и Data Lake. Также это могут быть задачи, которые параллелятся не очень хорошо. Т.е. те, у которых задачи в большинстве своем аналитические. Это чаще всего высоконагруженные базы данных, такие как SAP HANA, Oracle, PostgreSQL, Microsoft SQL, и т.д. 

И наличие графических адаптеров позволяет производить обучение и настройку различных сетей и уходить в плоскость искусственного интеллекта и прорабатывать задачи, связанные с PDI. Наши решения установлены уже и в России под различные задачи, различные базы данных, под виртуализацию, под многие другие задачи.

Если говорить про наполнение сервера BullSequana S, то помимо широкого функционала в плане наращивания аппаратных ресурсов, т.е. если мы говорим про процессоры, про память, также опциональным является и наполнение каждого двухпроцессорного модуля как такового. 

Если мы посмотрим на сервер, то на каждые 2 процессора приходится по 2 unit и нижний из них может быть наполнен дисками. Это могут быть SSD или жесткие диски HDD, и их может быть до 8 штук. Если же мы посмотрим на верхний unit, то он может быть опционально наполнен либо дополнительными 12-ю дисками SSD или HDD 2,5" или же 4 дисками HDD по 3,5". 

Также можно туда установить опционально либо NVMe диски (до 4 штук), либо 2 графических адаптера. По сути в одном доппроцессорном модуле может быть до 20 дисков, или же добавляться могут NVMe диски или графические адаптеры.

Теперь про начинку сервера. На следующем слайде представлена матрица того, каковы максимальные количества различных компонентов могут быть в серверах в зависимости от модели. 

На каждые 2 процессора в максимальной конфигурации может быть до 3 Тбайт оперативной памяти, до 20 дисков или же до 4 дисков NVMe, до 2 графических адаптеров и, если говорить про PCI Express слоты, то здесь доступно до 7 слотов на каждый двухпроцессорный модуль. И если мы рассмотрим все конфигурации, кроме двухпроцессорной, там также будет доступно еще и аппаратное разделение, т.е. это возможность физически разделить сервер на несколько полноценных частей. Допустим, у вас был 8-процессорный сервер, его можно разделить на 4 двухпроцессорных, или, допустим, на один модуль четырехпроцессорный и 2 двухпроцессорных. И они будут абсолютно независимы друг от друга, просто находиться в одной стойке, будут иметь полностью разные операционные системы, и выход из строя одного из модулей не будет влиять на работоспособность других. 

Если мы говорим про рост свыше 8 процессоров серверов, то здесь применяются узловые контроллеры. Вообще, штатная архитектура Intel позволяет расти без каких-либо дополнительных контроллеров вплоть до 8 процессоров. Это связано с количеством Link VPI, тех самых, которые обеспечивают взаимосвязь процессоров в серверах, которые используют процессоры Intel. Максимальное их количество рассчитано на то, чтобы до 8 процессоров сервер рос. Все, что производится свыше, производится с использованием сторонних узловых контроллеров, которые каждый производитель разрабатывает под свои решения сам. В нашем случае подобное решение называется UBox, узловой контроллер, и в случае масштабирования свыше 8 процессоров добавляется пятиюнитовый узловой контроллер (5U UBox), который и называется UBox.

В целом сами модули помещаются в так называемые металлические короба Computebox. Они бывают под 2, под 4, под 8 процессоров. И потом они заезжают в стойку. Соответственно, 16 процессоров у нас превращаются в 8U+5U одного Computebox плюс 8U от еще одного Computebox, это суммарно 21U на 16 процессоров. Или же, если говорить про 32 процессора, то это 42U.

Мониторинг и управление

Перейдем к мониторингу и управлению серверами ATOS, к тому, какие есть доступные системы для мониторинга. Для управления всей инфраструктурой, построенной на серверах вендора, есть инструменты такие, как BMC, iCare, SHC и NFC.

Начнем с Baseboard Management Controller (BMC). Это стройная система на серверах Atos, которая применяется на всех материнских платах, т.е. на каждом двухпроцессорном модуле будет установлена система BMC. 

Он независим от всего сервера, у него собственная операционная система, он может продолжать работу даже, когда операционная система самого сервера отключена. И он контролирует целостность всего железа, которое имеется в инфраструктуре, может совершать такие действия, как включение или отключение сервера, собирать данные с различных датчиков на сервере, отправлять различные оповещения через SNMP в случае необходимости и обновлять прошивку. Доступ к нему осуществляется либо через интерфейс VI, либо через командную строку, либо через инструмент Redfish, о котором поговорим позже. Подключается к сети администратора через собственный IP адрес.

Если мы говорим о многомодульных конфигурациях, т.е. конфигурациях, где задействованы больше 2 процессоров, то в этом случае для одного из модулей у нас выделяется так называемая роль Master, и все управление инфраструктурой будет осуществляться через него. Все остальные модули будут признаны Slave. Модуль Master всегда должен подключаться к сети администратора, с модулями Slave это делать не обязательно.

Инструмент iCare (Insight Care Console) - это инструмент управления. Это некое web-приложение, которое позволяет производить администрирование сервера через единую панель. И статус каждого отслеживаемого ресурса будет выводиться в специальной панели. Его рекомендуется использовать при наличии нескольких серверов BullSequana S. 

Функционал его довольно обширен, это и мониторинг управления серверами, и сервером Bullion предыдущего поколения и BullSequana S. Это и отправление оповещений в случае обнаружения каких-либо отклонений от нормы, это бэкап конфигурации BMC. Такие же действия можно производить с BullSequana S. Это и обновление прошивки, и сравнение версий с различных серверов, если имеется достаточно большая когорта серверов, это и ведение журнала событий, т.е. логирование, и это также включение/отключение самого сервера. iCare – это веб приложение для администрирования сервера, которое предоставляет инструменты для мониторинга и обслуживания через единую панель Single Pane of Glass. Статус каждого отслеживаемого ресурса отображается в iCare с помощью цветового кода.

iCare обеспечивает декодирование данных о событиях в удобном для пользователя виде. Кроме того, iCare ведет журнал системных событий.

Затем Артем Иванова передал слово Кириллу Деменеву (ATOS), который в видеорежиме рассказал и показал как собран и скомпонован сам физический сервер BullSequana S-200, двухсокетная машина. Сам вычислительный модуль сервера находится в так называемом шасси. Шасси бывают 3-х типов: под двухсокетную, под четырехсокетную и под восьмисокетную машину. Из 8-сокетной собираются 16-тисокетные и 32-хсокетные. Важно понимать, что Connecting box предназначен для установки только в 8-мисокетные шасси. Т.е. нельзя поставить 8-сокетные и 4-сокетные шасси, даже если вам нужен сервер с 10-ю сокетами, вам в любом случае придется установить 2 шасси от 8-сокетных машин и между ними будет расположен UBox. 

Как извлекается сервер хорошо видно на картинке. 

Вот так выглядит извлеченный вычислительный модуль. Upper-unit здесь выполняет роль заглушки. С задней стороны видны разъемы. 5 разъемов для подключения PСI-E блейдов и средний разъем для интерконнекта между модулями. Извлекается Upper-unit двумя инжекторами по бокам и снимается. Т.е. это просто пустая железка. На ней есть два разъема для подключения блоков питания и ответная часть, которая подключается непосредственно на материнскую плату. Т.е. это не просто заглушка, а, как минимум, подведение питания к материнской плате. Нижняя часть сервера - это материнская плата, на которой находятся 2 процессора и 24 слота для установки модулей оперативной памяти. Также здесь присутствуют DFM и Disk-FAN модули, т.е. это модуль, в который устанавливаются жесткие диски, и имеется элементы охлаждения, 4 кулера на каждый DFM. Таких DFM 4 штуки на каждый вычислительный модуль. У них есть небольшое различие. Т.е. если у вас есть необходимость установки жестких дисков, то на DFM присутствует плата, которая имеет разъемы SAS SATA. Такие диски можно устанавливать в количестве 2 штук, которые будут расположены в верхних слотах диск FAN модулей, которые находятся справа, т.е. 1-й и 2-й. Остальные диски SAS. В то же время можно установить 8 SAS дисков. Для них необходим RAID-контроллер, который устанавливается в PCI-E блейд. Для SATA дисков можно использовать внутренний встроенный контроллер. Также их можно использовать совместно. Т.е. можно 2 SATA -диска, допустим, использовать под ОС, а остальные SAS совместно с RAID-контроллером использовать в качестве хранилки.

Здесь же на материнской плате присутствует USB-разъем. Он предназначен для установки microUSB RAID-контроллера. Он представляет собой Г-образную плату, в которую можно установить две microSD карточки, и это решение очень удобно. Т.е. нужен небольшой объем, не нужно использовать дисков, в RAID две карточки создают отказоустойчивость. Получается Hardware RAID для операционной системы.

В задней части сервера находится PCI-E-блейды, они Hot Plug, универсальны. Сюда можно установить любые адаптеры. Это могут быть сетевые адаптеры, могут быть VME диски. Но есть один обособленный blade, в который устанавливается RAID-контроллер. В данном сервере их нет. Этот blade немного шире, у него есть SAS кабели для подключения RAID-контроллера непосредственно, и ответная часть, которая подключается в материнскую плату. Т.е. в этот blade нельзя установить сетевые адаптеры или какие-либо диски. Он предназначен именно для RAID-контроллера.

Также у сервера есть два адаптера питания, они тоже Hot Plug. Т.е. замена блока питания при выходе из строя проводится "на горячую" на двухкиловатные блоки. 

Это так называемый встроенный сетевой адаптер. Нижний порт это управлялка BMC. Т.е. это менеджмент всего сервера. Он находится всегда в Master модуле. Т.е. если у вас 8-сокетная машина, и вы используете все 8 сокетов совместно, то управление всего сервера производится через порт Master модуля. Он «разшареный», у него два Mac-адреса, т.е. при подключении кабеля одного можно как управлять сервером, так и назначить на операционку менеджмент. Т.е. для операционки сетевой адрес, через который можно управлять. Т.е. одним кабелем, одним портом можно управлять сервером и интерфейсом ОС. Они бывают двух типов. Здесь у нас представлены в виде четырех медных портов. Два нижних гигабитные, два верхних десятигигабитные. Есть еще модификация с SFP модулями. Два нижние будут медными гигабитными, два верхних десятигигабитные оптические.

Один из интересных моментов, если у нас 8-сокетный сервер, но мы хотим использовать его как две 4-сокетные машины, то при обесточивании одного из серверов, второй продолжает работать. Т.е. с ним можно выполнять все манипуляции как с выключенным сервером, не влияя на вторую часть сервера, хотя они и находятся в одном шасси. У каждого вычислительного модуля два своих блока питания. На передней панели у нас находится разъем VGA, можно подключить монитор, три USB 3.0 порта, кнопка питания (вкл/выкл) и идентификатор сервера. Т.е. BMС можно поморгать необходимым сервером, либо отдельным модулем данного сервера (это для удобства обслуживания).

На инициализацию оборудования т.е. после того, как мы подали питание непосредственно на сам сервер, необходимо около полутора-двух минут. IP-адрес был назначен, есть, так называемый, Device setup. 

Он предназначен для поиска всех серверов, которые находятся в сети. Если у вас установлено несколько серверов, можно запустить это приложение, оно не требует установки. И оно выдаст все Mac-адреса, которые увидит в сети. Т.е. при помощи этого инструмента мы можем выбрать необходимый нам Mac-адрес. Mac-адрес сервера можно увидеть сзади на выдвижной панели, либо на передней панели есть соответствующая наклейка. 

Еще один из способов посмотреть Mac-адрес самого сервера, это установка специального инструмента из Play Market. Соответственно на передней панели сервера находится метка, к которой мы подносим смартфон, он считает эту метку, которая отдает нам версию прошивки BMC, соответственно и версию прошивки BIOS, IP-адрес сервера и Mac-адрес сервера. Т.е. если мы производим первоначальную настройку, то по Mac мы можем выбрать из нашего списка этот сервер, опросить его, и либо назначить необходимый нам статический IP-адрес. Вводим login, пароль, setup. Он назначает необходимый нам IP-адрес. Далее через браузер заходим по IP-адресу на сам сервер. Отдает нам имя сервера, информирует, что в этой платформе всего один модуль. Если будет больше модулей (2, 4 или 16), то он об этом также сообщит. И куда сервер подключен. На данный момент он подключен к нулевому модулю Master модуль. Вводим login, пароль. 

Вкладка System-control позволяет посмотреть на сервер. Сейчас он выключен. С ним ничего не происходит. Power Management показывает состояние сервера. Он выключен. Последнее состояние памяти, т.е. актуальную цифру, сколько оперативной памяти установлено на сервере он отрисует после того, как прогрузится до BIOS и инициализирует всю память. Если мы добавили, либо убрали память, то актуальную цифру можно будет увидеть только после того, как мы запустим сервер. 

Включение/выключение. Выключение Force, т.е. без запроса в ОС он погасит железку при долгом удержании. И Force Power Cycle - перезагрузка сервера. 

В мониторинге мы можем увидеть статусы наших сенсоров. Сейчас система «ругается» на питание, потому что сервер подключен по одному блоку питания. Для демонстрации этого вполне достаточно. Но такую же картинку мы будем видеть, если блок питания выйдет из строя, или мы его извлечем. По процессорам он нам ничего не отдает потому что сервер выключен, процессоры сейчас не используются. Если в этом Blade находится какая-то карточка, то он об этом тоже сообщает. В PCI3 у нас установлен Blade с карточкой. 

А в PCI4 blade для RAID-контроллера, в нем Blade есть, а самого контроллера нет. И если я сейчас извлеку карточку, PCI-3 пропал. Устройство не обнаружено. Устанавливаю обратно - устройство появилось. 

Диск FAN модуля. В модуле работают только два средних. Крайние не работают. Об их присутствии нам сообщается, они есть, но не включены. Потому что нет нагрузки на сервер. Достаточно охлаждения двумя Fan-модулями. И здесь же он показывает, с какой скоростью вращается каждый из четырех кулеров. 

Популяция памяти. Здесь сервер выключен. Если были установлены дополнительные модули, он об этом сообщит. В этой конфигурации у нас установлено четыре 32-гигабайтных модуля памяти.