Hitachi: цифровое рабочее место и объектные решения для хранения данных

APC

Сегодня сотрудник компании Hitachi сделает акцент на новых реалиях в создании цифрового рабочего места, которыми можно воспользоваться из любой точки мира в любой момент времени и с любого гаджета. 


Достоинство такого рабочего места еще и в том, что вся информация, вся документация клиента, которая обычно хранилась на его рабочем ноутбуке, все чаще переходит в облачные хранилища, доступ к этой информации должен быть быстрым с любого устройства в любой момент времени. Для этого у компании Hitachi есть Hitachi Content Portfolio (HCP) и состоит оно из четырех основных продуктов.

В современных условиях эти инфраструктуры развиваются достаточно быстро. И особенно существенные изменения произошли в последние 5-10 лет. Растут требования к IT-инфраструктуре как у пользователей, так и у разработчиков. И не всегда традиционные системы способны с этим справиться. Под традиционными имеются ввиду блочные и файловые хранилища. Многие разработчики сейчас работают в облачном направлении, используя S3-технологии и т.п., а они требуют иных решений. Современное цифровое рабочее место должно получать информацию, иметь возможность обмениваться ею в любой момент времени через Интернет, при этом подключаясь к каким-то отдельным внутренним контурам. Тут есть проблема, которая в последнее время набирает обороты, это большие базы данных. Сейчас все быстрее увеличивается объем данных и их количество растет лавинообразно. И чем больше таких данных, тем сложнее файловым системам с этим справляться. 

Потому что, если маленькие или среднего размера файловые системы еще можно как-то администрировать, разбираться и понимать где что лежит, кто чем пользуется, у кого какой доступ, то когда этих данных становится очень много, их чрезвычайно сложно администрировать. Также появляется проблема в том, что неизвестно, какие данные, собственно, нужны, какие используются, а какие устарели и совсем не используются, их следует просто удалить или заархивировать.

Привычные файловые протоколы, с которыми многие работают, в принципе, тоже удобны, но, например, если вам нужно сделать какой-то публичный ресурс, то настройка займет определенное время. Вам нужно будет «сходить» на основной сервер, выбрать, какая область будет публичной, доступной без авторизации. Такая настройка занимает время, однако контроля после этого все равно никакого нет, и для того чтобы работать по файловым протоколам, нужно куда-то «маунтиться». В нынешних же реалиях люди хотят получать все быстро и просто через Интернет. И на смену традиционным решениям приходят такие протоколы, как S3, используется и давно известный протокол HTTP, для передачи текстовых данных.

Hitachi Content Platform - это объектная система хранения. Что здесь имеется ввиду? Объяснить поможет следующий слайд. 

Если существует только изображенная на слайде фотография, то нет возможности понять, что это за девушка, откуда она. И более того, не заходя в графический файл, вы никогда не поймете, что там изображено. Если добавить туда файловую систему, то у нее появляется так называемые системные метаданные. Это будет имя документа, когда он был создан, когда изменен, его размер и т.д. Но хотя что-то из этих данных станет понятным, например, будет ясно, текстовый это документ или графический, но это не передаст сути того, что именно внутри него находится. 

Однако, если к файлу добавить дополнительно свои особенные метаданные, написать, например, что девушку зовут Джина, что она профессионально занимается единоборствами, что у нее на данный момент 8 боев и 7 побед, то тогда, даже не заходя в этот документ, вы сможете его найти, выделив его из общей массы, понять, что в нем находится, и нужен ли он вам для каких-то целей или нет. То есть дать ему персонализацию. Соответственно, файл плюс его собственные метаданные - это в нашей терминологии и называется объектом. Т.о. Hitachi Content Platform является именно объектной системой хранения. Она позволяет добавлять и работать своему функционалу с дополнительными метаданными к каждому файлу, который она хранит.

Чем еще эта система характеризуется? Во-первых, вся ценность системы в ее программном обеспечении. В связи с этим она может поставляться в программно-аппаратном комплексе Hitachi, где есть серверы систем хранения или специальные полки для хранения для установки виртуальной машины, например, VMware или какого-либо другого вендора. Причем по соответствию функционала они ничем отличаться не будут. И никакого лицензирования по отдельным функционалам у них нет, приобретая один раз терабайтную лицензию, вы получаете сразу весь функционал данного оборудования.

HCP система характеризуется высокой масштабируемостью. Как любое облачное решение, оно должно быть рассчитано на большой объем данных. Это решение поддерживает больше 100 миллиардов объектов, больше 7 экзабайт ёмкости. Т.к. решение большое, становится важным его внутри разделять. Поэтому каждую систему HCP можно разделить на маленькие виртуальные подсистемы. В нашей терминологии они называются TENANT, это небольшая виртуальная HCP внутри большой. У каждой такой виртуальной HCP есть собственный администратор, собственные настройки, своя ёмкость, которая никак не пересекается с другими. Если организация большая, ее можно разделить между отделами: каждый TENANT своему отделу, они работают, не пересекаясь между собой. Если вы сервисный провайдер, например, то каждому своему заказчику раздали по TENANT, у каждого свой объем, своё логирование, свой аудирование. Они при этом следят за тем, кто сколько ёмкости отдельно потребил и т.д.

В HCP очень развита защищенность. Множество специальных функций постоянно перепроверяет данные, исправляют ошибки. Более того, есть встроенная возможность сохранить до 4 копий объектов в одной системе. Т.е. в случае, если вдруг по какой-то причине одна копия выйдет из строя, то можно воспользоваться другой, которая всегда хранится на другом физическом узле и все время доступна. Т.о. Hitachi заявляет эту систему, как не требующую резервного копирования. Т.е. компания гарантирует, что при 2-х системной репликации данные никогда не пропадут и всегда будут доступны для работы.

Кроме этого есть множество интересных функционалов, таких, например, как встроенная версионность, возможность ограничения времени хранения объектов. Т.е. есть возможность, например, запретить удалять объекты в течение определенного срока. Например, в течение 5 лет из данной области невозможно удалять объекты, даже администратору. Это сделано для того, что множество регуляторов по всему миру, в том числе и в России, задают требования, когда определённые документы должны храниться определенное количество времени, исчисляемое годами. Это относится к финансовым документам, медицинским и другим. И поэтому система должна соответствовать требованиям этих регуляторов. HCP из коробки поддерживает все эти возможности. Более того, на уровне европейских и американских рынков, для данной системы даже есть подтверждение госучреждений этих регуляторов, которые подтверждают, что эти системы действительно соответствуют таким требованиям. И если политики хранения заданы верно, то никто не сможет удалить данный документ в течение определенного срока, вплоть до физического уничтожения самой системы.

Протоколы 

Вернемся к протоколам. Система создана для того, чтобы работать как с новыми модными облачными протоколами S3, так и с HTTP, Swift и другими. Т.е. можно одновременно из одной и той же области, к одним и тем же документам получать доступ и редактировать сразу же по всем протоколам одновременно. Система это не ограничивает, позволяя так делать. Если есть необходимость где-то оставаться со старыми файловыми протоколами, где-то с новыми, в данной системе можно из одной точки поддерживать работу сразу по всем протоколам.

Также есть поддержка SMTP для архивирования. Почему это важно? Когда люди работают откуда угодно на любых устройствах важно, чтобы информация была совместима с приложениями на этих устройствах, значит должны использоваться открытые популярные протоколы. 

Здесь история успеха одной из крупных британских страховых компаний. Она покупала более мелкие компании и делала эти слияния со всей IT-структурой купленных компаний. В результате в новой общей инфраструктуре образовался зоопарк. Совместно существовало множество самых разных систем, доставшихся от прежних хозяев. Всех их нужно отдельно обслуживать, отдельно резервировать. А этот процесс стоит достаточно дорого. Резервное копирование никогда не было дешевым удовольствием. При этом в последние годы требования регуляторов заметно усложнились. Но, однако, пока ты обежишь все эти системы, пока соберешь необходимые данные, пока сравнишь, где они корректные, а где нет, время уходило, страховая компания получала значительные штрафы от регуляторов. Особенно, если штраф зависит от годовой выручки. Тогда они решили обратиться в Hitachi. Мы им показали решение НCP. У нас есть решение, которое позволяет переносить данные с более старых систем. Они перенесли всё на НCP, теперь все данные они получают из одного источника. Им теперь легко найти информацию для регуляторов. И за счет того, что они полностью ушли от резервного копирования, было сэкономлено огромное количество ресурсов для дальнейшего развития и IT-менеджмента.

Этот продукт НCP является сердцем портфолио Hitachi. Еще три продукта призваны для того, чтобы расширить функционал данной системы для новых возможностей.

HCP Anywhere

Этот продукт называется - HCP Anywhere. Это аналог Drobox. Это и есть цифровое рабочее место, тот самый soft, который позволяет пользователям с любого устройства иметь доступ к своим данным. 

Но чем отличаются эти публичные сервисы? Во-первых, никто не знает, кто на самом деле имеет доступ к этим данным, потому что они публичные. Вторая проблема заключается в том, что ни один из этих сервисов не несет ответственности за то, что данные сохранены на все 100%. Даже в поисковых соглашениях мелким шрифтом написано, что если данные потерялись, то мы за это ответственности не несем. Что такое HCP Anywhere? Это хороший аналог данных сервисов, но суть в том, что весь soft и все ваши данные хранятся в ЦОДе у заказчика под наблюдением его администраторов, его службы безопасности и т.д. Там развито логирование и аудирование. Внутренние службы компании всегда знают, что с этими данными делается, кто к ним обращался, кто к ним имеет доступ. Ведь они сами создают и раздают доступ. Полноценное приватное облако. Помимо того, что оно приватное, и позволяет пользователям работать с любых устройств, оно есть уже во всех версиях для всех клиентов и для Linux, и для Mac, для Андроид, для IOS, т.е. для всего есть уже официальные офлайнсы, которые также поддерживаются и постоянно обновляются.

Если вдруг на компьютере сгорает жесткий диск, или теряется телефон с какими-то данными, что делать в этом случае? В HCP Anywhere есть возможность как пользователям, так и администраторам создавать такие папки данных, которые обязательно сохраняются в облаке. Они квалифицируются в HCP Anywhere и остаются в облаке. Т.о. в случае если какой-то девайс ломается или пропадает, то потом пользователи просто подключают новый девайс, устанавливают себе ПО, вводят генпароль и получают все данные, который были выбраны для резервного копирования. Они у него заливаются в том же порядке и с той же структурой, с теми же данными, не трогая IT-службу. 

Еще есть один интересный момент. Это интеграция с клиентом Outlook, который позволяет администратору задавать максимальные размеры вложений, которые может вкладывать в письмо пользователь. Когда вы нажимаете attach, а максимальный размер администратором задан 10 Мбайт, а файл оказывается больше, то файл не вставляется в письмо, а вместо этого в текст письма вставляется ссылка, что файл такой-то доступен по ссылке такой-то. И файл автоматически улетает в облако. И нет никакой перегрузки, когда разрастается почтовый сервис за счет вложений. Т.о. можно существенно разгрузить данные сервисы.

Теперь пример использования. Канадская компания Spin Master производит огромное количество игрушек для детей и подростков. У них была проблема. Их сотрудники обменивались данными через Drobox. Это было чревато тем, что корпоративные данные уходили непонятно куда. Служба безопасности очень переживала по этому поводу. Потому что там зачастую была интеллектуальная собственность, которая иногда пропадала. И второй проблемой было то, что пользователи могли удалить или изменить информацию, хотя не хотели этого делать, а сделали это случайно. Они шли в IT-службу своей компании, а те разводили руками, говорили, что у вас всё лежит в Drobox, и мы ничего сделать не можем. Когда они перевели все на HCP Anywhere, у сотрудников остался прежний инструмент, к которому они привыкли, с тем же функционалом, но при этом вся информация стала лежать внутри компании, все всегда знали, кто куда зашел, что положил, что отправил. И помимо этого за счёт поддержки версионности на HCP это позволило уйти от этих случайных удалений и изменений файлов. Потому что в HCP Anywhere прямо из дашборда пользователь может сам смотреть свои старые версии документов. Количество их и время хранения задает администратор. И в случае, если он что-то случайно изменил или удалил, он может вернуть обратно в определенный срок, не беспокоя IT-службу.

HCP Gateway

Следующий продукт называется HCP Gateway. И его задачей является работа с файловыми протоколами, потому что данный продукт сделан именно для того, чтобы работать с протоколами NFS. Сама система хранения тоже поддерживает файловые протоколы, но т.к. она оптимизирована для работы с легкими облачными протоколами S3, HTTPS, то там есть ряд ограничений по количеству подключений, по производительности. Но в случае, если нужно высоконагруженное использование традиционных протоколов, то можно использовать HTTPS в связке с HCP Gateway. И таким образом получать достаточную производительность и файловый доступ. Помимо прочего он подходит для решений удаленного офиса. Например, когда центральный ЦОД какой-то организации находится в Москве или Петербурге, а у компании есть ряд филиалов, раскиданных по всему миру, то чтобы каждый раз не лезть за информацией в центральный ЦОД, можно поставить небольшой сервер HCP Gateway на площадке удаленного офиса в Калининграде или Владивостоке, и вся локальная информация, с которой чаще всего работает этот офис, будет храниться непосредственно у них в офисе. И постоянно синхронизироваться с основными ЦОДами.

Доступ получается локальный, сотрудники гораздо быстрее получают доступ к этой информации, меньше нагрузка на каналы. Весь функционал остается таким же: и версионность, и надежность. Но серьезно увеличивается скорость доступа к информации за счет того, что она находится ближе к офису, чем к основному ЦОДу. 

Hitachi Content Intelligence

Четвертый продукт называется Hitachi Content Intelligence. Он может работать с любым источником данных. Он представляет собой большой многофункциональный аналитический инструмент для работы с файлами и объектами. У него есть множество коннекторов, уже написанных, либо их можно доработать и написать к любому другому источнику данных. После аутентификации он видит множество новой информации, объекты, файлы и т.д. У него есть так называемый конструктор обработки данных, где вы сможете строить из готовых модулей различные потоки, определив, что с этими данными делать. 

Там есть и модуль извлечения метаданных. И Hitachi Content Intelligence всё, что может достать этот модуль из всех документов, которые видит по метаданным, достаёт. Например, если загрузить туда фотографию с обычного айфона, то он может вытащить больше 200 строк метаданных, т.е. всё, что обычно пишет айфон: фокусное расстояние, геолокацию, баланс белого и прочее. И вот из всех документов, которые он сможет найти, он эти данные выбирает. На следующей стадии вы отфильтровываете, какие фотографии вы хотите оставить, какие удалить, какие изменить. Дальше вы хотите документы, которые лежат без обращения к ним больше полугода, перенести в свое облако S3, чтобы разгрузить свои файловые ресурсы. В автоматическом режиме эта процедура будет проводиться постоянно, система будет анализировать, какие данные устаревают, и переносить их, или автоматически удалять. 

Изначально данный продукт создавался для контектсного поиска, как некая поисковая система. Но в итоге он разросся в гораздо более сложную вещь, он может осуществлять решение множества различных задач. В том числе есть вопрос по персонификации данных. Есть места, где они должны храниться персональные данные. Здесь можно по определённым маскам (их 16), кредитной карты, номер телефона либо база фамилий и имён во всех текстовых документах за счет того, что он умеет заглядывать внутрь документов, и может оценить, есть ли совпадения, если он их обнаружит, то заменит безналичную информацию крестиков на звездочки, чтобы деперсоналифицировать их. Еще множество решений осуществляет Hitachi Content Intelligence. В т.ч. контекстный поиск информации по всем ресурсам.

Данный продукт был создан на микросервисах несколько лет назад. И за счет этого в любой момент любой сотрудник организации либо программист, либо партнёр, либо инженер может написать любой дополнительный модуль для обработки данных, либо любой коннектор.

Так и сделал Rabobank, большой голландский банк, один из крупнейших в Голландии и в Европе. Он немного доработал HCI для того чтобы упростить жизнь своей службе безопасности. Данный заказчик у Hitachi имеет множество различных способов для общения сотрудников друг с другом. Там есть текстовый чат, e-mail, голосовые сообщения разных операторов и просто звонков, которые потом преобразуются в текст автоматическими сервисами. И ко всему этому они сделали коннектор и подключили HCI. Т.о. есть возможность полностью следить за общением внутри своей компании, для того, чтобы обезопасить бизнес, чтобы не было никаких нарушений внутри банка. Если сотрудник компании пишет письмо на внешний e-mail и при этом вставляет документ, в котором есть соответствующая пометка «для внутреннего использования», то сразу после отправки прилетает сообщение в подразделение безопасности, что такой-то сотрудник нарушил требование компании по внутренней безопасности. Этим они существенно снизили количество таких нарушений, в том числе за счет этого подключили все свои системы, HTI могла из одной строки сразу искать по многим ресурсам внутри своей компании и получать необходимые данные для своих задач.

Итак, у Hitachi 4 продукта: Hitachi Content Platform - система хранения, два продукта, которые созданы для увеличения его функционала в плане мобильности и доступности. Это HCP Anywhere и HCP Gateway. И отдельный продукт HCP Intelligence, который осуществляет аналитику и обработку файловых и объектных данных. 

Системы хранения лицензируются по терабайтно. Получив лицензию на один терабайт, весь функционал сразу же доступен. Hitachi Content Platform Anywhere лицензируют по количеству зарегистрированных пользователей. При этом, ёмкость, которую вы будете хранить, должна быть зарегистрирована и лицензирована на системе хранения Hitachi Platform.