Обзор аналитических решений IBM

APC

Сегодняшнее мероприятие ведет Григорий Михайлов, ведущий специалист по продвижения бизнес-аналитики, компания IBM. Речь пойдет про основные прикладные аналитические бизнес-приложения вендора. 

Это решения для планирования, для моделирования данных, представленная семейством продуктов IBM Planning Analytics. Следующее решение тоже для моделирования, но с большим упором на визуализацию, на дашборды и отчеты, на продвинутую аналитику – это IBM Cognos Analytics. И еще более глубокие решения для аналитики, это аналитика для прогнозирования, для Data Mining, для машинного обучения, представленная продуктами IBM SSPS, Watson Machine Learning. Что касается предписательной аналитики, то здесь задачи сводятся к математической оптимизации, это продукты IBM Decisions Optimization и ILOG SPLEX.

Начнем с решения для планирования и моделирования данных и начнем с базовых понятий.

Зачем нужно моделировать

Когда много различных данных в организации, тогда больше поле для их анализа и тем больше полезной информации можно извлечь из них. Отрасль, область знаний и область компетенции в моделировании данных как раз заключается в том, чтобы сырые данные организации представить в удобном и читаемом виде, которые дадут полезную информацию как для аналитиков, так и для владельцев бизнеса. Чтобы основываясь на этой информации можно было бы принимать правильные управленческие решения. В структурированном виде данные полезны, в неструктурированном виде данные практически бесполезны. Как же структурировать данные?

Для этого используются «кубы» - многомерные массивы данных, они могут хранить информацию, собирать ее от пользователей и любых систем, а также производить любые вычисления над данными.

Можно легко представить одномерный куб, это может быть любой список. На следующем слайде в левом углу изображены примеры одномерных кубов - списков. Это связанные списки каких-то элементов, которые характеризуют какое-то определенные аспекты бизнеса.

Можно представить себя владельцем кинотеатров и вводить такие аналитики как жанр, время в кварталах и т.д. (голубые ячейки на этом слайде) и эту информацию можно представлять в виде плоской таблицы, которая делается в Excel, по месяцам и по жанрам. Если у вас таких кинотеатров несколько в разных регионах, и вы хотите получать статистику по месяцам и по жанрам по всем кинотеатрам, тогда вы вводите еще и третье измерение – регион и получается трехмерный куб.

Рассмотрим несколько примеров представления данных. Первый пример – это три одномерных отчета, которые дают достаточно мало информации.

Продажи по каждому кварталу одинаковые, каждый жанр тоже продается одинаково и в каждом городе примерно одинаковые продажи. Информация в каждом отчете есть, но она малоинформативна, поэтому какие-то управленческие решения на основе этих данных не принять.

Если объединить две аналитики и сделать двумерную модель на тех же данных, в этом случает можно получить больше полезной информации. Все жанры продаются одинаково в тотале, но по кварталам разбивка разная. В первом квартале лучше всего продавались романтические фильмы, в втором квартале более популярны были мистические фильмы и т.д.

Теперь мы добавим еще одну аналитику – регион. Здесь становится еще больше полезной информации, например, в Токио больше всего любят романтические фильмы и не смотрят никакие другие жанры. В Лондоне больше всего любят хореры и т.д. На основе уже такой информации можно принимать определенные управленческие решения.

Теперь добавим еще одно измерение – вариации. У нас теперь получился 4-х мерный куб, который помещается уже только на трех слайдах. На слайде изображена версия – бюджет, это то что мы планируем продать. Следующая версия – фактические данные, то есть та информация которая говорит о фактических продажах.

Здесь все ячейки являются расчетными величинами. Мы можем оценить достигнут ли нами план продаж или по каким параметрам мы его не достигли.

Эти несколько примеров поясняют суть принципа моделирования.

Планирование

Эти технологии применяются в планировании. Это достаточно сложный процесс, завязанный на поликубические модели и на вовлеченность большого числа людей, каждый отвечающий за свою сферу деятельности, за свою часть финансовой отчетности.

Таким планирование занимаются практически все организации. Самое распространенное – это финансовое планирование, есть и кадровое планирование, и производственное планирование, планирование продаж, планирование маркетинговых мероприятий.

Принцип работы примерно один и тот же в каждом из этих планирований.

Финансовое планирование

В финансовых департаментах различных организаций каждый новый финансовый год начинается с составления планов на будущий год. Некоторые организации делают такое планирование в Excel или в другом подобном инструменте, по сути – на коленке.

На этом слайде представлен цикл планирования - неделя, на самом деле цикл может длиться гораздо дольше, даже несколько месяцев. Здесь каждый центр финансовой отчетности и каждый департамент готовит свои таблицы в Excel с большим числом вкладок, посылает их консолидирующему менеджеру по почте или на портал, в результате от каждого департамента появляется большое число различных версий таких таблиц. Менеджер должен все эти таблицы проверить вручную и создать общий отчет, который он отправляет руководству.

Этот процесс длится достаточно долго, поскольку центров финансовой ответственности может быть десятки и даже сотни. Процесс имеет много вариантов таблиц, а значит и немало ошибок. Руководство либо принимает этот отчет, либо возвращает на корректировку.

Если поступило указание уменьшить бюджет на 10%, то нужно это сокращение пересчитать по всем статьям. Сделать это в Excel уже невозможно. Полученные данные уже нельзя использовать для анализа ситуации и принятия управленческих решений.

Как видно из слайда на сбор и проверку данных тратится львиная доля времени. И собственно на анализ остается времени очень мало. 

Что происходит в компаниях после внедрения профессиональных инструментов для планирования?

Вместо таблиц появляются формы для планирования, например, бюджетные формы, которые заранее разрабатываются именно для этого конкретного проекта. Здесь работает бюджетная модель, которая увязывает все формы, и которая автоматически консолидируется всю информацию. В результате получаются те самые кубы, о которых шла речь ранее.

Таким образом образуется автоматизированный процесс сбора данных и консолидации, на который тратится гораздо меньше времени. Качество данных и их достоверность получаются выше, освобождается больше времени на анализ этих данных. Все эти вещи реализованы в продукте IBM Planning Analytics.

Этот продукт представляет собой OLAP-движок, который работает с кубами, с которыми можно строить бюджетные модели, можно строить формы для пользователей, куда они вносят свои данные. Это программный продукт позволяет цикл планирования провести за более короткое время.

Чем обеспечивается высокая производительность? Это создание сложных поликубических моделей, автоматическая консолидация значений, поддержка неограниченного числа версий и сценариев, поддержка полного аудита действий пользователей с возможностью отката изменений. Можно создать несколько версий плана, которые в режиме реального времени можно быстро пересчитывать, вводя прямо на лету изменяемые параметры, например, курс доллара.

Мы оцениваем модель, в каждую ячейку которой можно «провалиться», понять из каких данных она была посчитана, кто эти данные вносил и когда.

У продукта IBM Planning Analytics есть несколько интерфейсов. Есть и Excel-инструмент, часто используемый, когда нужно переходить с Excel на инструмент автоматизированного планирования. Многие достаточно сильно привязаны к Excel, поэтому вендор интегрирует в Excel функциональность IBM Planning Analytics, поэтому с данными можно работать через такой Excel. Интеграцию с системами, которые есть в контуре у заказчика, также IBM осуществляет, для этого у вендора есть большой опыт.

Сейчас у IBM в России уже более 200 внедрений аналитических программ. На следующем слайде представлены ключевые бизнес-задачи, которые решаются с помощью IBM Planning Analytics.

На следующем слайде представлены эффекты, которых можно добиться с помощью внедрения этого программного продукта. Это значительное (в разы) сокращение трудозатрат на ввод информации, сокращение сроков получения информации и повышение качества анализа информации.

Такая система снижает число ошибок при вводе информации, поскольку расчет может осуществлять сама бюджетная модель. Автоматизируется сбор данных и их консолидация. Получается более высокая прозрачность, всегда понятно кто за какие данные отвечает. В результате получается более высокое качество информации и анализа данных.

Описательная часть системы представлена продуктом Cognos Analytics 11.1, он при этом является инструментом визуализации данных.

Тут тоже используются кубы, инструмент предназначен для анализа информации, но этот продукт больше с упором на работу с готовыми данными и с упором на более продвинутую визуализацию: на создание дашбордов, на создание отчетов любой сложности.

На следующем слайде более понятно как смещаются акценты в использовании Planning Analytics и Cognos Analytics друг с другом. 

Эти два решения часто дополняют друг друга и внедряются вместе. Это BI-инструменты.

Теперь рассмотрим следующий блок - прогнозную аналитику.

Прогнозная аналитика

Что такое Data Mining? Это технология анализа статистики с целью нахождения в накопленных данных ранее неизвестных, нетривиальных и практически полезных знаний. Здесь применяются специальные математические методы, которые позволяют отвечать на более сложные вопросы. Мы можем даже рассчитать LTV, т.е. сколько мы сможем заработать на конкретном клиенте на протяжении всего жизненного цикла этого клиента. Если этот параметр клиента стремится к нулю, то нет смысла удерживать его. Лучше локализовать усилия на ценных клиентах. Это может использоваться не только в маркетинге, но и в других сферах, прогнозирование нештатных ситуаций на производстве и т.д.

Data Mining и продукты, которые в IBM за это отвечают, это SPSS и Watson studio. Эти инструменты позволяют отвечать на вопросы, приведенные на следующем слайде.

Платформа IBM SPSS предлагает передовые инструменты статистического анализа, библиотеку алгоритмов машинного обучения, анализа текста, расширения компонентов с открытым кодом, интеграции с большими данными и внедрения в приложения.  Благодаря простоте эксплуатации, гибкости и масштабируемости SPSS подходит пользователям с любым уровнем подготовки.

IBM Watson Studio — это инструментарий для ученых-аналитиков, разработчиков приложений и специалистов, позволяющий совместно работать с данными в процессе создания и обучения моделей.

При работе в IBM SPSS не требуется написания никакого кода, это инструмент графического моделирования. Алгоритмы, изображенные на слайде, уже внесены в ПО и вам следует только настраивать соответствующие потоки данных.

Машинное обучение

Для построения прогнозной модели необходимы накопленные данные. Ту модель, которая строится на основе математических алгоритмов, либо в IBM SPSS, либо в Watson Studio, нужно натренировать или научить. Для этого берется, например, модель, которая прогнозирует спрос на какой-либо продукт в 2021 году. 

Качество модели проверяется на тестовой выборке. Для этого берутся данные за 2018 год и оценивается, что насчитало ПО. Мы можем сравнить расчетные данные с данными 2019 года и оценить точность такой модели. Если эта модель работает и с точностью 90% предсказывает и это подтверждается реальными историческими данными за 2019 год, то можно подобную модель внедрить на производство и прогнозировать будущие показатели. Если модель получается неточной, то ее отправляют на доработку и таким циклами обучения доводят до приемлемого состояния.

На следующем слайде представлены задачи, которые могут быть решены с помощью технологий Data Science в бизнесе.

Предписывающая аналитика

Эта аналитика сводится к математической оптимизации.

Оптимизация по сути – это выбор наилучшего варианта из всех возможных. Но число вариантов реализации какого-либо процесса может быть просто огромным. Например, маршрут объезда многих точек приемки товара или график ремонта какого-либо оборудования. При это на реализацию оптимального варианта можно минимизировать затраты времени и ресурсов сохранив при этом качество этого процесса.

Для этого нужно определить критерии оптимизации, т.е. целевую функцию, в которой мы определяем желательные и нежелательные качества процесса. Например, максимизация маржи и прибыльности, количества произведенной продукции, надежности и т.д.

При этом надо стараться минимизировать нежелательные качества, расходы, простои оборудования и т.д. При этом решается задача нелинейного программирования, которая позволяет найти оптимальное решение больших многомерных задач при огромном количестве бизнес-ограничений. На следующем слайде приведена автоматизация «против» человеческого фактора.

Решение таких задач «на коленке», вручную не представляется возможным. В бизнесе применяется много технологий и на следующем слайде приведено где возникают задачи балансировки ресурсов и оптимизации.