Итоги конференции Big Data и BI Day, Tadviser

28 апреля в Москве прошла конференция Big Data и BI Day, посвященная проблематике больших данных и вопросам BI-аналитики: от перспективных вопросов государственного регулирования и приоритетных направлений работы с большими данными на уровне правительства до примеров использования больших данных и BI-аналитики на предприятиях различных отраслей — финансовый сектор, градостроение, ритейл, транспорт, медицина, образование, информационные услуги.

На фоне экспоненциального роста объемов данных, количества источников данных, увеличения числа пользователей аналитических систем приоритетной становится скорость обработки и аналитической визуализации больших объемов данных. 


Именно прорывным технологическим решениям, позволяющим в разы повысить скорость аналитического доступа к большим данным, был посвящен доклад группы компаний Luxms, который на конференции представили Главный конструктор платформы Luxms BI — Дмитрий Дорофеев и Директор по инновациям группы компаний Luxms — Алексей Медников. 

Алексей Медников, директор по инновациям Luxms

Алексей Медников, директор по инновациям Luxms

Дмитрий Дорофеев, главный конструктор Luxms

Дмитрий Дорофеев, главный конструктор Luxms

Когда данные растут, как снежный ком

О выступлении Luxms из отчета Tadviser о мероприятии

Представители компании Luxms — Алексей Медников, директор по инновациям и Дмитрий Дорофеев, главный конструктор — рассказали о кейсе с визуализацией KPI — решении, разработанного для некого крупного клиента. Оно оказалось настолько удачным, что вскоре всё больше функциональных подразделений и региональных офисов компании-заказчика начали подключаться к нему, образуя, тем самым, новые источники информации для системы. В результате объемы данных росли, как снежный ком.

Под большими данными мы понимаем объемы от 100 млн записей и больше или от тысячи потоковых событий в секунду, — дал определение Алексей Медников.
 
Рос не только объем данных, но и количество пользователей, а стало быть, и нагрузка на ПО, в результате чего время отклика — один из важнейших показателей для информационной системы — ухудшился.
Мы задумались о повышении производительности системы, но все наши попытки решить проблему инфраструктурными методами к успеху не привели, — углубляется в детали Алексей Медников. — Поэтому было решено изменить архитектурные подходы к построению системы и сделать реинженеринг отдельных конструктивных элементов.
 

Оказалось, что и с этим не всё так просто. На рынке Big Data и BI существует множество подходов, технологий и практик, из которых сложно с первого раза и точно выбрать те, что помогут решить проблему сразу же. Компания Luxms столкнулась не только с инженерными задачами, но и с классическим парадоксом выбора.


Решение остановили, во-первых, на двухзвенной клиент-серверной архитектуре (two-tier), которая позволяет редуцировать один слой обработки данных между пользователем и системой. В научной литературе, сравнивая двухзвенную и трехзвенную архитектуру, обычно обращают внимание на проблемы первой.

Она экзотическая, её не рекомендуют использовать — так пишут в книгах те, кто пытался задействовать именно такой тип, но мы посчитали, что те преимущества в скорости, которые она даёт, в нашем случае перевесят недостатки, — рассказывает Дмитрий Дорофеев.
 

Во-вторых, помимо двухзвенной архитектуры, используются микросервисы, есть возможность оркестрации выполнения запроса с использованием как базы данных, так и дополнительных элементов, которые запускаются отдельно.


Еще одна мера, принятая для ускорения работы ИС — использование специализированного ПО отдельно для работы с «горячими» данными, отдельно — для «теплого» и «холодного» слоев. Были выбраны ClickHouse, GreenPlum и Hadoop соответственно.


При внедрении BI-систем есть видимая часть айсберга — непосредственно дашборды, которые можно быстро делать на современных инструментах — и невидимая, это те силы и средства, затраченные на создание этих дашбордов. Сама подготовка данных к работе происходит медленно.


Иногда даже перенос информации из холодного слоя в горячий слой неэффективен или невозможен — вот что самое удивительное. Бывают ситуации, когда данные нужно достать за 2 часа, но этих двух часов просто нет или же этот процесс даёт такую нагрузку, что остальные запросы в это время не выполняются. Если вы не богатая компания с собственным облаком, то проблема вам, наверняка, знакома, — замечает Дмитрий Дорофеев.
 

Это узкое место обошли, положив сырые данные в быструю систему обработки (например, Tarantool) и применив post-ETL инструменты.


В результате на одном из проектов у заказчика удалось сократить в 30 раз процессы извлечения, преобразования и загрузки данных из 9 разных таблиц с сырыми данными из баз данных типа Oracle и PostgreSQL.


Последний совет от Luxms — выгружать нужные по проекту данные в небольшие кластера для аналитиков, чтобы снять так называемую проблему coffee break analytic, когда аналитик посылает запрос и уходит на час отдыхать, потому что этот запрос будет обрабатываться именно столько или даже больше, при этом без гарантий результата.


Подробнее о мероприятии можно прочесть здесь.