Итоги конференции Big Data и BI Day, Tadviser
На фоне экспоненциального роста объемов данных, количества источников данных, увеличения числа пользователей аналитических систем приоритетной становится скорость обработки и аналитической визуализации больших объемов данных.
Именно прорывным технологическим решениям, позволяющим в разы повысить скорость аналитического доступа к большим данным, был посвящен доклад группы компаний Luxms, который на конференции представили Главный конструктор платформы Luxms BI — Дмитрий Дорофеев и Директор по инновациям группы компаний Luxms — Алексей Медников.
Алексей Медников, директор по инновациям Luxms

Дмитрий Дорофеев, главный конструктор Luxms

Когда данные растут, как снежный ком
Представители компании Luxms — Алексей Медников, директор по инновациям и Дмитрий Дорофеев, главный конструктор — рассказали о кейсе с визуализацией KPI — решении, разработанного для некого крупного клиента. Оно оказалось настолько удачным, что вскоре всё больше функциональных подразделений и региональных офисов компании-заказчика начали подключаться к нему, образуя, тем самым, новые источники информации для системы. В результате объемы данных росли, как снежный ком.
Оказалось, что и с этим не всё так просто. На рынке Big Data и BI существует множество подходов, технологий и практик, из которых сложно с первого раза и точно выбрать те, что помогут решить проблему сразу же. Компания Luxms столкнулась не только с инженерными задачами, но и с классическим парадоксом выбора.
Решение остановили, во-первых, на двухзвенной клиент-серверной архитектуре (two-tier), которая позволяет редуцировать один слой обработки данных между пользователем и системой. В научной литературе, сравнивая двухзвенную и трехзвенную архитектуру, обычно обращают внимание на проблемы первой.
Во-вторых, помимо двухзвенной архитектуры, используются микросервисы, есть возможность оркестрации выполнения запроса с использованием как базы данных, так и дополнительных элементов, которые запускаются отдельно.
Еще одна мера, принятая для ускорения работы ИС — использование специализированного ПО отдельно для работы с «горячими» данными, отдельно — для «теплого» и «холодного» слоев. Были выбраны ClickHouse, GreenPlum и Hadoop соответственно.
При внедрении BI-систем есть видимая часть айсберга — непосредственно дашборды, которые можно быстро делать на современных инструментах — и невидимая, это те силы и средства, затраченные на создание этих дашбордов. Сама подготовка данных к работе происходит медленно.
Это узкое место обошли, положив сырые данные в быструю систему обработки (например, Tarantool) и применив post-ETL инструменты.
В результате на одном из проектов у заказчика удалось сократить в 30 раз процессы извлечения, преобразования и загрузки данных из 9 разных таблиц с сырыми данными из баз данных типа Oracle и PostgreSQL.
Последний совет от Luxms — выгружать нужные по проекту данные в небольшие кластера для аналитиков, чтобы снять так называемую проблему coffee break analytic, когда аналитик посылает запрос и уходит на час отдыхать, потому что этот запрос будет обрабатываться именно столько или даже больше, при этом без гарантий результата.
Подробнее о мероприятии можно прочесть здесь.