Data-mesh: определен главный тренд в области хранения и доступа к данным
Любая работа с данными концентрируется на трех параметрах: time, risk, money. В текущих реалиях для того, чтобы каждый из этих компонентов оставался конкурентоспособным, необходимо применять новые подходы к работе с данными. Один из главных трендов в структуре работы с аналитикой — data-mesh, который уже успешно реализуется в международных бигтех-компаниях.
ИТ-департамент не успевает за скоростью принятия решений
На протяжении последних двух десятилетий корпоративные данные в России и мире формировались вокруг централизованных хранилищ и единых аналитических платформ. Модель «единого центра данных» позволяла обеспечивать контроль и согласованность информации. Однако с ростом количества источников, переходом к микросервисной архитектуре и повышением требований к скорости аналитики появились системные ограничения.
Централизованные data-команды оказываются перегружены, изменения внедряются медленно, а бизнес все чаще сталкивается с ситуацией, когда данные есть, но воспользоваться ими оперативно невозможно. Модель становится громоздкой и неэффективной.
Значимые решения делаются на основе анализа данных уже давно, но сейчас как никогда важна скорость, особенно в сфере финтех или horeca, где буквально весь потребительский опыт строится на аналитике. Именно скорость становится главным фактором конкурентоспособности. В модели, где сложно определить, кто конкретно отвечает за качество данных, появляется «бутылочное горлышко», которое задерживает обработку запросов и реагирование на потребности бизнеса. В результате неактуальный подход к хранению данных приводит к прямым финансовым потерям.
Новые подходы требуются в том числе для построения технологии интеллектуального интернета вещей и интеграции ИИ-сервисов в целом, где оперативный анализ данных становится основой решений. Централизация сильно ограничивает развитие data-driven инициатив на уровне бизнес-подразделений.
Data-mesh — волшебная таблетка быстрых решений
Понятие Data Mesh как архитектуры создания распределенных пайплайнов данных впервые ввела в обиход Жамак Дегани в статье How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh в 2019 году. Сегодня он активно реализируется в международных ИТ-компаниях и уже часто обсуждается на российском рынке.
Data Mesh — это «парадигма», набор архитектурных и организационных принципов, а не просто очередной инструмент или решение «под ключ».
Data Mesh — архитектурная концепция, предполагающая отказ от жесткой централизации в пользу доменно-ориентированной модели управления. Ответственность за сбор, качество и доступность данных передается бизнес-подразделениям, которые формируют собственные дата-продукты. При этом ИТ-департамент сосредотачивается на создании универсальной платформы и единых правил взаимодействия. Data Mesh стал логичным развитием идей распределенных архитектур и отражает переход от управления хранилищами к управлению экосистемой данных как стратегическим активом.
Основные принципы системы data-mesh
- Владение данными по доменам (Domain Ownership)
Каждое бизнес-подразделение становится владельцем своих данных и отвечает за их качество, структуру, актуальность и доступность. Данные перестают быть зоной ответственности только ИТ и переходят под контроль тех, кто лучше понимает их смысл — маркетинга, продаж, логистики, производства и т.д. Это особенно актуально для крупных холдингов и госкорпораций, где данные традиционно воспринимались как технический актив ИТ-службы.
- Данные как продукт
Данные рассматриваются как полноценный цифровой продукт с потребителями, характеристиками качества и жизненным циклом. У каждого дата-продукта есть владелец, описание, прозрачные правила доступа, SLA, метрики качества и ответственные лица. Работа с данными становится структурированной и измеримой.
- Платформа самообслуживания
Единая среда, которая позволяет доменным командам самостоятельно создавать, публиковать и использовать данные без постоянного участия централизованной ИТ-команды. Платформа предоставляет стандартизированные инструменты для хранения, обработки, аналитики и управления данными. То есть другие участники самостоятельно могут находить и изучать нужные данные.
- Федеративное управление
Общие правила, стандарты безопасности и качества задаются централизованно, но реализуются на уровне доменов. В итоге обеспечивается баланс между автономией команд и контролем.
В мировой практике data-mesh реализуется в том числе на базе продукта крупной американской компании, которая специализируется на разработках в сфере облачных технологий, обработки и хранения данных, аналитики и искусственного интеллекта. Ее платформа обеспечивает технологическую основу: домены отражаются через рабочие пространства (workspaces), каталог данных (Unity Catalog) и механизм шеринга (Delta Sharing). Создается распределенность, но с сохранением общего контроля.
Архитектура реализуется через два подхода: Harmonized Data Mesh и Hub & Spoke Data Mesh. В первом случае домены получают большую автономию, но при этом применяют единые шаблоны платформы; во втором случае создается центральный data-hub, который управляет общей инфраструктурой и сервисами каталогизации, а домены публикуют свои продукты через него.
Американский разработчик крупнейшей в мире площадки для онлайн-коммерции, поставщик облачных и других услуг, также разработал сервис управления данными, посредством которого клиенты могут быстро и легко каталогизировать, обнаруживать, совместно использовать и контролировать данные, хранимые в компании, локальной среде и сторонних источниках.также предлагает готовое решение для управления дата-продуктами в распределенных службах и доменах. Сервис позволяет каталогизировать, открывать для поиска и безопасно предоставлять доступ к данным, хранящимся в компании, на premises или у третьих сторон.
Основная архитектурная схема: в центральном (управляющем) аккаунте разворачивается портал, каталог и процессы публикации; доменные аккаунты публикуют свои дата-продукты; потребители через портал ищут и запрашивают доступ к данным.
Сервис реализует рабочие процессы публикации, подписки и выполнения доступа, обеспечивая автоматизацию части процесса: после одобрения подписки сервис создаёт необходимые разрешения для доступа к данным.
Когда data-mesh будет в России
Про доменную структуру начинают активно говорить и на российском рынке. На данный момент около 24% технических директоров оценивают data-mesh как наиболее оптимальное решение в работе с данными в перспективе 3-х лет.
Из кейсов Data Mesh в России, например, можно отметить реализацию на базе платформы крупной технологической компании. Основные компоненты платформы доступны как готовые сервисы: Cloud Storage (S3-хранилище), Cloud Spark, Cloud ML Platform и т.д. Начинают работать с сервисами отечественных вендоров, у которых есть поддержка доменной изоляции ресурсов, также банки и ритейлеры. Каждое подразделение компании (например, розница, риски, финансы) имеет ресурсы для решениях своих задач.
Недавно в реестр российского ПО вошел еще один продукт, среда разработки и развития платформ данных, которая в том числе поддерживает и структуру data mesh. Также недавно платформа российского разработчика системы сбора, хранения и обработки больших данных на базе open source технологий выпустила релиз о возможностях сервиса для хранения и обработки данных в паттерне Data-mesh.
По прежнему внедрение data-mesh подхода ограничивают факторы недостатка квалифицированных ИТ-кадров и сложность изменения структуры работы — 27% отмечают трудность введения новых подходов. При этом переход на новую парадигму требует как инвестиций со стороны бизнеса (на разработку централизованной платформы, обучение персонала, перестроение процессов), так и достаточного количество времени на внедрение в целом. Более того, от сотрудников требуется и высокая степень квалификации в целом, так и эффективная коммуникация между доменами.
Выводы
Если ранее данные рассматривались как вспомогательный ресурс для отчётности, то сегодня они становятся основой для операционного управления, прогнозирования и автоматизированных решений. Бизнес ожидает от аналитики скорости, гибкости и автономности, что невозможно обеспечить при сохранении традиционной модели, где каждый запрос проходит через централизованную ИТ-функцию.
Data Mesh — не просто новый тренд, а смена парадигмы в управлении данными, которая со временем точно будет реализована во всех компаниях. Такой подход требует от организаций готовности к изменениям и гибкости, а также инвестиций в архитектуру. Но при успешной реализации Data Mesh обеспечит компаниям быстрое развитие: повысит эффективность и точность работы, усилит маркетинг и основные бизнес-решения.



