Разделы

Цифровизация Импортонезависимость

Исследование Axenix: инструменты китайских вендоров для анализа больших данных оказались производительнее решений на базе open source

В России с 2022 г. происходит активная трансформация рынка систем класса DWH (Data Warehouse, системы хранилищ данных). Компании энтерпрайз-сегмента реализуют проекты по миграции своих хранилищ данных на отечественные продукты, однако выбор доступных технологий сильно ограничен. На российском рынке сейчас преобладают решения, построенные на базе open source продуктов. Наиболее распространенные — различные сборки российских вендоров на базе Greenplum и Clickhouse. Также активно развивается архитектура Lakehouse, в основе которой часто лежат такие решения как Impala, Trino, Spark. Об этом CNews сообщили представители Axenix.

Массово-параллельная аналитическая СУБД Greenplum часто используется российскими заказчиками благодаря сравнительно простой архитектуре и тому, что она основана на СУБД PostgreSQL. Однако у этой технологии есть серьезные ограничения, которые не позволяют покрыть все требования российских компаний.

В этой ситуации компания Axenix решила провести исследование рынка китайского ПО, используемого для создания систем класса DWH и сравнить функциональность и производительность этих продуктов, с продуктами, используемыми на российском рынке.

При выборе СУБД и платформ для анализа больших данных российские команды разработчиков часто не имеют возможности оценить реальную производительность решений — тестирование проводится на ограниченном числе задач или в рамках узких кейсов. Поведение системы при масштабировании на реальном проекте нередко становится неожиданностью. В связи с этим команда Axenix провела нагрузочное тестирование функциональности выполнения аналитических запросов.

В тестирование были включены решения китайских вендоров Transwarp и YMatrix, а также наиболее популярные решения на базе open source: Greenplum, Trino и Apache Spark. Продукты китайских вендоров (Transwarp и YMatrix) продемонстрировали более высокую производительность по сравнению с популярными на рынке open source-инструментами.

«СУБД и платформы для обработки и аналитики данных — ключевые элементы в нашей практике Applied Intelligence. На их основе создаются корпоративные хранилища данных, их возможности учитываются при создании различных сервисов, которые эти данные используют. Расширенное тестирование решений от китайских вендоров позволило нам определить круг надежных продуктов, способных не только эффективно обрабатывать десятки и сотни терабайт данных, но и выдерживать высокую конкурентную нагрузку в режиме близком к реальному времени», — сказала Татьяна Кириленко, руководитель направления «Инженерия и архитектура данных» Axenix.

Результаты тестирования показали, что китайские решения превосходят Greenplum по производительности — в большинстве сценариев разница достигает кратных значений.

В ходе тестирования специалисты Axenix пришли к следующим выводам:

Transwarp показал наивысшую производительность, сбалансированную стоимость и возможность сохранения логики приложений при миграции с Oracle и Teradata. Платформа также характеризуется зрелой экосистемой и высоким уровнем стабильности.

YMatrix занял второе место по производительности. Решение развивается как совместимое с Greenplum, но имеет ряд улучшений, включая оптимизацию исполнения запросов и встроенные механизмы интеграции с потоковыми и другими источниками данных.

Greenplum — зрелая и надежная платформа для построения корпоративных хранилищ данных. Несмотря на богатый функционал, архитектура Greenplum не в полной мере использует потенциал современных аппаратных решений, что может ограничивать ее производительность в ряде сценариев. В ходе тестирования она продемонстрировала наименьшую производительность среди всех участников.

Trino — высокопроизводительный SQL-движок, ориентированный на выполнение интерактивных запросов к данным, находящимся в различных хранилищах. Он не требует переноса данных — работает «поверх» существующих источников. Trino не является СУБД в классическом смысле и не хранит данные самостоятельно.

Apache Spark — платформа для распределенной обработки больших объемов данных, включая потоковые и пакетные сценарии. Spark поддерживает SQL через модуль Spark SQL, а также более гибкие модели работы с данными, такие как DataFrame. Несмотря на универсальность, Spark показал меньшую производительность в интерактивных запросах по сравнению с Trino, что объясняется особенностями архитектуры.

Все протестированные решения показали стабильную работу при обработке больших объемов данных и различную степень масштабируемости и эластичности.

«Результаты тестирования продуктов китайских вендоров показали, что они могут превосходить по эффективности популярные open source-решения. Transwarp, YMatrix и Trino продемонстрировали отличное быстродействие и могут быть успешно применены в проектах создания корпоративных хранилищ данных», — отметил Андрей Михайлов, руководитель команды разработки хранилищ данных Axenix.

Для тестирования использовался стандартный бенчмарк TPC-DS (Transaction Processing Performance Council - Decision Support), предназначенный для оценки производительности аналитических СУБД. Он включает разнообразные сценарии и запросы, позволяет генерировать синтетические данные в нужных объемах и обеспечивает сопоставимость результатов.

Тестирование проводилось на единых ресурсах, развернутых в облаке российского провайдера: использовались виртуальные машины с 16 vCPU, 64 ГБ оперативной памяти и быстрым SSD-хранилищем.

Работа с китайскими вендорами на данном этапе только начинает формироваться и крайне важно учитывать возможные риски, которые могут возникнуть в процессе адаптации к российскому рынку, отмечает Татьяна Кириленко. Поэтому в текущей работе безусловно необходимо опираться на сильные стороны российских вендоров, такие как надежность и предсказуемый уровень поддержки, отсутствие санкционных рисков, больше возможностей по подготовке и обучению специалистов.



37-я международная выставка информационных и коммуникационных технологий Связь-2025 37-я международная выставка информационных и коммуникационных технологий Связь-2025

erid: 2W5zFHRYEHv

Рекламодатель: АКЦИОНЕРНОЕ ОБЩЕСТВО «ЭКСПОЦЕНТР»

ИНН/ОГРН: 7718033809/1027700167153