Компания Axenix провела исследование, в котором китайские вендоры программного обеспечения для анализа больших данных продемонстрировали более высокую производительность по сравнению с популярными решениями на базе open source, такими как Greenplum и Apache Spark. Исследование было инициировано в условиях активной трансформации российского рынка систем класса DWH (Data Warehouse), где компании перенаправляют свои проекты на отечественные решения из-за ограниченных возможностей существующих технологий.
В ходе исследования проводилось нагрузочное тестирование функциональности выполнения аналитических запросов, в которое были включены решения китайских компаний Transwarp и YMatrix. Как отметила Татьяна Кириленко, руководитель направления «Инженерия и архитектура данных» Axenix, расширенное тестирование этих продуктов позволило выделить надежные инструменты, способные эффективно обрабатывать большие объемы данных в режиме реального времени.
Результаты показали, что Transwarp продемонстрировал наивысшую производительность, сбалансированную стоимость и высокую стабильность при миграции с других систем, таких как Oracle и Teradata. YMatrix занял второе место, предлагая улучшения по сравнению с Greenplum и оптимизацию запросов.
Greenplum, хоть и остается зрелой платформой с богатым функционалом, не всегда использует потенциал современных аппаратных решений, что может ограничивать её производительность. В отличие от неё, такие инструменты как Trino и Apache Spark также продемонстрировали стабильную работу, но с нюансами в производительности для интерактивных запросов.
Тестирование проводилось на стандартном бенчмарке TPC-DS, который обеспечивает сопоставимость результатов, и было организовано на единых ресурсах облачного провайдера, что добавляет доверия к полученным данным.