Ксения Бокша, VK: Будущее за аналитикой на естественном языке и ИИ-агентами

Ксения Бокша
Руководитель подразделения аналитики данных
Сегодня работа с большими данными — не только поддержка хранилищ. В крупных ИТ-системах, обслуживающих миллионы пользователей в режиме реального времени, управление данными превращается в отдельный контур. От него зависит развитие бизнеса, поэтому на первый план выходит интеграция аналитики в процессы и ее способность обеспечить принятие решений на основе данных. Руководитель подразделения аналитики данных VK Ксения Бокша рассказала о тенденциях индустрии и о том, как превратить информацию в работающий актив.
Ключевые тренды
Долгое время в больших ИТ-компаниях каждое подразделение разворачивало собственную инфраструктуру. В итоге метрики начинали расходиться, а вычисления — дублироваться. Логичным шагом стал переход к платформенной архитектуре, из которого сложились 4 ключевых тренда:
- Разработка систем самообслуживания для бизнеса (self-service решения);
- Масштабное внедрение ИИ в аналитику;
- Адаптивная инфраструктура;
- Смещение фокуса на качество данных.
В VK таким решением стала единая платформа OneData. Ее цель — унифицировать стек для аналитики, машинного обучения (ML) и продуктовых команд. Платформа строится вокруг единого хранилища данных (Data Warehouse), куда переходят все подразделения бизнеса. Это помогает собрать аналитику в одном месте, считать сквозные метрики и не тратить лишние ресурсы на поддержку систем.
Демократизация данных: аналитика за пределами data-команд
Развитие больших языковых моделей (LLM) заметно снижает порог входа в аналитику. Вместо SQL-запросов (Structured Query Language) аналитики, инженеры и продуктовые команды могут получать инсайты прямо через интерфейсы на естественном языке (Natural Language Query). Согласно исследованию Gartner, к 2027 году 75% нового аналитического контента будет создаваться с помощью генеративного ИИ (GenAI).
В основе NLQ-интерфейсов VK находятся дообученные под конкретные задачи и сценарии модели. Это масштабирует ML-экспертизу на всю компанию. Только за февраль 2026 года ИИ-агенты для аналитиков сэкономили 1300 часов рабочего времени на выборке из 400 пользователей. Задачи, которые раньше занимали 20 минут, теперь решаются за 5.
Искусственный интеллект и ML в аналитике
ML-модели и ИИ-агенты уже забирают на себя рутину: разметку данных, генерацию кода и документирование. В ближайшее время резко вырастет число запросов на естественном языке. SQL останется стандартом, но его роль изменится: он станет способом общения ИИ с данными.
Но важно помнить, что пока нельзя доверять моделям, как людям. Главная сложность в том, что их ошибки сложно распознать. Когда мы смотрим сгенерированное видео, «следы» ИИ видны сразу. А вот в аналитике все иначе: галлюцинации выглядят правдоподобно и почти не отличаются от корректных цифр. Однако вывод даже от небольшой неточности можно сделать противоположный.
Чтобы снизить риск галлюцинаций, мы добавляем системы верификации и фильтры качества (DQ-чекеры). Используем гибридный подход: одна модель перепроверяет другую (LLM-as-a-judge), часть кейсов смотрим вручную, отдельно валидируем ссылки. Так ответы ИИ проходят проверку по эталонным метрикам еще до того, как попадают в отчеты.
Единая инфраструктура данных
Децентрализованная инфраструктура, которая долго считалась удобной для независимых команд, сегодня начинает мешать глубокому внедрению ИИ. Разрозненные хранилища неизбежно ведут к фрагментации контекста, критически важного для обучения больших моделей и работы алгоритмов. Индустрия переходит к стандартизации обмена информацией через дата-контракты. В VK это реализуют через строгие соглашения об уровне обслуживания (SLA): доставка критичных данных уровня P0 должна быть гарантирована технически, а любые отклонения сразу становятся приоритетом для устранения техдолга в продуктовой разработке.
В итоге меняется суть инфраструктуры. По мере планового вывода из эксплуатации разрозненных легаси-баз освобождаются серверные мощности, которые можно направить на более приоритетные задачи. Например, обучение генеративных моделей и запуск новых сервисов.
Экономика качества
Экстенсивный подход к накоплению данных уже не работает. Теперь в фокусе непрерывный аудит и прозрачность данных на всех уровнях архитектуры. Без встроенной верификации большие массивы информации могут превращаться в цифровые болота. Если раньше «грязные» данные в основном искажали аналитические дашборды, то теперь они могут запускать цепочки неверных решений у ИИ-агентов.
В индустрии больших данных часто используют правило 1–10–100: исправить ошибку на источнике стоит около $1, очистить ее в хранилище — уже $10, а цена решения, принятого на основе неверных данных, начинается от $100. С переходом к ИИ-управлению этот разрыв будет только увеличиваться.
Показательный пример из практики крупных экосистем: при классическом подходе сбой в передаче логов крупного сервиса может оставаться незамеченным сутками — и проявиться только тогда, когда начинают проседать бизнес-метрики. Чтобы избежать таких слепых зон, все больше используют автоматические проверки качества (DQ-проверки) в реальном времени и системы отслеживания происхождения данных. Сейчас инвестиции в контроль качества — это не просто страховка, а базовое условие для работы ИИ и один из ключевых факторов операционной эффективности.
Прогноз на будущее
Благодаря развитию агентного ИИ (Agentic AI), работа с данными превращается в диалог. По прогнозам Gartner, к 2027 году ИИ будет влиять на 50% бизнес-решений, предлагая конкретные стратегии (Decision Intelligence). Этот сдвиг подтверждается включением мультиагентных систем (MAS) в топ-10 технологических трендов на 2026 год.
Происходит переход от модели, где аналитик сам формулирует запросы.По прогнозам Forrester, к концу 2026 года корпоративное ПО станет средой, где ИИ-агенты сами инициируют действия и автономно управляют транзакциями.
В планах внедрять ИИ для принятия решений в типовых сценариях и глубже связать мониторинг метрик с процессами релизов. Система сможет, например, уведомлять руководителя о взаимосвязи между обновлением продукта и изменением показателей: «После внедрения компонента X зафиксировано отклонение метрики Y. Подтвердите продолжение сценария». Так аналитика перестает быть просто инструментом наблюдения и становится частью управления. А роли специалистов меняются: они все меньше ведут проекты от начала до конца и все больше выступают в роли аудиторов или наставников для систем: оценивают работу моделей и направляют их . Чем умнее будет ИИ, тем более сложные и независимые цепочки задач человеку придется проверять.
Главный вызов — научиться делегировать задачи машинам и правильно настраивать уровень доверия. Можно ли отдать ИИ написание всего кода? В целом да. Но если что-то пойдет не так, разобраться, где именно возникла проблема и почему, будет сложно. Для разработки с продакшен-кодом это серьезный риск. В аналитике ситуация чуть проще, но финальная ответственность за результат и решения все равно остается за человеком.




