На рынке сейчас «взрыв» данных. Мы стараемся учесть все, что влияет на медиа
31.03.2020
«Мы находимся в точке взрыва данных»
CNews: Василий, Mediascope — один из лидеров российского рынка исследований медиа, а по отдельным направлениям — даже монополист, например, во всем, что касается телевидения. Вы — технологическая компания?
Mediascope измеряет аудиторию и рекламу в российских медиа больше 25 лет. На телевизионном рынке наша компания — единый национальный медиаизмеритель. Данные Mediascope — это рыночная «валюта», на их основе рекламодатели, агентства, селлеры и каналы совершают сделки по покупке и размещению рекламы на ТВ. Мы также предоставляем аудиторные данные и аналитику по другим сегментам медиа-рекламного рынка (интернету, радио и прессе) и проводим исследования потребительских предпочтений россиян. Поэтому с точки зрения нашего бизнеса, который сильно завязан на сбор, обработку и анализ данных, мы действительно — технологическая исследовательская компания. Компания обладает собственными источниками информации о рынке, но также получает данные из внешних источников. Наши клиенты — это все основные участники медиа-рекламного рынка: телеканалы, интернет-площадки, радиостанции, издательские дома, рекламные агентства, бренды и рекламодатели. Все они пользуются данными наших постоянных медиаисследований, которые мы продаем по подписке. Mediascope также проводит специальные исследования по заказу клиентов, если они хотят получить информацию для решения узких задач.
Да, но это не просто модная цифровая трансформация отдельных компаний, о которой сейчас все говорят. Речь идет о трансформации целого рынка. Стираются грани между разными медиа, участники рынка могут выступать сразу в нескольких ролях — к примеру, в качестве площадок распространения и производителей контента. Главное — меняется само медиапотребление человека, а вслед за этим перераспределяются веса между разными сегментами рынка. Сейчас на все медиапоказатели влияет гораздо больше факторов, поэтому мы как исследовательская компания следуем за самим рынком и его потребностями и стараемся учесть все, что может повлиять на рейтинги медиа, получить как можно больше информации о поведении аудитории. Появляются совершенно новые взгляды на то, как измерить рынок, которые определяют технологические изменения и требования к нашим решениям.
Что именно изменилось? Стало больше данных. Их количество удваивается каждые два года, мы находимся в точке взрыва данных. В ближайшие пять лет у рынка появится на порядок больше сведений. Кроме того, появляется больше источников, они становятся разнообразнее.
Еще один важный фактор, который влияет на технологии и их востребованность на рынке — скорость внесения изменений. Новые продукты выводятся на рынок очень быстро, поэтому возникает потребность анализировать на лету. Многие метрики, которыми рынок пользовался еще несколько лет назад, сейчас теряют свою актуальность.
Объем данных, количество их источников и скорость изменений — это три кита, которые определяют технологии, с которыми мы работаем.
За этим термином скрывается целый стек технологий, это не только экосистема Hadoop, как принято думать. Нужны гибкие инструменты, позволяющие быстро получать данные, разбираться в них, строить на их основе расчеты и контролировать качество получаемых данных. Мы оперируем быстрыми инструментами доставки сведений и self-service аналитикой. Помимо Hadoop и его экосистемы, к работе с большими данными мы относим все, что касается стриминговой обработки на Kafka и с помощью других инструментов потокового вычисления, инструменты self-service аналитики. Это Self Service Preparation Tool — класс приложений, который находится на пике своей популярности по мнению Gartner, но на самом деле только-только входит в практику. И, пожалуй, еще все, что касается Data Science. Это не только набор инструментов и технологий, это стремительно развивающееся направление исследовательской деятельности.
Это, скорее, пассив. Активом является информация, которую из этих данных удалось получить. Мы работаем с информацией, а данные — это некое сырье, из которого мы строим определенную картину. В центре находится наш объект исследования — житель страны, который смотрит телевизор, пользуется интернетом, слушает радио или читает прессу, выбирает товары и совершает покупки. Человек является центром всех исследований Mediascope, мы собираем его социально-демографическую информацию, сведения о его потребительских предпочтениях, интересах. И уже поверх этого накладывается информация о том, как этот человек взаимодействует с медиа, как он пользуется мобильным телефоном, как он смотрит телевизор, какую рекламу видит по дороге на работу. Совокупность этой информации и позволяет строить глубокие исследования: от фиксации контакта человека с медиа до оценки результатов рекламной кампании. На любой дата-сет или источник данных мы всегда смотрим под одним углом: «Насколько это обогатит наши знания о человеке и его поведении?». Работа с большими данными всегда должна быть очень предметной. Хватать все, что есть — дорого и не очень осмысленно.
««Уровень доверия к нашим данным очень высок»
Накопился целый набор предпосылок. Рост объемов данных и необходимость быстрее их обрабатывать — одна из них, но есть и другие, которые напрямую связанные с бизнесом, например, кросс-медийная аналитика.
Рекламодатель хочет запустить рекламную кампанию и интересуется, какие у нее будут качественные показатели. Например, сколько секунд пользователь будет видеть рекламу по телевизору, в интернете, в компьютерных играх или в мобильных приложениях. Бизнес хочет понимать, где случился рекламный контакт, что изменилось у людей после просмотра рекламы, как это сказалось в конечном итоге на предпочтениях и потребительском поведении людей.
Комплексный анализ не сводится к измерению какого-то отдельного средства массовой информации. Важно и то, как доставили рекламную кампанию до потребителя, насколько хорошо она попала в целевые группы. Но на этом измерения не заканчиваются, дальше нужно узнать, какое влияние оказала реклама. Множество компаний пытаются понять, стал ли бренд более узнаваемым, например. Mediascope тоже этим занимается: кроме анализа аудитории рекламы, мы изучаем как люди реагируют на рекламу, как выросло знание бренда – для этого у нас есть собственный аналитический продукт Brand Pulse. И уже после этого нужно выяснить, как реклама повлияла на продажи товара. Это и есть настоящая сквозная аналитика. Бизнес хочет видеть все от и до: от планирования своих медиазатрат до финального результата, выраженного в деньгах от продаж.
На эти вопросы, в принципе, и раньше существовали ответы, но техническое решение исторически строилось не совсем под эти цели. Когда мы планировали платформу, то хотели создать архитектуру, которая позволила бы решать всю комплексную задачу по кросс-медиа анализу. Она стала матрицей, которая позволяет посмотреть на все, что происходит между производителем товара, его продавцом и конкретным покупателем, и как в этом участвуют медиа.
Дело в том, что в мире не так много более или менее автономных, или замкнутых рынков. Мы действительно исследовали, как это работает в США: там несколько участников рынка проинвестировали в построение большой платформы, каждый — своей. То есть они решили одну и ту же задачу несколько раз.
Российский рынок меньше, поэтому мы приняли решение создавать открытую платформу, которая позволит работать с большими данными не только нам - исследовательской компании, но и другим игрокам. Здесь стоит отметить, что Mediascope, как независимая исследовательская компания, не является игроком на рекламном рынке, не участвует в прямой цепочке продаж и размещения рекламы. Поэтому уровень доверия к нашим данным очень высок. Мы строим платформу, на которой не только мы можем решать аналитические и исследовательские задачи, но и те, кто работает непосредственно с данными — наши клиенты. И, конечно, мы не ограничиваем возможность загрузки информации из внешних источников. Получилось синдикативное решение, которое уберет барьеры, которые исторически сложились из-за отсутствия единого решения. Насколько это удалось мы узнаем после результатов тестирования платформы внешними пользователями.
У Mediascope было несколько архитектурных требований, одним из которых стало использование ПО с открытым кодом.
Открытость платформы — это главная идея, мы хотели сделать ее для всех игроков медиа-рекламного рынка. Если бы мы делали платформу с использованием сложных и дорогих инструментов, нам бы пришлось обязать участников рынка покупать такие же инструменты для работы с ней, а мы не хотели увеличивать финансовую нагрузку для клиентов. И, наверное, рынок пока к такому не готов. Стоит отметить, что вокруг темы больших данных сложилось хорошее Hadoop-комьюнити, которое поддерживает технологии с открытым кодом и которые вполне можно считать индустриальным стандартом.
Если говорить об отдельных технологиях, то мы используем Kafka в качестве средства доставки, Hadoop Hortonworks как среду хранения данных и Spark — фреймворк для вычислений.
Больше петабайта — это уже заведенные наши данные и в перспективе те, что есть в компаниях, которые так или иначе заинтересовались возможностями платформы. С учетом тенденции роста объема данных, о которой я говорил вначале нашей беседы, через несколько лет количество данных на платформе, очевидно, может возрасти. Понятно, что мы не будем брать абсолютно все данные, что есть на рынке. Мы соотносим количество с полезностью. Однако спрос на анализ данных и в будущем будет довольно высоким.
Вся прикладная логика системы разрабатывается нашими программистами и дата-инженерами в Datagram от «Неофлекс». Этот инструмент позволяет на выходе выдать отчуждаемый исполняемый программный код. Мы также используем коммерческие BI-инструменты — у нас применяется Tableau, с помощью которого мы планируем в будущем предоставлять внешний доступ в определенные дашборды с отчетами и аналитикой.
«Прыгнули с парашютом, который рассчитывали сшить по дороге»
Мы начинали этот проект, как бы прыгая с парашютом, рассчитывая по дороге этот парашют себе сшить. Это произошло в марте 2019 года. Команда тогда была очень маленькой и стояла задача - вывести решение в продакшн к концу года. Оно должно было уже заменить собой часть текущих процессов, существовавших без изменений несколько лет.
«Неофлекс» выступил в двух качествах. Во-первых, нам нужен был российский инструмент, сопоставимый с нормальными ETL-решениями, присутствующими на рынке. Мы в течение месяца проводили сравнение четырех наиболее популярных на российском рынке ETL-инструментов и выбрали Datagram по совокупности факторов. И, конечно, мы предположили, что «Неофлекс» делая инструмент для себя и сам с ним умеет работать, что предопределило выбор подрядчика. Поэтому мы сразу же договорились о реализации совместного проекта.
У Mediascope была сильная команда, но небольшая, которая хорошо владела вопросами системного уровня. Нужен был инструмент, который позволит набрать команду специалистов из другой области — SQL-щиков, которые хорошо знают, что такое хранилище данных, понимают, что такое отчеты и ETL, как строятся расчеты и что такое витрины данных. Взамен мы предлагали научить их работе с Hadoop. Эксперимент удался: за месяц человек, работающий с Datagram, переквалифицируется из «хранилищника», работавшего некогда с Oracle или Microsoft, в специалиста, способного делать серьезные решения на Hadoop с использованием этого инструмента. Сейчас мы чувствуем себя вполне самостоятельными, но по-прежнему используем услуги «Неофлекс» для аутсорс-задач.
Акселератор разработки Datagram позволяет проектировать потоки обработки данных в визуальном редакторе. То есть разработчик проектирует визуальные модели, из которых потом автоматически генерируется Scala-код, исполняющийся позже на Hadoop – кластере с использованием Apache Spark. Что это дает? Сроки проекта были достаточно сжатые, а написать нужно было большой объем функционала. С одной стороны, Datagram позволил значительно ускорить разработку, потому что не надо писать сложный Scala-код, можно просто применять обычный SQL и проектировать потоки данных в визуальном редакторе, и из этого получать готовое решение.
А с другой — да, действительно, нам удалось снизить цену входного билета для разработчиков как со стороны «Неофлекс», так и со стороны Mediascope. Используя Datagram, разработчику не обязательно знать Scala или Java, он может быть ETL- или SQL-разработчиком и, при этом, комфортно работать на проекте, быть полноправным разработчиком решения. Это важно, потому что такой подход позволил значительно снизить затраты и решить проблему дефицита Big Data специалистов на рынке.
Объединенная Scrum-команда состояла из аналитиков, тестировщиков, разработчиков, DevOps-инженеров и других специалистов, и в каждой линии были как сотрудники «Неофлекс», так и сотрудники Mediascope. В самом начале проекта размер команды держался в пределах пяти-семи человек. Ближе к запуску в продакшн — было уже около 20 человек. Важно отметить, что именно построение команды и было главной особенностью проекта, потому что нам удалось всем вместе поработать на общий результат без разделения и барьеров. Работа велась мелкими итерациями, каждые две недели получался небольшой результат, вносились корректировки. Это и позволило реализовать проект в сжатые сроки и к январю запуститься в полноценный продакшн.
На самом деле, уже через четыре месяца после начала работы мы показали работающее решение. Это, конечно, был еще прототип, но на определенной контрольной дате мы повторили расчеты, разработали все механизмы, спроектировали основные сервисы платформы. С этого момента мы разделили задачи пополнения платформы новыми данными и создания аналитических продуктов на ее базе. Теперь эти два направления развиваются параллельно.
Но это была даже не самая интересная задача, поскольку «Неофлекс» достаточно давно запускает аналитические решения на технологиях Hadoop. Необходимо было обеспечить передачу экспертизы и обучение сотрудников Mediascope для того, чтобы осуществлять дальнейшее развитие и сопровождение платформы. То есть важно было делать проект единой командой, которая и теперь продолжает работать по методологии Scrum. В рамках этой команды проводилась совместная аналитика и разработка, сотрудники «Неофлекс» проводили обучение по инструментарию Datagram и в дальнейшем поддерживали разработку силами Mediascope. И тут мы тоже достигли успеха, потому что платформа может развиваться в дальнейшем как с участием специалистов «Неофлекс», так и самостоятельно только силами Mediascope.
Работа над решением продолжается. Мы спроектировали большую часть и общие правила единой модели данных, которую строим сразу для всей индустрии, а потому делаем ее опять же открытой. Всю документацию по этой модели мы раздаем ключевым участникам рынка и говорим: «Это наш язык, на котором мы описываем данные медиарынка». Сначала это было внутрикорпоративной практикой, но потом мы решили предлагать модель всей индустрии. Мы не претендуем на то, что этообязательно будет единый индустриальный стандарт, но это позволяет нам получать данные уже в том виде, в котором мы собираемся их хранить и обрабатывать. Это позволило снять несколько барьеров, которые существовали просто в силу технологических ограничений старого решения.
Также мы выработали процесс расширения этой модели, и сейчас вовлекаем партнеров в процесс ее развития. До конца прошлого года мы пополнили данными все, что есть в модели, эти же данные подключили к платформе и запустили решение в промышленную эксплуатацию, что коснулось, в первую очередь, телевизионных рейтингов, которые рассчитываются на ежедневной основе.
Наших клиентов, прежде всего, интересуют аналитические данные об аудитории медиа и рекламы, которые они получают постоянно, и они очень рассчитывают, что в поставках не будет критических изменений. Одновременно, мы переводим весь наш процесс производства данных на новую платформу и поддерживаем старые решения, чтобы переход был плавным и незаметным. Однако главное направление развития платформы — это подключение к ней новых источников. У нас есть дорожная карта, которая учитывает «посадку» на платформу как данных из наших собственных источников, так и данных внешних партнеров, которые могут быть интересны рынку: телеком-операторов, интернет-компаний, сторонних данных о потребительском поведении человека и покупках.
Много. С точки зрения бизнес-результатов важно понимать, что Mediascope Data Platform, с одной стороны, инфраструктурный проект, который заменяет имеющееся решение. И, кроме того, платформа позволяет нам запускать новые исследовательские проекты и продукты.
Для «Неофлекс» ключевыми результатами каждого проекта являются несколько факторов. Первый — что разработанная система реально начинает использоваться и приносить пользу. И здесь мы достигли успеха, поскольку система внедрена, и клиенты Mediascope получают аналитику уже из новой платформы. И второй — довольный заказчик, потому что результат важен, но процесс его достижения и комфортность этого процесса — тоже. Отмечу, что во многом работа в единой Scrum- команде помогла сделать процесс не только результативным, но и комфортным для обеих компаний.