Группа «Т-Технологии» опубликовала крупнейший кросс-доменный датасет T-ECD для рекомендательных систем
Центр искусственного интеллекта группы «Т-Технологии» выложил в открытый доступ T-ECD (T-Tech E-commerce Cross-Domain Dataset) — один из крупнейших в мире датасетов для рекомендательных систем в области электронной торговли. Об этом CNews сообщили представители «Т-Банка».
T-ECD собран на основе анонимизированных действий 44 млн уникальных пользователей сервисов «Город»: «Шопинг» и «Супермаркеты», а также рекламной платформы «Т-Банка», 30 млн товаров и более 135 млрд взаимодействий.
Отличительные особенности T-ECD: кросс-доменность и универсальность для решения разных типов задач. Бенчмарк состоит из пяти взаимосвязанных и полностью анонизимированных источников данных: история покупок по транзакциям, чеки, отзывы, взаимодействие с рекомендациями по товарам повседневного спроса (FMCG) и непродовольственных товаров (non-FMCG): бытовой техники, одежды, электроники, косметики, а также истории активаций и использования специальных предложений и кэшбэков. Все источники данных можно использовать как самостоятельные датасеты, так и связывать их по ключам пользователей, товаров или брендов магазинов, что позволяет строить полные профили поведения и анализировать сложные сценарии для персонализации. Датасет подходит для большинства типов рекомендательных задач – рекомендации одного следующего объекта (next-item), следующей корзины (next-basket), следующей сессии (session-based), общих топ-N рекомендаций и других типов задач.
Данные собраны с глубиной от 1 года до 3,5 лет, что позволяет анализировать как краткосрочные, так и долгосрочные предпочтения пользователей, динамику их изменения, а также сезонность и тренды. Фактор глубины данных крайне важен для исследований, поскольку позволяет делать корректные разбивки на данные для обучения моделей и дает возможности в разы повышать качество рекомендаций при использовании глубоких нейронных сетей.
Датасет содержит информацию по признакам пользователей и товаров, явную (explicit) и неявную (implicit) обратную связь пользователей, что делает его универсальным и открывает возможности для проведения исследования по полному охвату классов и типов рекомендательных систем – от коллаборативной фильтрации до более сложных контекстных и графовых подходов для использования глубокого обучения. В академических датасетах зачастую есть данные только о содержательных действиях пользователей: клики, покупки, лайки и др, но нет данных о просмотрах (так называемые impressions). При этом для бизнеса важнее знать, что пользователям показывала рекомендательная система. Это помогает точнее понимать, что пользователи увидели, но никак не отреагировали. T-ECD содержит данные не только о фактах просмотров, но и уточняет источник – поиск, каталог или рекомендации, что позволяет оценивать влияние рекомендаций на пользователей или моделировать эффект воздействия.
T-ECD решает одну из главных проблем сообщества – большинство существующих датасетов для рекомендательных систем устарели и не отражают актуальное поведение пользователей и взаимодействия с современными сервисами и платформами.

С помощью T-ECD исследователи и разработчики получают бенчмарк на основе реальных предпочтений и паттернов поведения пользователей, что позволяет проверять новые наилучшие на данный момент алгоритмы машинного обучения на максимально приближенных к реальным рабочим данным, и повышает доверие к результатам экспериментов.
Марина Ананьева, руководитель направления рекомендательных систем в «Т-Банке»: «Мы с командой считаем важным вносить вклад в развитие открытых датасетов и моделей для дальнейшего развития рекомендательных систем. Датасет T-ECD может стать одним из новых бенчмарков и принести ценность ML-сообществу для улучшения качества персонализации и клиентского опыта реальных пользователей. Похожий набор данных используется для развития наших внутренних продуктов и сервисов, создания сложных рекомендательных систем с обновлением в режиме реального времени и адаптацией под клиентов для персонализации кэшбэков, товарных рекомендаций и повышения эффективности рекламной платформы и других сервисов экосистемы Т-Технологий».
Датасет T-ECD доступен на Hugging Face под лицензией Apache 2.0, разрешающей свободное коммерческое использование и модификацию.