Компания «Яндекс» анонсировала публикацию Yambda (YAndex Music Billion-interactions DAtaset), одного из крупнейших в мире открытых датасетов, предназначенного для разработки и улучшения рекомендательных систем. Этот датасет был создан на основе обезличенных данных «Яндекс Музыки», крупнейшего подписного музыкального сервиса в России, и теперь доступен для ученых и исследователей по всему миру.
Yambda представлен в трех вариантах: полная версия включает 5 миллиардов данных, а уменьшенные версии содержат 500 миллионов и 50 миллионов взаимодействий. Это позволяет разработчикам и исследователям выбирать вариант, наиболее подходящий для их задач и имеющихся вычислительных ресурсов. Данные и код для оценки доступны на платформе HuggingFace и GitHub.
Как отметил Александр Плошкин, руководитель направления по развитию качества персонализации в «Яндексе», успешное применение рекомендательных алгоритмов является ключевым для нахождения нужных товаров, фильмов и музыки. Однако, в последние годы существует проблема нехватки качественных и объемных открытых датасетов, что создает разрыв между академическими исследованиями и потребностями бизнеса. Публикация Yambda может помочь устранить этот разрыв.
Важность подобного пособия можно сравнить с влиянием датасета ImageNet на развитие компьютерного зрения, который стал основой для достижения рекордных результатов в области обработки изображений. Все данные Yambda анонимизированы, обеспечивая конфиденциальность пользователей, что позволяет безопасно исследовать и улучшать рекомендательные алгоритмы, используемые в самых разных сферах.
Представленный датасет включает информацию об агрегированных прослушиваниях, лайках, дизлайках и некоторых характеристиках треков, что делает его универсальным инструментом для оценки качества различных рекомендательных систем.