«Яндекс» выложил в опенсорс масштабный датасет Yambda

0

«Яндекс» выложил в опенсорс масштабный датасет Yambda Новости 28 мая 2025

«Яндекс» открыл доступ к Yambda (Yandex music billion-interactions dataset) — одному из крупнейших в мире датасетов, предназначенных для разработки рекомендательных систем. Об этом Русбейс рассказали в компании.

«Яндекс» выложил в опенсорс масштабный датасет Yambda https://rb.ru/news/yandeks-dataset-yambda/

  1. Новости

Автор: Юлия Пажитных https://rb.ru/author/yuliya-pazhitnyh/ Подписаться на RB.RU в Telegram

Ресурс позволит ученым и исследователям со всего мира тестировать и совершенствовать алгоритмы рекомендаций. Датасет представлен в трех вариантах: полная версия содержит 5 млрд данных, а сокращенные — 500 млн и 50 млн записей, что дает возможность выбрать наиболее подходящий для конкретных задач вариант в зависимости от наличия вычислительных ресурсов. Данные доступны на HuggingFace, а код для их оценки — на GitHub.

«Рекомендательные алгоритмы помогают людям находить нужные товары, фильмы, музыку и многое другое. Развитие этих алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объемные датасеты», — отмечает Александр Плошкин, руководитель направления по развитию качества персонализации в «Яндексе». Он подчеркивает, что публикация больших открытых датасетов, таких как Yambda, устраняет разрыв между академическими исследованиями и потребностями бизнеса.

  • Yambda создан на основе анонимизированных данных «Яндекс Музыки» и включает агрегированные прослушивания, лайки и дизлайки. Все пользовательские данные защищены, поскольку датасет содержит лишь числовые идентификаторы, что обеспечивает конфиденциальность и безопасность.

Источник: rb.ru

Comments are closed, but trackbacks and pingbacks are open.