Руководитель Yandex Crowd Solutions рассказал, почему разметка нейросетью не даёт нужного качества и какой подход используют в Яндексе
Сбор и обработка данных занимают до 80% времени любого ML‑проекта. И если нужно получить осязаемый бизнес-эффект от автоматизации, потребуется специфическая, часто экспертная подготовка данных. Как она происходит, рассказал руководитель Yandex Crowd Solutions Евгений Загуменнов на конференции Tech Week 2025.
В чём сложности подготовки данных
При подготовке данных для создания ML‑моделей возникает три проблемы, перечислил Евгений:
- Попытки закрыть всё автоматикой проваливаются. Нейросеть не способна сама разметить данные так же качественно, как человек.
- Модели постоянно нужно дообучать. А это требует тысячи человеко‑часов. Штатная команда с этим просто не справится по объёму.
- Разметка — это не просто «покликать картинки». Это выстраивание пайплайнов, контроль качества, обучение. Без опыта и знаний это превращается в хаос.
Как эти проблемы решают в Яндексе
Потоки данных от разных сервисов поступают в Yandex Crowd Solutions. Мы их готовим и структурируем по единому стандарту, а затем возвращаем готовыми датасетами. Эксперты сервисов используют эти данные для обучения своих моделей.
Yandex Crowd Solutions — центр компетенций по разметке данных в компании. Более 80 сервисов Яндекса доверяют эту задачу нам. Мы закрываем до 90% потребности компании в разметке»
Евгений Загуменнов
Руководитель Yandex Crowd Solutions
Как это работает на примерах
Чтобы научить автомобили Яндекса ездить без водителей, команда Yandex Crowd Solutions привлекла и обучила более тысячи квалифицированных исполнителей. Они распознают объекты с камер и датчиков, оценивают предложенные AI траектории. Предложенная нами ML‑автоматизация в 3,5 раза снизила стоимость работ по разметке дорожной инфраструктуры.
Подробнее о проекте рассказывали в отдельной статье.
Чтобы пользователи Яндекс Маркета легче находили нужный товар, мы среди миллионов товаров на маркетплейсе ищем одинаковые предложения от разных продавцов и объединяем их в одну карточку. Автоматизировали этот процесс с помощью ML‑модели с точностью 98% и обеспечили качество с помощью верификации на краудсорсинговой платформе. Благодаря увеличению числа релевантных товаров в выдаче (+2,6%) на 7% выросло качество ранжирования (NDCG).
Подробнее о кейсе читайте в статье.
Как получить такую же разметку, как в Яндексе
Воспользоваться ресурсами Yandex Crowd Solutions может любая компания. Есть два основных сценария:
Разметка под ключ
Наша экспертная команда разработает индивидуальные решения специально под задачи заказчика.
Доступ к SaaS-платформе
Предоставляем доступ к 160+ тыс. верифицированных и квалифицированных исполнителей на краудсорсинговой платформе «Яндекс Задания».
Узнайте подробнее об услуге сбора и разметки данных.
Вернуться к новостям
Поделиться
Кейсы и новости по теме
6 августа 2025
Учим автомобили Яндекса ездить без водителя
Разметили данные, чтобы сделать автономный транспорт безопаснее
10 июля 2025
Как мы делаем матчинг товаров для Яндекс Маркета
Ежедневно проверяем 300 000 пар товаров, чтобы выявить дублирующиеся карточки
13 февраля 2025
Как происходит разметка данных в Яндекс Заданиях
Показали на примерах с разными сценариями, от простых до сложных