Новости

Как правильно готовить данные для ML‑проектов

3 минуты
18 ноября 2025

Руководитель Yandex Crowd Solutions рассказал, почему разметка нейросетью не даёт нужного качества и какой подход используют в Яндексе

Сбор и обработка данных занимают до 80% времени любого ML‑проекта. И если нужно получить осязаемый бизнес-эффект от автоматизации, потребуется специфическая, часто экспертная подготовка данных. Как она происходит, рассказал руководитель Yandex Crowd Solutions Евгений Загуменнов на конференции Tech Week 2025.

В чём сложности подготовки данных

При подготовке данных для создания ML‑моделей возникает три проблемы, перечислил Евгений:
  1. Попытки закрыть всё автоматикой проваливаются. Нейросеть не способна сама разметить данные так же качественно, как человек.
  2. Модели постоянно нужно дообучать. А это требует тысячи человеко‑часов. Штатная команда с этим просто не справится по объёму.
  3. Разметка — это не просто «покликать картинки». Это выстраивание пайплайнов, контроль качества, обучение. Без опыта и знаний это превращается в хаос.

Как эти проблемы решают в Яндексе

Потоки данных от разных сервисов поступают в Yandex Crowd Solutions. Мы их готовим и структурируем по единому стандарту, а затем возвращаем готовыми датасетами. Эксперты сервисов используют эти данные для обучения своих моделей.
Yandex Crowd Solutions — центр компетенций по разметке данных в компании. Более 80 сервисов Яндекса доверяют эту задачу нам. Мы закрываем до 90% потребности компании в разметке»‎
фотография автора статьи
Евгений Загуменнов
Руководитель Yandex Crowd Solutions

Как это работает на примерах

Чтобы научить автомобили Яндекса ездить без водителей, команда Yandex Crowd Solutions привлекла и обучила более тысячи квалифицированных исполнителей. Они распознают объекты с камер и датчиков, оценивают предложенные AI траектории. Предложенная нами ML‑автоматизация в 3,5 раза снизила стоимость работ по разметке дорожной инфраструктуры.
Подробнее о проекте рассказывали в отдельной статье.
Чтобы пользователи Яндекс Маркета легче находили нужный товар, мы среди миллионов товаров на маркетплейсе ищем одинаковые предложения от разных продавцов и объединяем их в одну карточку. Автоматизировали этот процесс с помощью ML‑модели с точностью 98% и обеспечили качество с помощью верификации на краудсорсинговой платформе. Благодаря увеличению числа релевантных товаров в выдаче (+2,6%) на 7% выросло качество ранжирования (NDCG).
Подробнее о кейсе читайте в статье.

Как получить такую же разметку, как в Яндексе

Воспользоваться ресурсами Yandex Crowd Solutions может любая компания. Есть два основных сценария:
Разметка под ключ
Наша экспертная команда разработает индивидуальные решения специально под задачи заказчика.
Доступ к SaaS-платформе
Предоставляем доступ к 160+ тыс. верифицированных и квалифицированных исполнителей на краудсорсинговой платформе «Яндекс Задания».
Узнайте подробнее об услуге сбора и разметки данных.
Поделиться
Кейсы и новости по теме
6 августа 2025

Учим автомобили Яндекса ездить без водителя

Разметили данные, чтобы сделать автономный транспорт безопаснее
10 июля 2025

Как мы делаем матчинг товаров для Яндекс Маркета

Ежедневно проверяем 300 000 пар товаров, чтобы выявить дублирующиеся карточки
13 февраля 2025

Как происходит разметка данных в Яндекс Заданиях

Показали на примерах с разными сценариями, от простых до сложных

Расскажите о задаче

Есть идея для совместного проекта? Нужна помощь в обучении ML-модели
или данные для бизнеса?
Мы готовы помочь!
Fri Dec 26 2025 16:01:49 GMT+0300 (Moscow Standard Time)