Новости

Как нейросети делают разметку проще и быстрее

3 минуты
31 мая 2025
Logo
AI помогает ускорить процесс разметки данных, но для этого важно его правильно обучать — а потом контролировать качество ответов. Как мы в Yandex Crowd Solutions делаем это, рассказали сразу в нескольких докладах на Data Fest 2025.

Как заполняем карточки товаров в интернет-магазинах

Чтобы пользователи через поиск быстрее находили то, что им нужно, в карточке товара нужно прописать как можно больше атрибутов. Например, для парфюма это объём флакона, ключевой ингредиент, страна производства и так  далее.
Чтобы заполнить все атрибуты, придётся поискать нужную информацию — на сайте производителя и в других источниках. Это занимает время. Почему бы не поручить эту задачу AI?
Так и сделали: приручили LLM на базе YandexGPT приносить нужные атрибуты из поиска Яндекса, рассказала архитектор краудсорсинговых решений Yandex Crowd Solutions Юлия Силова.
Результат порадовал: модель работала почти без ошибок. Но в 14,6% случаев она не могла найти атрибут. Всё потому, что его нужно было не прочитать, а увидеть: например, если речь шла про цвет флакона или особенности колпачка.
Тогда мы добавили в алгоритм внутреннюю VLM-модель (умеет принимать на вход изображения и давать ответ в виде текста). С ней снизили количество атрибутов, которые не найти машиной, почти втрое — до 5,7%.
Разметка с AI дешевле и быстрее, чем заполнение вручную и матчинг товаров. Но важные атрибуты и сложные случаи размечают только люди.

Как оцениваем качество генерации YandexART

YandexART — модель от Яндекса, которая создаёт иллюстрации по описанию. Чтобы оценить, насколько качественно она это делает, и помочь ей стать лучше, мы используем разметку Side‑by‑Side. Это когда человек смотрит на два варианта генерации и выбирает тот, что лучше, — и в некоторых случаях в комментарии объясняет своё решение.
Но у людей разные предпочтения. А ещё важно убедиться, что разметчики действуют добросовестно и внимательно. В этом помогает YandexGPT, сообщил архитектор краудсорсинговых решений Yandex Crowd Solutions Егор Бадика.
Также применяем VLM‑модель, чтобы оценивать непосредственно навыки генерации YandexART. Для этого просим модель ответить на вопросы по картинкам и сравниваем результат с ответом наших разметчиков.
Результат: внедрение нейросети позволило снизить затраты на модерацию комментариев на 43% и уменьшить число плохих ответов вдвое

Как автоматизируем фотоконтроль машин такси

Раз в десять дней водители-партнёры Яндекс Go присылают снимки своей машины на фотоконтроль. Сервису важно убедиться, что автомобили в нормальном состоянии и на них можно перевозить пассажиров. В частности, что спереди и сзади есть ремни безопасности.
Снимков со всей страны приходит так много, что вручную всё проверить сложно. Поэтому появилась потребность в автоматизации — сделать так, чтобы AI умел находить нарушения. А чтобы его обучить, мы вручную разметили более 200 000 фотографий, рассказал архитектор краудсорсинговых решений Yandex Crowd Solutions Алексей Сушков.
С помощью нашей разметки удалось научить AI различать передние сиденья и задний диван, а также определять, есть ли в машине ремни безопасности, замки для них и не стоят ли в них заглушки.
Затем мы дополнительно разметили ещё 40 000 фотографий — и довели точность распознавания модели до 93%.
Кстати, для Яндекс Go мы также оцениваем цвета автомобилей такси. Как и зачем мы это делаем, читайте в нашей статье.
Поделиться
Кейсы и новости по теме

Как отслеживать работу тысяч партнёров удалённо

Проверяем для Яндекс Go, соответствует ли цвет автомобилей такси заявленному в приложении

Как мы делаем матчинг товаров для Яндекс Маркета

Ежедневно проверяем 300 000 пар товаров, чтобы выявить дублирующиеся карточки

Какие тренды меняют разметку данных в 2025 году

Объяснили, как новые технологии позволяют быстрее и дешевле обрабатывать датасеты

Расскажите о задаче

Есть идея для совместного проекта? Нужна помощь в обучении ML-модели
или данные для бизнеса?
Мы готовы помочь!
Fri Dec 26 2025 15:57:00 GMT+0300 (Moscow Standard Time)