AI помогает ускорить процесс разметки данных, но для этого важно его правильно обучать — а потом контролировать качество ответов. Как мы в Yandex Crowd Solutions делаем это, рассказали сразу в нескольких докладах на Data Fest 2025.
Как заполняем карточки товаров в интернет-магазинах
Чтобы пользователи через поиск быстрее находили то, что им нужно, в карточке товара нужно прописать как можно больше атрибутов. Например, для парфюма это объём флакона, ключевой ингредиент, страна производства и так далее.
Чтобы заполнить все атрибуты, придётся поискать нужную информацию — на сайте производителя и в других источниках. Это занимает время. Почему бы не поручить эту задачу AI?
Так и сделали: приручили LLM на базе YandexGPT приносить нужные атрибуты из поиска Яндекса, рассказала архитектор краудсорсинговых решений Yandex Crowd Solutions Юлия Силова.
Результат порадовал: модель работала почти без ошибок. Но в 14,6% случаев она не могла найти атрибут. Всё потому, что его нужно было не прочитать, а увидеть: например, если речь шла про цвет флакона или особенности колпачка.
Тогда мы добавили в алгоритм внутреннюю VLM-модель (умеет принимать на вход изображения и давать ответ в виде текста). С ней снизили количество атрибутов, которые не найти машиной, почти втрое — до 5,7%.
Разметка с AI дешевле и быстрее, чем заполнение вручную и матчинг товаров. Но важные атрибуты и сложные случаи размечают только люди.
Как оцениваем качество генерации YandexART
YandexART — модель от Яндекса, которая создаёт иллюстрации по описанию. Чтобы оценить, насколько качественно она это делает, и помочь ей стать лучше, мы используем разметку Side‑by‑Side. Это когда человек смотрит на два варианта генерации и выбирает тот, что лучше, — и в некоторых случаях в комментарии объясняет своё решение.
Но у людей разные предпочтения. А ещё важно убедиться, что разметчики действуют добросовестно и внимательно. В этом помогает YandexGPT, сообщил архитектор краудсорсинговых решений Yandex Crowd Solutions Егор Бадика.
Также применяем VLM‑модель, чтобы оценивать непосредственно навыки генерации YandexART. Для этого просим модель ответить на вопросы по картинкам и сравниваем результат с ответом наших разметчиков.
Результат: внедрение нейросети позволило снизить затраты на модерацию комментариев на 43% и уменьшить число плохих ответов вдвое
Как автоматизируем фотоконтроль машин такси
Раз в десять дней водители-партнёры Яндекс Go присылают снимки своей машины на фотоконтроль. Сервису важно убедиться, что автомобили в нормальном состоянии и на них можно перевозить пассажиров. В частности, что спереди и сзади есть ремни безопасности.
Снимков со всей страны приходит так много, что вручную всё проверить сложно. Поэтому появилась потребность в автоматизации — сделать так, чтобы AI умел находить нарушения. А чтобы его обучить, мы вручную разметили более 200 000 фотографий, рассказал архитектор краудсорсинговых решений Yandex Crowd Solutions Алексей Сушков.
С помощью нашей разметки удалось научить AI различать передние сиденья и задний диван, а также определять, есть ли в машине ремни безопасности, замки для них и не стоят ли в них заглушки.
Затем мы дополнительно разметили ещё 40 000 фотографий — и довели точность распознавания модели до 93%.
Кстати, для Яндекс Go мы также оцениваем цвета автомобилей такси. Как и зачем мы это делаем, читайте в нашей статье.
Вернуться к новостям
Поделиться
Кейсы и новости по теме
Как отслеживать работу тысяч партнёров удалённо
Проверяем для Яндекс Go, соответствует ли цвет автомобилей такси заявленному в приложении
Как мы делаем матчинг товаров для Яндекс Маркета
Ежедневно проверяем 300 000 пар товаров, чтобы выявить дублирующиеся карточки
Какие тренды меняют разметку данных в 2025 году
Объяснили, как новые технологии позволяют быстрее и дешевле обрабатывать датасеты