Новости

LLM-судьи, классические алгоритмы и пайплайн c VLM

4 минуты
20 апреля 2026

Эксперты Yandex Crowd Solutions показали, как решают сложные продуктовые задачи

20 апреля в Москве прошла AI Conf 2026 — крупная конференция по Data Science. Она собрала более 400 специалистов по анализу данных. Команда Yandex Crowd Solutions выступила с двумя докладами и провела мастер-класс. Делимся главными идеями и выводами.
Инсайт 1: в анализе видео классические алгоритмы побеждают GenAI
Ситуация из практики: клиент хочет понимать, насколько заметна его реклама на бортах автомобилей. Для этого мы снимаем ему уличный трафик на видео, а затем находим и размечаем кадры с брендированными машинами.
Раньше наши исполнители размечали данные вручную. Нам предстояло автоматизировать этот процесс, чтобы быстрее отдавать данные бизнесу. Но это оказалось непросто, рассказал руководитель группы Crowd CV Николай Курбатов.
Эксперименты с VLM «из коробки» показали, что такие модели работают хуже людей — контекст быстро забивается из‑за обилия разных промптов в одной локации. Попытки прикрутить тяжёлые SOTA-методы тоже не дали прироста.
В итоге результат обеспечил автоматизированный пайплайн на базе классического компьютерного зрения (детектор + трекер + эмбеддер). Качество разметки сравнялось с человеческим, а время обработки видео сократилось с 7 часов до 30 минут.
Главный вывод: GenAI as is — не панацея. В анализе сложного видео классические алгоритмы в связке с грамотной чисткой данных работают эффективнее и быстрее.
Инсайт 2: LLM-судьи — новый стандарт контроля клиентского сервиса
В поддержку пользователей повсеместно внедряют чат-ботов и AI-ассистентов. Но бизнесу сложно мониторить их качество. Проводить ручную разметку всего потока слишком дорого, а базовые продуктовые метрики (вроде CSAT) не показывают системных ошибок AI.
Решением становится подход LLM‑as‑a‑Judge, когда одна нейросеть оценивает ответы другой. Руководитель ML‑команды Дарья Шатько разобрала, как настроить такого «судью», чтобы он проверял чат-ботов на галлюцинации, соответствие Tone of Voice и оценивал попадание в контекст диалога.
Главный вывод: LLM-судьи склонны к радикализму — они могут быть слишком строгими и зря браковать ответы. Поэтому система не способна работать без участия человека (Human‑in‑the‑loop). Чтобы судья давал адекватные оценки, его необходимо калибровать на экспертной разметке, прогоняя через специально собранные тестовые корзины. Чем и занимаются эксперты Yandex Crowd Solutions.
Инсайт 3: краудсорсинг + VLM = идеальный пайплайн для датасетов
Пока коллеги делились кейсами, архитектор краудсорсинговых решений (CSA) Всеволод Мещеряков провёл практический мастер-класс. Вместе с участниками AI Conf он прошёл весь путь от идеи до работающей модели сегментации изображений, способной выделять на видео замаскировавшихся бабочек.
Путь выглядел так:
  1. Собрали сырые данные
  2. Попытались обучить базовую модель (YOLO)
  3. Поняли, что нужен более качественный датасет
  4. Разметили данные в Яндекс Заданиях
  5. Получили качественный датасет для дообучения модели
  6. Написали грамотный промпт для VLM
Главный вывод: современная разметка — это гибкий инструмент, который позволяет собирать сложные пайплайны любой архитектуры для задач в 2026 году.
Мы в Yandex Crowd Solutions постоянно тестируем новые подходы, чтобы делать сбор и разметку данных быстрее, дешевле и точнее. Если перед вами стоит нестандартная ML‑задача — свяжитесь с нами, и мы подберём оптимальный пайплайн.
Поделиться
Кейсы и новости по теме
12 января 2026

Как мы проверяем экипировку курьеров по фото

Проект выполняем для Яндекс Еды с 2023 года
6 августа 2025

Учим автомобили Яндекса ездить без водителя

Разметили данные, чтобы сделать автономный транспорт безопаснее
дата

LLM + Краудсорсинг: секреты эффективной разметки данных

Вебинар Yandex Crowd Solutions и Yandex Cloud

Расскажите о задаче

Есть идея для совместного проекта? Нужна помощь в обучении ML-модели
или данные для бизнеса?
Мы готовы помочь!