Новости

Что такое каскадная разметка

6 минут
26 сентября 2025
Чтобы получить эффективную и точную разметку, нужно совместить труд людей и сразу нескольких моделей разного уровня. Мы придумали, как это сделать оптимально: взяли лучшее от каждого метода и выстроили каскадный процесс. Как работает этот умный конвейер, на AI Conf 2025 показал наш руководитель направления проектов разметки данных Герман Ганус.
фото
фото

От LLM к целому «зоопарку» моделей

На прошлом AI Conf Герман уже рассказывал, как LLM (Large Language Model) помогает размечать данные. В 2024 году мы использовали эти модели для машинной предразметки или для формулировки саджестов — гипотез о финальном результате.
В 2025 году мы добавили в разметку новые AI-технологии. Одна из них — RAG (Retrieval Augmented Generation). Это технология, при которой модель генерирует ответ с учётом дополнительной информации, которую сама нашла.
Допустим, нам нужно заполнить карточки товаров в интернет-магазине: так они становятся заметнее в поиске, и пользователи быстрее находят товары. Это задача для разметки. RAG-система сама находит в поиске Яндекса нужные атрибуты товара для карточек, тем самым ускоряя процесс.
Иногда нужные данные содержатся не в тексте, а на картинке. Тогда в дело вступает VLM (Visual Language Model) — языковая модель, которая умеет принимать на вход изображения для обработки вместе с промптом.
С хорошим качеством можно использовать целый «зоопарк» для разметки: LLM, VLM, RAG. Используем все методы и не боимся экспериментировать. Но модели всё равно не дают 100% качества, в самых ответственных проектах мы отдаём сложные случаи для разметки людьми‑экспертами»‎
фотография автора статьи
Герман Ганус
Руководитель направления внешних проектов разметки данных Yandex Crowd Solutions

Эффект каскада: точное попадание по цене/качеству

Просто использовать все модели сразу — не наш метод. Чтобы обеспечить гибкую настройку качества и стоимости разметки, мы используем каскадный подход.
Простые и типовые задачи решают быстрые и дешёвые модели на первом этапе. То, с чем они не справились, передаём на следующий уровень — более мощным (и дорогим) нейросетям. И только самые сложные и неоднозначные случаи, где требуется человеческая логика и опыт, попадают к людям-разметчикам.
По сравнению с ручной разметкой каскадная более чем на 50% дешевле при том же уровне качества.
На некоторых задачах в каскад мы добавляем и другие технологии — Simulated Annotators и агент‑разметки. Как это происходит, на мастер-классе для участников AI Conf продемонстрировал наш архитектор краудсорсинговых решений (CSA) Олег Секачёв. Вместе с гостями конференции он запустил каскадную разметку на нашей краудсорсинговой платформе Яндекс Задания.
Узнайте подробнее, как происходит разметка данных в Яндекс Заданиях.
Поделиться
Кейсы и новости по теме

Как нейросети делают разметку проще и быстрее

Три истории, которые мы рассказали на Data Fest 2025

Как происходит разметка данных в Яндекс Заданиях

Показали на примерах с разными сценариями, от простых до сложных

Как GPT помогает обучать модели

Раскрыли, что ждать от разметки будущего и где брать качественные данные

Расскажите о задаче

Есть идея для совместного проекта? Нужна помощь в обучении ML-модели
или данные для бизнеса?
Мы готовы помочь!
Mon Oct 06 2025 15:35:34 GMT+0300 (Moscow Standard Time)