Чтобы получить эффективную и точную разметку, нужно совместить труд людей и сразу нескольких моделей разного уровня. Мы придумали, как это сделать оптимально: взяли лучшее от каждого метода и выстроили каскадный процесс. Как работает этот умный конвейер, на AI Conf 2025 показал наш руководитель направления проектов разметки данных Герман Ганус.
От LLM к целому «зоопарку» моделей
На прошлом AI Conf Герман уже рассказывал, как LLM (Large Language Model) помогает размечать данные. В 2024 году мы использовали эти модели для машинной предразметки или для формулировки саджестов — гипотез о финальном результате.
В 2025 году мы добавили в разметку новые AI-технологии. Одна из них — RAG (Retrieval Augmented Generation). Это технология, при которой модель генерирует ответ с учётом дополнительной информации, которую сама нашла.
Допустим, нам нужно заполнить карточки товаров в интернет-магазине: так они становятся заметнее в поиске, и пользователи быстрее находят товары. Это задача для разметки. RAG-система сама находит в поиске Яндекса нужные атрибуты товара для карточек, тем самым ускоряя процесс.
Иногда нужные данные содержатся не в тексте, а на картинке. Тогда в дело вступает VLM (Visual Language Model) — языковая модель, которая умеет принимать на вход изображения для обработки вместе с промптом.
С хорошим качеством можно использовать целый «зоопарк» для разметки: LLM, VLM, RAG. Используем все методы и не боимся экспериментировать. Но модели всё равно не дают 100% качества, в самых ответственных проектах мы отдаём сложные случаи для разметки людьми‑экспертами»
Герман Ганус
Руководитель направления внешних проектов разметки данных Yandex Crowd Solutions
Эффект каскада: точное попадание по цене/качеству
Просто использовать все модели сразу — не наш метод. Чтобы обеспечить гибкую настройку качества и стоимости разметки, мы используем каскадный подход.
Простые и типовые задачи решают быстрые и дешёвые модели на первом этапе. То, с чем они не справились, передаём на следующий уровень — более мощным (и дорогим) нейросетям. И только самые сложные и неоднозначные случаи, где требуется человеческая логика и опыт, попадают к людям-разметчикам.
По сравнению с ручной разметкой каскадная более чем на 50% дешевле при том же уровне качества.
На некоторых задачах в каскад мы добавляем и другие технологии — Simulated Annotators и агент‑разметки. Как это происходит, на мастер-классе для участников AI Conf продемонстрировал наш архитектор краудсорсинговых решений (CSA) Олег Секачёв. Вместе с гостями конференции он запустил каскадную разметку на нашей краудсорсинговой платформе Яндекс Задания.
Узнайте подробнее, как происходит разметка данных в Яндекс Заданиях.
Вернуться к новостям
Поделиться
Кейсы и новости по теме
Как нейросети делают разметку проще и быстрее
Три истории, которые мы рассказали на Data Fest 2025
Как происходит разметка данных в Яндекс Заданиях
Показали на примерах с разными сценариями, от простых до сложных
Как GPT помогает обучать модели
Раскрыли, что ждать от разметки будущего и где брать качественные данные