Новые технологии разметки позволяют быстрее и дешевле обрабатывать данные. Об этом руководитель службы разметки данных в Yandex Crowd Solutions Дмитрий Пименов рассказал на крупнейшей конференции для разработчиков высоконагруженных систем HighLoad++ 2024. В ходе дискуссии представители Яндекса, Сбера, ИВИ, Ozon, LLM Arena обсудили автоматизацию обработки данных, изменения в сфере краудсорсинга и вопросы использования синтетических датасетов.
Дмитрий Пименов обозначил, какие тренды в разметке уже сейчас помогают Yandex Crowd Solutions повышать скорость обработки данных для сервисов и приложений в десятки раз.
Дмитрий Пименов обозначил, какие тренды в разметке уже сейчас помогают Yandex Crowd Solutions повышать скорость обработки данных для сервисов и приложений в десятки раз.
Выросла потребность в разметке
Сегодня служба разметки Yandex Crowd Solutions собирает и размечает данные разных типов для сервисов Яндекса: изображения, аудио, видео, отзывы, рекламу. Готовые датасеты используются для обучения ML-моделей и нейросетей, что помогает развивать функциональность продуктов.
Если изначально в команде разметки работали около 300 внутренних разметчиков и несколько тысяч внешних, то сегодня задачи на собственной краудсорсинговой платформе выполняют до 160 тысяч верифицированных и квалифицированных исполнителей. Потребность в разметке растёт: ещё недавно разметчики обрабатывали около 100 млн заданий ежемесячно, а сегодня — уже свыше 300 млн.
Увеличилась доля ML‑разметки
Для быстрой обработки больших объёмов данных требуется автоматизация. Yandex Crowd Solutions активно задействует ML‑модели для разметки датасетов. По словам Дмитрия Пименова, это перспективно, однако полный переход на автоматику пока невозможен. Есть задачи, с которыми модели не справляются на должном уровне. Поэтому сегодня ML используются для предварительной обработки данных и решения простых вопросов.
Разметка становится экспертной
Возросла потребность в экспертной разметке, которая необходима в сфере медицины, науки и технических отраслях. В таком случае для обработки данных привлекаются эксперты, обладающие соответствующими глубокими знаниями.
Таким образом, краудсорсинг остаётся, меняются задачи разметчиков:
- валидировать разметку, проделанную автоматикой
- проводить экспертную разметку
Повысилась скорость разметки
Более активное внедрение автоматики позволяет ускорить разметку в разы. Это сокращает и расходы, поскольку потребность в ручных ресурсах снизилась. В части кейсов разметка ускорилась в десятки раз, добавил Дмитрий Пименов. Так, в Yandex Crowd Solutions срок разметки одних видов данных сократился с нескольких дней до нескольких часов, других — с 20 до 2 минут.
Стали чаще обучать ML на синтетических данных
Если изначально в отрасли настороженно относились к обучению нейросетей нейросетями, то теперь этот подход стали задействовать чаще. Вырос процент обучения ML-моделей и нейросетей на данных, которые служба разметки сама же и синтезирует.
Так, частично синтетические данные используются для обучения ML-моделей, применяемых для развития автономных автомобилей и роботов-доставщиков. Голосовых помощников также учат распознавать запросы на специально синтезированных данных. Однако и здесь для валидации результатов нужна проверка со стороны человека.
Новые технологии разметки Yandex Crowd Solutions помогают реализовать бизнес-решения быстрее, экономичнее и без необходимости найма исполнителей. Если вам необходимо оперативно проанализировать данные, получить доступ к платформе Яндекс Задания для разметки или вы ищете решение полного цикла, приходите обсудить проект.
Вернуться к новостям
Поделиться
Кейсы и новости по теме
Помогли повысить качество выдачи вакансий на hh.ru
Помогли повысить качество выдачи вакансий на hh.ru
Как отслеживать работу тысяч партнёров удалённо
Проверяем для Яндекс Go, соответствует ли цвет автомобилей такси заявленному в приложении
Учим автомобили Яндекса ездить без водителя
Разметили данные, чтобы сделать автономный транспорт безопаснее