Команда Yandex Crowd Solutions нон‑стоп размечает данные для развития автономного транспорта Яндекса
Проект предусматривает задачи разного типа — от распознавания объектов на видео до разметки лидарных облаков в трёхмерном пространстве.
1K+
исполнителей обучили и привлекли к проекту
в 3,5 раза
снизили стоимость разметки дорожной обстановки благодаря ML‑модели
10K+
километров наката автомобилей размечаем каждый день
10K+
километров наката автомобилей размечаем каждый день
1K+
исполнителей обучили и привлекли к проекту
в 3,5 раза
снизили стоимость разметки дорожной обстановки благодаря ML‑модели
Как создают и обучают автономный транспорт
С 2017 года Яндекс создаёт и оттачивает технологию автопилота для машин. Компания хочет таким образом сделать дорожный трафик более безопасным и эффективным. В перспективе автономный транспорт должен стать основой флота такси и каршеринга. А пока нужно довести решение до совершенства.
Автономный транспорт Яндекса отличается от обычных машин прежде всего оснащением. У него есть:
- Видеокамеры для компьютерного зрения — позволяют распознавать дорожную разметку, знаки, светофоры, других участников движения
- Сенсоры (радары, лидары) — определяют положение и скорость окружающих объектов, строят точную 3D‑модель окружения с помощью лазерных лучей
- Высокоточные GPS‑ / ГЛОНАСС‑модули — определяют точные координаты автомобиля
- Бортовой компьютер с системой искусственного интеллекта — анализирует гигантский поток данных от всех датчиков в реальном времени и принимает решения о траектории движения, скорости, манёврах
Процесс обучения автономного транспорта упрощённо выглядит так:
- Во время тестовых поездок с водителем автомобиль непрерывно записывает данные со всех своих датчиков.
- Эти данные, собранные с более чем сотни таких машин, используют для обучения нейронных сетей. Искусственный интеллект бортовой системы с их помощью учится распознавать объекты вокруг себя, анализировать дорожную ситуацию, предсказывать развитие событий и принимать оптимальные решения.
- После обучения модели тестируют на отдельном наборе данных для оценки их точности и эффективности. Испытания проходят и на симуляторе, и на реальных дорогах под контролем опытных водителей.
- Цикл повторяется — с каждой итерацией автомобиль становится умнее и увереннее справляется со сложными ситуациями.
Зачем автономному транспорту разметка данных
Качественно размеченные данные нужны сразу на нескольких этапах обучения. Например, нужно показать модели, где на видео машины, знаки, пешеходы и другие объекты, — чтобы она правильно их узнавала. Это называется разметкой восприятия.
Есть ещё разметки для обучения и тестирования планера. Это система, которая отвечает за планирование траектории движения автомобиля. Планеру нужно показывать записи реальных проездов и объяснять, какие манёвры выполнял водитель, какие задачи он решал и в каких условиях. «Объяснением» для машины служит именно разметка. А ещё она помогает заранее обнаружить неудачные решения и ошибки водителей, чтобы эти фрагменты не попали в датасет для обучения моделей.
Наконец, кто‑то должен оценивать то, какие решения принимает планер. Если траектория планера сильно отличается от траектории водителя, это может указывать на ошибки или недостатки в алгоритмах.
На разметку одного часа поездки могут уйти десятки или даже сотни часов работы людей. Поэтому команда автономного транспорта Яндекса обратилась к нам в Yandex Crowd Solutions. Ведь у нас есть ресурсы для такой масштабной задачи.
Как мы размечаем данные
Команда разработки автономного транспорта Яндекса много лет самостоятельно запускает разметки через краудсорсинговую платформу Yandex Crowd Solutions — Яндекс Задания. Тысячи пользователей платформы анализируют снимки или видеозаписи с автономных автомобилей и отмечают на изображениях препятствия и светофоры, определяют дорожные знаки, сопоставляют снимки с разных камер.
Пример другой задачи на разметку восприятия: создать для каждого объекта на изображении «коробку» (параллелепипед), добавить туда точки и указать, что находится внутри.
Разметку самых сложных и ответственных заданий с конца 2024 года в Yandex Crowd Solutions организуют силами квалифицированных разметчиков через внутреннюю платформу компании.
Например, исполнители размечают 10‑минутые сцены реальных проездов автомобилей с человеком за рулём. Также они видят 3D‑сцену, которая строится по сенсорам автомобиля (отрисовка выполняется командой разработки заказчика). На видео разметчики отмечают действия водителя (пропуск пешеходов, перестроение и т. п.), начало и конец манёвра. Это нужно для обучения планера.
Они также отсматривают симуляцию проезда автомобиля от планера и оценивают, насколько предложенная моделью траектория движения соответствует ПДД и отвечает соображениям безопасности.
Здесь же исполнители сравнивают вариант планера с тем, как этот же отрезок проехал реальный водитель. Если их траектории расходятся, разметчики выбирают, чьё решение было более удачным.
Качество разметки контролируем с помощью ханипотов — заданий с заранее известным ответом. Их цель — проверить внимательность и точность разметчиков.
Проект в цифрах
Команду из 1000+ квалифицированных разметчиков набрали и обучили за три месяца. Это позволило оперативно удовлетворить растущие потребности Яндекса в размеченных данных.
Теперь мы обрабатываем:
по 30 000
трёхмерных дорожных сцен для обучения моделей компьютерного зрения в месяц
по 10 000 км
реальных проездов автомобилей в день
Как мы оптимизировали стоимость разметки
Разметку видео с классификацией дорожной инфраструктуры (полосы, наличие ремонтных работ, проблемы с проездом и т. д.) мы делаем с помощью автоматизации. Видео делится на кадры, которые затем анализирует мультимодальная модель. Разметку нейросети обязательно валидируют исполнители.
Такая схема позволяет без потери качества сделать разметку в 3,5 раза быстрее по сравнению с ручным способом. Это ускорение экономит заказчику в среднем 470 000 рублей в месяц. Yandex Crowd Solutions заинтересован в оптимизации разметки, чтобы снизить затраты, повысить качество и сократить сроки.
Вернуться к новостям
Поделиться
Кейсы и новости по теме
Как отслеживать работу тысяч партнёров удалённо
Проверяем для Яндекс Go, соответствует ли цвет автомобилей такси заявленному в приложении
Как научить модель исправлять ошибки
Собрали датасет из 5000 текстов и разметили в них погрешности для YandexGTP
Как улучшить рекомендательную систему на сайте
Помогли повысить качество выдачи вакансий на hh.ru