Эксперты Yandex Crowd Solutions с 2024 года помогают готовить специалистов по Data Science и ML в Школе анализа данных
Школа анализа данных (ШАД) Яндекса — бесплатная двухгодичная программа для студентов и разработчиков, которые хотят стать ведущими специалистами в области Data Science и Machine Learning, а также проектировщиками и разработчиками распределённых систем обработки данных
В ШАД более 50 курсов. В 2024 году появился ещё один — это курс по разметке данных от Yandex Crowd Solutions, базирующийся на реальных кейсах из нашей практики. Он входит в программу обучения для ML‑разработчика и аналитика данных. Студенты изучают технологии разметки, которые помогают бизнесу повышать качество, скорость обработки данных и снижать затраты.
О Школе анализа данных
С 2007 года ШАД подготовила для индустрии и науки 2000 специалистов. Лекции и семинары в Школе проводят сотрудники Яндекса, преподаватели вузов, авторитетные специалисты индустрии, исследователи. Очные занятия проходят в Москве. Студенты других городов общаются и работают над проектами в коворкингах. Четыре из них открыты в России (Нижний Новгород, Новосибирск, Екатеринбург, Санкт-Петербург) и один в Минске. ШАД также предоставляет возможность учиться и сдавать домашние задания удалённо (заочное обучение). За два года учащийся должен успешно пройти как минимум три курса, после чего может получить диплом о профессиональной переподготовке.
Выпускники востребованы в разных областях бизнеса: электронная коммерция, реклама, стриминговые сервисы, образование, финтех, фудтех. Каждый четвёртый выпускник занимается наукой, а каждый шестой через некоторое время начинает собственный бизнес или стартап, согласно результатам внутреннего исследования Яндекса. Курсы Школы легли в основу совместных программ Яндекса с ВШЭ, МФТИ, ННГУ, УрФУ и др.
В ноябре 2023 года ШАД обратилась в Yandex Crowd Solutions с просьбой разработать курс по разметке данных. Он рассказывает, как получать качественные данные для обучения нейросетей и ML — технологий, на базе которых сегодня работает множество сервисов и приложений.
Эксперты Yandex Crowd Solutions подготовили актуальные теоретические и практические материалы по разметке данных. Затем собрали команду для проведения занятий в ШАД — в её состав вошли опытные специалисты. С учётом дальнейшей методической работы подготовка заняла несколько месяцев.
Особенности курса: актуальные знания и практика на реальных кейсах
В апреле 2024 года мы запустили курс по разметке в ШАД. Первый поток состоял из шести лекций и шести семинаров. Занятия проходили как онлайн, так и офлайн.
На занятиях представители Yandex Crowd Solutions делятся экспертизой: как собирать данные для машинного обучения, в том числе с помощью краудсорсинга (через платформу Яндекс Задания). В целом курс посвящён техническим тематикам, однако в программу встроены и задания на проработку менеджерских навыков. Они пригодятся при взаимодействии с исполнителями разметки, коллегами и заказчиками.
Практическая часть курса учит студентов решать задачи на примере реальных кейсов от сервисов Яндекса: Алисы, Переводчика, команды автономного транспорта и др.
Разбор реальных кейсов позволяет ознакомить студентов со спецификой разметки разных типов данных и на практике показать, как она помогает улучшить работу сервисов. Например, чтобы Алиса научилась говорить шёпотом, нужно сначала рассказать нейросети, лежащей в её основе, что такое шёпот, — для этого тоже требуется разметка данных. Кстати, аналитики от Алисы сами поучаствовали в курсе и рассказали об особенностях разметки для обучения голосового помощника. Если речь об автономном транспорте, то чтобы, например, робот‑доставщик понимал — на пути лежит снег, сначала его нейросети нужно «скормить» множество похожих изображений и разметить на них снег»
Дмитрий Пименов
Руководитель службы разметки данных в Yandex Crowd Solutions
Студенты выполняли не только индивидуальные домашние задания, но и групповой проект по обучению ML. На курсе они работают непосредственно в Яндекс Заданиях, взаимодействуют с реальными исполнителями и распоряжаются выделенными нами реальными бюджетами.
Мы организовали поддержку студентов по задачам. Для проверки заданий привлекли помощников. Финальные домашние задания защищаются с участием архитекторов краудсорсинговых решений Yandex Crowd Solutions.
Итоги двух потоков курса
Обучение на двух потоках курса в 2024 году (весной и осенью) прошли 176 студентов. Из них по итогам курса «отлично» получили 49 человек, «хорошо» — 56 человек.
К запуску второго потока осенью 2024 года мы расширили курс до семи лекций и семи семинаров: добавили теорию и практику по автоматизации разметки с помощью ML/GPT-инструментов и показали, как можно использовать гибридные варианты — и краудсорсинг, и ML.
Планируется, что курс в ШАД станет регулярным: осенью 2025 года пройдёт третий поток. Программа лекций и семинаров расширится, преподавателей станет больше, вырастет процент практических занятий. Учитывая рост доли ML-разметки, эксперты Yandex Crowd Solutions обновляют программу: студенты узнают, как разметка с помощью GPT и автоматики повышает качество подготовки данных и снижает её стоимость.
Также в 2024 году наша команда адаптировала и провела курс по разметке специально для студентов Высшей школы экономики.
Вернуться к новостям
Поделиться
Кейсы и новости по теме
Учим автомобили Яндекса ездить без водителя
Разметили данные, чтобы сделать автономный транспорт безопаснее
Как улучшить рекомендательную систему на сайте
Помогли повысить качество выдачи вакансий на hh.ru
Как отслеживать работу тысяч партнёров удалённо
Проверяем для Яндекс Go, соответствует ли цвет автомобилей такси заявленному в приложении