В Yandex Crowd Solutions разметили для hh.ru специфические данные
(резюме, вакансии врачей), определили долю нерелевантных рекомендаций и предоставили дополнительную аналитику для дообучения DSSM* и повышения точности выдачи на сайте.
*DSSM (deep semantic similarity model) — нейронная сеть, которая сопоставляет по смыслу тексты резюме и вакансий
107,4К
пар «резюме — вакансия» разметили
190
квалифицированных исполнителей обработали данные для дообучения нейросети
19%
нерелевантных рекомендаций выявили при разметке: это поможет hh.ru улучшить качество выдачи на сайте
Для чего hh.ru потребовалась разметка данных
hh.ru — крупнейший сайт по поиску работы в России, который объединяет более 80 млн резюме и 1,2 млн активных вакансий.
75% откликов внутри сервиса совершаются из рекомендательных подборок, что делает их релевантность важным аспектом привлекательности платформы для аудитории. Но пользователи hh.ru иногда указывали на нерелевантность предлагаемых вакансий их резюме, особенно в медицинском сегменте.
Команда hh.ru выяснила, что частичная нерелевантность может быть связана с качеством данных в обучающей выборке для DSSM, на которой базируются рекомендательные алгоритмы платформы. Пользователи не всегда откликаются на вакансии, релевантные их резюме, что негативно влияет на работу DSSM и точность рекомендаций.
Задачи
- Провести разметку пар «резюме — вакансия», чтобы вычислить долю нерелевантных рекомендаций (на примере вакансий для врачей)
- Найти результативные решения для разметки специфичных данных: резюме и вакансий из медицинской сферы
- Дополнить существующую обучающую выборку релевантными примерами для повышения эффективности работы DSSM
Почему hh.ru выбрал Yandex Crowd Solutions для разметки
В подобной ситуации у бизнеса есть несколько способов обработки данных для дообучения нейросети:
- создать собственную платформу, чтобы самостоятельно работать с данными (но часто у компаний нет для этого времени, ресурсов и экспертного опыта, как и возможности нанимать исполнителей для разметки)
- развернуть готовые технические решения на своей стороне (в этом случае свою платформу создавать нет необходимости, но понадобятся исполнители для разметки)
- отдать разметку платформе краудсорсинга, подписав с ней NDA
hh.ru решил обратиться в Yandex Crowd Solutions, поскольку наш опыт работы со специалистами по разметке, технические ресурсы для подготовки данных для обучения DSSM и политика в отношении персональных данных позволяют решить указанные задачи, минимизируя риски. В нашей базе — 160 тысяч верифицированных и квалифицированных исполнителей. 400+ клиентов доверяют нам свои данные, 80+ продуктов и сервисов Яндекса используют наши решения. В работе мы опираемся на 20-летний отраслевой опыт и научные исследования.
Многоэтапный контроль качества разметки и возможности для масштабирования проекта отвечали приоритетам hh.ru, как и комплексный подход: в Yandex Crowd Solutions мы смогли предоставить решение полного цикла — не только подбор квалифицированных исполнителей, тестовый запуск и разметку, но также аналитику размеченных данных и адаптацию решений под дальнейшие задачи.
Разметка данных для дообучения DSSM с настройкой под специфику проекта
Мы выполнили для hh.ru ручную разметку пар «резюме — вакансия», чтобы проанализировать, как исполнители оценивают релевантность рекомендательных алгоритмов сервиса.
Запуск проекта занял неделю. Затем 190 квалифицированных исполнителей, подписавших NDA, сделали разметку 107 384 пар «резюме — вакансия» (с учётом тестовых запусков и экспериментов с перекрытием). Чистое время разметки на внутренней платформе Yandex Crowd Solutions без учёта подготовки и анализа данных составило 60 часов.
Работа строилась поэтапно, что позволяло вносить корректировки для повышения качества разметки. При подготовке заданий для исполнителей требовалось учитывать специфику вакансий и резюме врачебной сферы. Инструкции корректировались так, чтобы разметчики, не обладавшие медицинскими знаниями, могли верно определить, релевантно ли конкретное резюме именно этой вакансии для врачей. Для этого использовались не только подробные разъяснения, но и примеры по вариантам ответов.
Этапы работы:
Разработка инструкции разметки для исполнителей
Подготовка шаблона обучающего задания с целью отбора разметчиков для допуска к заданию
Тестирование задания на небольшом числе пар «резюме — вакансия», предоставленных hh.ru, и последующая корректировка инструкции для исполнителей
Разметка всего пула данных
Для проверки качества разметки и согласованности ответов исполнителей использовалось тройное перекрытие (задания из пула размечали по три исполнителя, чтобы получить совпадающие вердикты и снизить вероятность ошибок).
Таким образом, на внутренней платформе Yandex Crowd Solutions исполнителям показывали медицинские резюме и вакансии и просили отдельно оценить релевантность названий, релевантность опыта и требований, образования и требований, а затем дать финальное решение.
Результаты
В ходе разметки оптимальные совпадения по всем полям в выбранном врачебном сегменте отмечены лишь в 50% случаев, а доля нерелевантных рекомендаций составила 19%.
В отчёте мы предоставили не только аналитику по каждой паре «резюме — вакансия», но также размеченные пары с оценкой уровня релевантности по названию вакансии, опыту, образованию, сертификатам. Опираясь на эти данные, DSSM может по-разному создавать итоговую рекомендацию для пользователей сервиса. Наши данные показали, что для этого важно сопоставлять не только заголовки вакансий с названиями должностей в резюме, но также описание вакансий и опыта работы соискателя.
Как мы контролируем качество разметки
Чтобы добиться высокого качества разметки, мы работаем последовательно, корректируя действия на каждом этапе. Сначала запускаем пробный пул заданий с перекрытием, чтобы внести корректировки. В частности, в проекте с hh.ru основные изменения были связаны с улучшением интерфейса задания для исполнителей. Например, мы добавили новые категории: в раздел «Опыт» включили пункт «Опыта больше, чем требуется», изначально такой категории не было.
Также для повышения качества разметки используем перекрытие и постпроверку экспертными исполнителями. Обычно это до десяти человек, которые перепроверяют определенную долю заданий. По их разметке мы можем понять, насколько хорошо была выполнена вся разметка в датасете»
Герман Ганус
Руководитель направления внешних проектов разметки данных Yandex Crowd Solutions
Особые требования к работе с данными
В проекте hh.ru нам предстояло разметить большой объем данных, и здесь, как и в случае с другими подобными проектами, конфиденциальность была обеспечена за счёт нескольких защитных мер:
- тексты резюме поступали от заказчика для разметки без привязки к конкретным пользователям сервиса hh.ru, то есть уже очищенными от персональных данных
- обеспечили защиту и безопасность данных при их разметке, в том числе заключив NDA c исполнителями, выполняющими проект на нашей внутренней платформе
На перспективу: где ещё эффективны подобные решения
Полученную в ходе разметки аналитику hh.ru планирует использовать для дообучения DSSM, улучшения алгоритма рекомендаций и расширения выборки вакансий. Готовое решение также подходит для работы с другими сегментами профессий. Сейчас наше сотрудничество с hh.ru продолжается в формате автоматической разметки резюме для оценки грейдов IT‑специалистов (джуниор, мидл или сеньор).
Но это лишь часть возможного применения подобных решений. Они результативны и масштабируемы для любых видов B2C-бизнеса с системами рекомендаций: e-com, онлайн-сервисы, агрегаторы (например, агрегаторы для туристов и автолюбителей, продажа недвижимости и др.).
Если вам необходимо улучшить работу сервисов и приложений, функционирующих на базе нейросетей, мы поможем обработать обучающие данные. Чтобы обсудить особенности ваших задач и варианты их решения, свяжитесь с нами в удобном формате.
Вернуться к клиентским кейсам
Поделиться
Кейсы и новости по теме
Как отслеживать работу тысяч партнёров удалённо
Проверяем для Яндекс Go, соответствует ли цвет автомобилей такси заявленному в приложении
Как научить модель исправлять ошибки
Собрали датасет из 5000 текстов и разметили в них погрешности для YandexGTP
Учим автомобили Яндекса ездить без водителя
Разметили данные, чтобы сделать автономный транспорт безопаснее