Команда Yandex Crowd Solutions ежедневно сопоставляет для Яндекс Маркета сотни тысяч пар товаров, чтобы выявить дублирующиеся карточки
98%
точность определения пар
100–300K
пар товаров Яндекс Маркета проверяем ежедневно
1M
пар карточек в день — максимальный продовый поток
Зачем Яндекс Маркету матчинг товаров
Яндекс Маркет — один из крупнейших маркетплейсов в России. Число активных покупателей платформы — 18,2 млн человек, активных продавцов — 96,3 тысячи (по данным Яндекс Маркета за март 2025 года).
Чтобы покупатель быстрее находил на Маркете нужный товар, нужен матчинг — сопоставление пар товаров по параметрам. Такое сравнение позволяет определить идентичные товары. Затем их можно объединить в одну карточку, чтобы в поисковой выдаче маркетплейса не было большого количества дублей. Ассортимент Яндекс Маркета постоянно обновляется, и, чтобы выявить одинаковые товары у разных продавцов, матчинг необходим регулярно.
Yandex Crowd Solutions оказывает услугу матчинга для Яндекс Маркета с осени 2023 года.
Матчинг проходит в два этапа:
1-й этап — данные о товарах обрабатывают ML-модели Яндекса, которые генерируют гипотезы о потенциальных парах. В части данных автоматика показывает точный результат, что проверяется при контроле качества. Остальные данные отправляются на ручную проверку.
2-й этап — ручная проверка исполнителями: на проверку попадают миллионы потенциальных пар, по которым модели не преодолевают необходимый порог в уверенности ответа.
Yandex Crowd Solutions может выполнять подобную работу под ключ, взяв на себя оба этапа проверки. В случае с Яндекс Маркетом наша задача — этап ручной обработки данных (хотя и в нём мы дополнительно смогли автоматизировать проверки для порядка 30% потока).
Для ручной проверки мы выстроили масштабируемую систему через краудсорсинговую платформу Яндекс Задания.
Как проходит ручная проверка: точные решения независимо от категории товаров
В процессе ручной обработки мы проверяем гипотезы, сгенерированные ML‑моделями Яндекса, чтобы выяснять, действительно ли предполагаемая пара является парой. ML‑модели могут сработать некорректно, например из‑за того, что параметры в описании товара указаны ошибочно или их недостаточно. В то же время, генерируя гипотезу, модель может сказать, что уверенность в этой гипотетической паре низкая.
Пошаговый процесс проверки строится с учётом этих нюансов и специфики категорий товаров.
Шаг 1. Разработали параметры
Задача исполнителей, которые работают на платформе Яндекс Задания, — сравнить карточки товаров Яндекс Маркета по параметрам и фото, чтобы «склеить» истинные пары в единый товар. Параметры поиска реальных пар отличаются и зависят от категории товара: например, одежда и обувь могут иметь одни характеристики сопоставления, тогда как электроника — совсем другие.
Для получения более точных результатов наши эксперты разработали варианты параметров для каждой категории товаров Яндекс Маркета.
Влияние ключевых параметров на матчинг
Одна и та же модель телефона имеет разные цветовые характеристики:
- iPhone 15 128 Gb Black
- iPhone 15 128 Gb Pink
Если цвет не является ключевым параметром сравнения, смартфоны можно определить как истинную пару.
Если цвет для заказчика служит ключевым параметром, эта же пара может считаться ложной.
Что именно является ключевым параметром для разных категорий товаров, на старте обсуждается с заказчиком.
Шаг 2. Создали инструкции для точных результатов
Задание исполнителя может содержать вариант с одеждой всего с несколькими параметрами сопоставления или технику со множеством характеристик — в любом случае точность и полнота сравнения должны быть высокими.
Для повышения точности мы:
- подготовили универсальную инструкцию, чтобы смена категории товара и количество параметров не путали исполнителей и не влияли на качество матчинга;
- добавили в инструкции примеры по конкретным категориям товаров, чтобы исполнителям было удобнее ориентироваться.
Шаг 3. Измерили и проконтролировали качество сравнения
Для контроля качества матчинга на подобных проектах мы используем такие метрики, как точность и полнота. Из всего потока заданий определённый процент отправляется на проверку исполнителям с высоким навыком. Они дают свой вердикт и по тем товарам, которые определились как пара, и по тем, которые парами не являются. Метрики качества рассчитываются на основе сравнения их вердиктов с решениями исполнителей в общем потоке заданий.
Среди других инструментов контроля качества:
- перекрытия, когда одни и те же задания делают несколько исполнителей, чтобы избежать случайных ошибок;
- ханипоты — проверочные контрольные задания, которые добавляются в общий поток заданий для исполнителей.
Результаты: проверяем до 300 тысяч пар товаров ежедневно с точностью до 98%
Мы выстроили для Яндекс Маркета масштабируемую систему проверки товаров через платформу Яндекс Задания. Краудсорсинговые технологии дают нам возможность проверять 100–300 тысяч пар товаров ежедневно с точностью до 98%. В пиковый период количество пар карточек на ручной проверке достигало 1 млн в сутки.
Как мы нашли решения для сложных товаров
Часть товаров маркетплейса достаточно сопоставить по инструкции, чтобы выявить дубли. Но в некоторых категориях товаров определить истинность пары сложнее: например, есть одежда и обувь, которые на фотографиях выглядят почти одинаково, а по параметрам они разные (или наоборот, параметры совпадают, а выглядят вещи по‑разному).
Качественный матчинг для сложных категорий товаров мы обеспечили с помощью следующих решений:
- во-первых, привлекли исполнителей, которые ранее показали достойный уровень выполнения заданий в подобных проектах. Отбор самых внимательных исполнителей проходил через контрольные задания (ханипоты);
- во-вторых, мы дообучили исполнителей специально под требования матчинга для Яндекс Маркета.
Задействовали автоподсказки
В 2024 году мы также добавили в задания подсказки (саджесты) — они указывают исполнителям, на что обратить внимание при сопоставлении товаров. Например, саджест может показать, что у товаров, возможно, отличаются некоторые параметры. Подсказки позволяют увеличить точность и скорость матчинга.
Матчинг — итеративный процесс, позволяющий также дообучать на новых данных ML‑модели, генерирующие потенциальные пары товаров.
Если вам необходимо выстроить процесс матчинга, команда Yandex Crowd Solutions готова взять задачу под ключ с возможностью масштабирования под ваши потребности.
Вернуться к новостям
Поделиться
Кейсы и новости по теме
Как сделать карточку товара более продающей
Рассказали о четырёх проверенных способах, с которыми поможет краудсорсинг
Как улучшить рекомендательную систему на сайте
Помогли повысить качество выдачи вакансий на hh.ru
Как увеличить продажи в магазинах у дома
Вместе с «ЭвоКом» рассказали об эффекте uber‑мерчандайзинга