Эксперт Yandex Crowd Solutions рассказала, как эффективно размечать данные в эпоху нейросетей
К 2030 году рынок AI и работы с данными удвоится и составит 855 млрд рублей. Такой прогноз прозвучал на конференции Partner Conf’25 от Yandex B2B Tech. Однако за красивыми цифрами роста пока стоит жёсткая статистика: 95% AI-проектов в крупных компаниях не приводят к росту производительности. Наша Business Development Manager Анастасия Панина в своём выступлении объяснила, почему так происходит.
Компании часто инвестируют в архитектуру нейросетей, забывая, что 80% успеха внедрения — это качественные данные. Попытки полностью исключить человека и закрыть всё автоматикой проваливаются. Нейросеть, даже самая современная, не способна сама себя проверить и разметить данные так же качественно, как эксперт.
В Yandex Crowd Solutions мы используем подход RLHF (Reinforcement Learning from Human Feedback) — постоянное дообучение на основе человеческой обратной связи
Подробнее о подходе и о том, что объединяет успешные AI‑проекты, руководитель Yandex Crowd Solutions Евгений Загуменнов рассказывал на форуме «Технологии искусственного интеллекта 2025».
На Partner Conf Анастасия Панина показала на примере свежих кейсов, как этот подход работает на практике.
- Чтобы оцифровать закрытые музейные фонды и сделать их доступными для исследователей, мы применили гибридный подход. Визуальная нейросеть (VLM) создавала черновые описания экспонатов по фото, а профессиональные редакторы проверяли их фактологию. Такая синергия AI и человека позволила описать более 50 000 объектов всего за 2 недели — вручную на это ушли бы месяцы работы.
- Чтобы научить Нейробраузер исправлять ошибки и сохранять авторский стиль, мы подготовили 5000 эталонных текстов для старта и провели 15 итераций дообучения, в которых ежемесячно участвовали более 500 человек. В результате нейросеть достигла показателя качества 96,6% и стала основой для Нейроредактора в Браузере. Подробнее рассказали о проекте в статье.
- Чтобы пользователи HeadHunter получали более точные рекомендации вакансий, нам нужно было очистить обучающую выборку от «шума». Мы привлекли исполнителей для разметки 107 000 пар «резюме — вакансия» и организовали тройной контроль качества. Это позволило снизить долю нерелевантных рекомендаций для врачей на 3,5 п.п. и значительно улучшить работу модели. Узнайте больше о проекте.
Неважно, какую технологию вы внедряете: ML, GenAI или VLM. Вам понадобятся чистые данные. Yandex Crowd Solutions выступает партнёром, который берёт на себя весь цикл подготовки данных. Предлагаем решения как в формате «под ключ» (с нашей экспертностью), так и через платформу Яндекс Задания для самостоятельных экспериментов.
Готовы обсудить ваш проект? Свяжитесь с нами.
Вернуться к новостям
Поделиться
Кейсы и новости по теме
6 мая 2025
Как научить модель исправлять ошибки
Собрали датасет из 5000 текстов и разметили в них погрешности для YandexGPT
10 июня 2025
Как улучшить рекомендательную систему на сайте
Помогли повысить качество выдачи вакансий на hh.ru
18 сентября 2025
Что объединяет успешные AI‑проекты
Руководитель YCS назвал три главных компонента