Новости

Как подход AI-first ускорил сложные разметки

3 минуты
8 апреля 2025

Перешли на AI‑first подход в разметке документов, и теперь для запуска проекта достаточно недели

В апреле провели митап по разметке данных Y&A LabelTalk в партнёрстве с крупным банком. На нём в кругу коллег из ИТ- и финтех-компаний разобрали актуальные практики. Например, как эффективно автоматизировать извлечение данных из документов. Об этом рассказал руководитель группы новых проектов Yandex Crowd Solutions Иван Бочаров.

Какие бывают подходы к автоматизации

В классическом подходе для оцифровки сложных документов (бухгалтерских счетов, актов, заказ‑нарядов) под каждый новый шаблон требуется обучать свою ML‑модель. Это долго, дорого и требует вовлечения команды разработчиков.
Поэтому мы в Yandex Crowd Solutions перешли на подход AI-first. Сначала с помощью технологий оптического распознавания символов (OCR) извлекаем из скана или фото весь «сырой» массив текста. Затем в дело вступают мультимодальные визуально-языковые модели (VLM), способные обрабатывать и текст, и само изображение
Нейросеть отлично понимает семантику текста, поэтому ей неважно, в каком углу листа находятся ИНН или фамилия клиента — она найдет нужные атрибуты даже в документах с плавающей структурой.

Как повысили качество автоматизации

Чтобы связка технологий работала с максимальной точностью, использовали два решения.
  1. Прокачали базовый OCR: теперь он отдает извлеченный текст в Markdown-разметке. Это позволяет сохранить архитектуру сложных таблиц и ячеек, давая VLM чёткие ориентиры при поиске данных.
  2. Применили дообучение (fine-tuning) базовых моделей под специфику конкретного документооборота.
Это улучшило точность распознавания с 70,4% до 94,6%.

Что дал переход на AI‑first

Главный бизнес-результат трансформации — ускорение Time‑to‑Market. Теперь запуск нового проекта оцифровки занимает всего одну неделю. Для этого больше не нужны ML‑инженеры: архитекторы краудсорсинговых решений (CSA) сами составляют промпты, прогоняют тестовые примеры и согласовывают качество с заказчиком.

Два варианта пайплайна

В зависимости от задач заказчика, а также от юридических и регуляторных рисков мы выбираем из двух готовых пайплайнов.
  • Для строгих бухгалтерских бумаг VLM выполняет лишь предразметку. Далее 100% документов проверяют люди.
  • Для менее критичных задач настраиваем потоковую генерацию с выборочным контролем качества.

Пример, как это работает

Этот конвейер уже успешно решает продуктовые задачи. Например, извлекает данные из тысяч заказ‑нарядов от автосервисов, чтобы перевести данные в удобный для обработки цифровой формат.
Узнайте больше о том, как мы в Yandex Crowd Solutions объединяем возможности современных VLM-моделей и экспертизу людей, чтобы вы получали чистые данные в кратчайшие сроки.
Поделиться
Кейсы и новости по теме
-

LLM + Краудсорсинг: секреты эффективной разметки данных

Вебинар Yandex Crowd Solutions и Yandex Cloud
20 ноября 2025

Главный барьер на пути к эффективному AI

Показали на примерах, как его преодолеть
6 мая 2025

Как научить модель исправлять ошибки

Собрали датасет из 5000 текстов и разметили в них погрешности для YandexGPT

Расскажите о задаче

Есть идея для совместного проекта? Нужна помощь в обучении ML-модели
или данные для бизнеса?
Мы готовы помочь!