Yandex Crowd Solutions

Перешли на AI‑first подход в разметке документов, и теперь для запуска проекта достаточно недели

В апреле провели митап по разметке данных Y&A LabelTalk в партнёрстве с крупным банком. На нём в кругу коллег из ИТ- и финтех-компаний разобрали актуальные практики. Например, как эффективно автоматизировать извлечение данных из документов. Об этом рассказал руководитель группы новых проектов Yandex Crowd Solutions Иван Бочаров.

Какие бывают подходы к автоматизации

В классическом подходе для оцифровки сложных документов (бухгалтерских счетов, актов, заказ‑нарядов) под каждый новый шаблон требуется обучать свою ML‑модель. Это долго, дорого и требует вовлечения команды разработчиков.

Поэтому мы в Yandex Crowd Solutions перешли на подход AI-first. Сначала с помощью технологий оптического распознавания символов (OCR) извлекаем из скана или фото весь «сырой» массив текста. Затем в дело вступают мультимодальные визуально-языковые модели (VLM), способные обрабатывать и текст, и само изображение

Нейросеть отлично понимает семантику текста, поэтому ей неважно, в каком углу листа находятся ИНН или фамилия клиента — она найдет нужные атрибуты даже в документах с плавающей структурой.

Как повысили качество автоматизации

Чтобы связка технологий работала с максимальной точностью, использовали два решения.

Прокачали базовый OCR: теперь он отдает извлеченный текст в Markdown-разметке. Это позволяет сохранить архитектуру сложных таблиц и ячеек, давая VLM чёткие ориентиры при поиске данных.
Применили дообучение (fine-tuning) базовых моделей под специфику конкретного документооборота.

Это улучшило точность распознавания с 70,4% до 94,6%.

Что дал переход на AI‑first

Главный бизнес-результат трансформации — ускорение Time‑to‑Market. Теперь запуск нового проекта оцифровки занимает всего одну неделю. Для этого больше не нужны ML‑инженеры: архитекторы краудсорсинговых решений (CSA) сами составляют промпты, прогоняют тестовые примеры и согласовывают качество с заказчиком.

Два варианта пайплайна

В зависимости от задач заказчика, а также от юридических и регуляторных рисков мы выбираем из двух готовых пайплайнов.

Для строгих бухгалтерских бумаг VLM выполняет лишь предразметку. Далее 100% документов проверяют люди.
Для менее критичных задач настраиваем потоковую генерацию с выборочным контролем качества.

Пример, как это работает

Этот конвейер уже успешно решает продуктовые задачи. Например, извлекает данные из тысяч заказ‑нарядов от автосервисов, чтобы перевести данные в удобный для обработки цифровой формат.

Узнайте больше о том, как мы в Yandex Crowd Solutions объединяем возможности современных VLM-моделей и экспертизу людей, чтобы вы получали чистые данные в кратчайшие сроки.

Вернуться к новостям

Кейсы и новости по теме