Перешли на AI‑first подход в разметке документов, и теперь для запуска проекта достаточно недели
В апреле провели митап по разметке данных Y&A LabelTalk в партнёрстве с крупным банком. На нём в кругу коллег из ИТ- и финтех-компаний разобрали актуальные практики. Например, как эффективно автоматизировать извлечение данных из документов. Об этом рассказал руководитель группы новых проектов Yandex Crowd Solutions Иван Бочаров.
Какие бывают подходы к автоматизации
В классическом подходе для оцифровки сложных документов (бухгалтерских счетов, актов, заказ‑нарядов) под каждый новый шаблон требуется обучать свою ML‑модель. Это долго, дорого и требует вовлечения команды разработчиков.
Поэтому мы в Yandex Crowd Solutions перешли на подход AI-first. Сначала с помощью технологий оптического распознавания символов (OCR) извлекаем из скана или фото весь «сырой» массив текста. Затем в дело вступают мультимодальные визуально-языковые модели (VLM), способные обрабатывать и текст, и само изображение
Нейросеть отлично понимает семантику текста, поэтому ей неважно, в каком углу листа находятся ИНН или фамилия клиента — она найдет нужные атрибуты даже в документах с плавающей структурой.
Как повысили качество автоматизации
Чтобы связка технологий работала с максимальной точностью, использовали два решения.
- Прокачали базовый OCR: теперь он отдает извлеченный текст в Markdown-разметке. Это позволяет сохранить архитектуру сложных таблиц и ячеек, давая VLM чёткие ориентиры при поиске данных.
- Применили дообучение (fine-tuning) базовых моделей под специфику конкретного документооборота.
Это улучшило точность распознавания с 70,4% до 94,6%.
Что дал переход на AI‑first
Главный бизнес-результат трансформации — ускорение Time‑to‑Market. Теперь запуск нового проекта оцифровки занимает всего одну неделю. Для этого больше не нужны ML‑инженеры: архитекторы краудсорсинговых решений (CSA) сами составляют промпты, прогоняют тестовые примеры и согласовывают качество с заказчиком.
Два варианта пайплайна
В зависимости от задач заказчика, а также от юридических и регуляторных рисков мы выбираем из двух готовых пайплайнов.
- Для строгих бухгалтерских бумаг VLM выполняет лишь предразметку. Далее 100% документов проверяют люди.
- Для менее критичных задач настраиваем потоковую генерацию с выборочным контролем качества.
Пример, как это работает
Этот конвейер уже успешно решает продуктовые задачи. Например, извлекает данные из тысяч заказ‑нарядов от автосервисов, чтобы перевести данные в удобный для обработки цифровой формат.
Узнайте больше о том, как мы в Yandex Crowd Solutions объединяем возможности современных VLM-моделей и экспертизу людей, чтобы вы получали чистые данные в кратчайшие сроки.
Вернуться к новостям
Поделиться
Кейсы и новости по теме
-
LLM + Краудсорсинг: секреты эффективной разметки данных
Вебинар Yandex Crowd Solutions и Yandex Cloud
20 ноября 2025
Главный барьер на пути к эффективному AI
Показали на примерах, как его преодолеть
6 мая 2025
Как научить модель исправлять ошибки
Собрали датасет из 5000 текстов и разметили в них погрешности для YandexGPT