Размеченные данные от Yandex Crowd Solutions помогают улучшать генерацию в YandexART
14М+
изображений разметили
3800+
исполнителей участвовали в разметке
5 версий
YandexART помогли подготовить
Для чего YandexART необходима разметка
YandexART — нейросеть, которая генерирует изображения и видео по текстовому описанию пользователей. Её можно попробовать в чате с Алисой, Шедевруме, Яндекс Директе для генерации рекламного креатива и на Яндекс Маркете при создании интерьеров для товаров. Повышение качества генерации требует разметки большого массива данных: для обучения нейросети используются примеры изображений, оценённых людьми.
Yandex Crowd Solutions работают с YandexART с 2023 года — с момента создания нейросети. Команда YandexART обучает несколько версий нейросети, каждая из которых по‑разному генерирует изображения и надписи. Чтобы понять, какая из моделей лучше справляется с задачами, требуется сравнивать качество создаваемых ими картинок.
Наши задачи
- Регулярная разметка пар изображений, сгенерированных разными моделями, по заданным параметрам
- Разработка и внедрение новых параметров сравнения изображений для повышения качества генерации
Почему для проекта выбрали Yandex Crowd Solutions
- Для дообучения YandexART новые данные нужны регулярно. Так, при подготовке версии YandexART 2.0 мы разметили 4,5 млн пар изображений, для YandexART 2.5 — более 2,3 млн пар. Возможности Yandex Crowd Solutions позволяют оперативно решать объёмные задачи по разметке. С нами работают более 160 тысяч верифицированных и квалифицированных исполнителей.
- 20 лет опыта и исследований помогают нам осуществлять сбор, разметку и анализ данных, которые используются при обучении ML‑моделей, под ключ и для самых разных отраслей. Мы работаем в 15+ индустриях.
Процесс разметки для YandexART: решения под ключ
При подготовке каждой следующей версии YandexART процесс разметки меняется с учётом новых потребностей разработки, однако в целом он выглядит так:
- Отбор исполнителей под проект: процесс, как и дальнейшая разметка, организован через внутреннюю платформу Yandex Crowd Solutions. Специалисты по разметке проходят обучение и выполняют контрольное задание, на основе которого вычисляется их навык и качество работы. Исполнители, чьи показатели проходят необходимый порог, допускаются к реальным заданиям разметки.
- Обновление инструкций и шаблонов заданий для исполнителей в соответствии с новыми задачами от команды разработчиков YandexART.
- Непосредственно разметка изображений. На экране исполнитель видит две картинки, созданные разными моделями нейросети YandexART по одному запросу (промту), и оценивает, какая картинка в паре лучше (или они одинаковы) по указанным параметрам. Например, по эстетичности, наличию или отсутствию ошибок.
- Контроль качества разметки. Чтобы исключить субъективность оценок разметчиков и минимизировать вероятность ошибки, мы используем:
- «Перекрытие» — при разметке одно и то же задание делают несколько человек (например, три разметчика сравнивают одну пару изображений: если два исполнителя ответили одинаково, а третий — иначе, выбирается совпадающий ответ от двух разметчиков).
- Ханипоты — проверочные задания, выпадающие разметчикам случайным образом.
В ходе проекта YandexART мы также занимаемся сбором датасетов из текстовых запросов к нейросети. На этих запросах потом замеряется качество работы моделей. Такие датасеты позволяют проверить конкретный навык модели нейросети: генерацию текста, изображений людей, животных, предметов.
Результаты: помогли подготовить 5 версий YandexART и улучшить генерацию
С момента запуска разметки для YandexART команда Yandex Crowd Solutions разметила более 14 млн изображений и помогла подготовить к выходу 5 версий нейросети, от v. 0 до v. 2.7. В разметке были заняты около 3800 исполнителей.
Версии YandexART 2.5 и YandexART 2.5 Pro помогают пользователям создавать более качественные изображения по сложным запросам, могут сами выбирать стиль под конкретную задачу и стали лучше генерировать надписи на латинице. Они также чётче следуют инструкциям в промтах и создают изображения по множеству параметров — в запросе можно указать число предметов, их форму, цвет, размер и другие характеристики.
В целом, по результатам внутренних измерений, YandexART 2.5 стала лучше предыдущей версии, а по эстетике и уровню детализации показала более высокие результаты, чем актуальные версии других популярных нейросетей.
YandexART помогает решать прикладные задачи, например, разработать дизайн кухни.
Как преодолеть субъективность в оценке красоты: пример разметки для YandexART 2.5
Одна из задач Yandex Crowd Solutions при подготовке версии YandexART 2.5 — предоставить нейросети больше качественных примеров того, что нравится человеку, с учётом разных вкусов людей и субъективности восприятия красоты. При разметке мы сделали три очередных шага в этом направлении:
- Добавление новых параметров оценки изображений. Ранее при разметке исполнители сравнивали качество генерации картинок по четырём параметрам: релевантности, эстетичности, дефектности, комплексности. Мы добавили пятый параметр — предпочтение. В заданиях без инструкции разметчикам с высокими показателями качества работы предлагалось выбрать ту картинку, которая им больше нравится, и написать почему.
- Обновление заданий для разметчиков. После выхода каждой версии YandexART мы анализируем нюансы прошлой разметки и вносим изменения в задания для исполнителей, чтобы повысить качество обработки данных. Так, при подготовке версии YandexART 2.5 в параметр эстетичности добавили вопрос о красоте: теперь мы спрашиваем, гармоничные ли на изображении цвета, красивая ли композиция. Это помогло подготовить для обучения нейросети больше примеров изображений, которые нравятся человеку.
- Внедрение апелляции. Чтобы преодолеть субъективность постпроверки ответов исполнителей, мы добавили возможность апелляции для разметчиков. Так они могут обосновать свой ответ в заданиях. Это ещё один шаг к повышению качества примеров для обучения нейросети.
Сейчас мы продолжаем сотрудничество с командой YandexART по разметке данных для обучения следующей версии нейросети.
Если вам необходимо улучшить работу сервисов и приложений, функционирующих на базе нейросетей, мы поможем подготовить данные для обучения ML‑моделей. Ресурсы и опыт Yandex Crowd Solutions помогают решать разовые задачи по разметке данных и комплексно работать над длительными проектами. Свяжитесь с нами, и мы обсудим удобный формат сотрудничества.
Вернуться к новостям
Поделиться
Кейсы и новости по теме
Учим автомобили Яндекса ездить без водителя
Разметили данные, чтобы сделать автономный транспорт безопаснее
Как отслеживать работу тысяч партнёров удалённо
Проверяем для Яндекс Go, соответствует ли цвет такси заявленному в приложении
Как научить модель исправлять ошибки
Собрали датасет из 5000 текстов и разметили в них погрешности для YandexGPT