Разметка датасета: качество или экономия?

Цель

Разметить более 12 тысяч изображений для обучения нейронной сети и не выйти за рамки бюджета проекта.

Контекст:

Разметку данных не всегда можно передать на аутсорс, особенно если данные и критерии разметки меняются в ходе выполнения проекта. Для одного из таких заказов, где качество данных и ограничение бюджета играли ключевую роль, ML доработала универсальную платформу для разметки данных. Удобный и многофункциональный интерфейс по управлению командами лейблеров, а также финансовый «движок» с автоматическими расчётами коэффициентов и оплаты позволил в срок разметить более 12 000 изображений и остаться в рамках бюджета проекта.

Ключевые показатели

Виды работы с данными — более 20 (10 видов разметки и более 10 видов классификаций)

Количество изображений — более 12 000 единиц

Управление командой — реализовано без ограничения числа участников

Количество леблеров проекта - более 300

Финансовый блок – с алгоритмом учёта качества работы и скорингом

Бюджет на разметку - 600 000

Решение

Для создания приложения, оценивающего состояние кожи по изображению с камеры смартфона, необходимо было разметить большое количество фотографий с различными зонами разметки, а также типами кожи и разнообразием вариантов внешнего вида и состояния. Разметка данных необходима для обучения нейросетей. От качества разметки зависит работоспособность и успех приложения на рынке, а также точность прогнозов, которые даёт нейросеть. Так как речь идёт об оценке состояния кожи реальных пользователей, точность и безошибочность – важнейший показатель.

Для защиты данных заказчик пожелал реализовать весь цикл работ на одной платформе с одним подрядчиком, которым выступила команда Marketing Logic. В качестве платформы был выбран сервис MarkLab. Платформа изначально располагала всеми инструментами для разметки и работы лейблеров и менеджеров проекта. Основная задача и «боль» заказчика состояла в том, что бюджет был жёстко ограничен и оплачивать работу с огрехами или неточностями, что безусловно возникает при разметке таких объёмов данных, это значит – выйти за рамки бюджета.

Для того, чтобы исключить эту возможность мы специально для этого проекта разработали дополнительный финансово-скоринговый модуль, который помогает менеджерам оценивать качество работы каждого лейблера, выставляет скоринговый балл, а также позволяет настроить оплату за каждое изображение с учётом качества её выполнения: стоимость разметки каждого изображения прямо зависит от балла, выставленного системой за эту работу. Таким образом, бюджет, выделенный на разметку, был распределён на необходимое количество изображений и поделён на сегменты допустимого качества с градацией оплаты. Шаг повышения стоимости позволял не выйти за пределы бюджета и при этом обеспечить команду лейблеров мотивацией для повышения качества разметки.

Как это выглядит в интерфейсе заказчика? У всех лейблеров есть свои баллы и коэффициенты, которые корректируются по мере накопления статистики и зависят от уровня качества, аккуратности и скорости работы. Алгоритмы оценки работы, которые автоматически определяют процент выполненных задач, скорость выполнения работы, «смотрят» на аккуратность и точность, выставляют скоринговый балл. Исходя из этих показателей, а также установленного максимального уровня оплаты, происходит расчёт гонорара каждого лейблера. При накоплении установленной минимальной суммы лейблер может запросить её перевод на карту. Модуль проводит все расчёты сам, предоставляя менеджеру отчёт для проверки. Такая автоматизация на первом же проекте сэкономила нам и заказчику много времени и сил, т.к. команда включала более 300 человек, и рассчитывать вклад каждого вручную и переводить деньги было бы сложнее с точки зрения трудозатрат и операционной деятельности.

Менеджер проекта по каждому пользователю видит все отнесённые к нему объекты и их статус, видит весь датасет и «тепловую карту» разметки всего пула данных, чтобы быстро оценить степень готовности проекта и определить сложные или проблемные блоки данных или этапы работы. А изначально рассчитанная стоимость позволила остаться в рамках оговорённого бюджета.

Результат

Заказчик получил запрашиваемое качество работы и качественный материал для обучения «нейронки». Потратив дополнительные усилия на доработку, мы получили на выходе апгрейд платформы MarLab со скоринговым и финансовым модулем. Платформа позволяет в рамках своего контура комплексно вести проекты по разметке данных: формировать команды, управлять ими, загружать, сегментировать датасеты, распределять задачи, выгружать отчётность и датасеты на любом этапе, проводить все финансовые начисления и расчёты.

CV - компьютерное зрение