Как оцифровать всю Россию: Big Data и прогнозное моделирование

Цель

На основе датасета обучить нейросети и настроить систему предиктивного анализа для прогнозирования возможных вспышек заболеваний в федеральном масштабе. Для этого настроить и внедрить модуль сканирования и распознавания документов, а также модуль анализа оцифрованных данных.

Контекст:

Marketing Logic участвует в разработке аналитического комплекса всероссийского мониторинга коллективного иммунитета против инфекций НИЦЭМ им. Н.Ф. Гамалеи Минздрава России. Комплекс позволяет хранить, собирать и обрабатывать большие объёмы информации о защищённости населения Российской Федерации от инфекционных заболеваний, в том числе готовить статистические отчёты и строить модели и прогнозы на основе предиктивной аналитики. Команда ML полностью выполняет техническую часть реализации проекта. Описание проекта содержит данные, разрешённые к публикации условиями NDA.

Ключевые показатели

Количество распознаваемых документов – более 40 млн.

Зона покрытия – вся Россия

Решение

Официально проект Минздрава России называется «Монитор-Био», это программно-аппаратный комплекс для обработки и геоинформационного статистического анализа данных общероссийского сероэпидемиологического мониторинга коллективного иммунитета инфекций. Если сказать проще, то это система мониторинга вспышек и распространения заболеваний, вызванных различными инфекциями, и способность их прогнозировать.

Основа проекта – это большие данные - миллионы анкет, собираемых по всей стране, а также учёт количества и плотности жителей, наличия дорог, инфраструктуры – вплоть до традиций и уклада тех или иных регионов. Для построения точных прогнозов, так же, как и в бизнесе, требуется максимально возможное количество данных, чтобы можно было выявить неочевидную зависимость от переменных.

Для нас наибольшей технической сложностью в этом проекте, которую предстояло преодолеть, стала точность распознавания анкет. Модуль Action.Docs уже был, мы применяли его для распознавания данных паспортов, полисов и русскоязычных рукописных текстов. Сложность проекта Минздрава была в том, что, кроме простых данных анкет, в документах присутствовали названия заболеваний и пометки врачей, сделанные на латыни. Алгоритм просто «не узнавал» слова или пытался подогнать их под похожие русские транслитерированные или английские слова. К счастью, это слишком очевидная ошибка, чтобы заметить её поздно – она была очень быстро исправлена, но валидацию и дополнительную проверку мы бросили всё же больше ресурсов, чем предполагали изначально. В остальном – это пример довольно гладкого хода работ и «беспроблемного» кейса: да, 40 миллионов документов обработать очень непросто, даже технически, но механика, алгоритмы мало отличаются от менее крупных проектов. В качестве небольшого отступления от темы: когда кто-то говорит, что проект небольшой, его удастся сделать в разы быстрее, это не повод поверить на слово. Зачастую времени требуется столько же или незначительно меньше.

Следующим этапом проекта создания «Монитор-Био» стала обработка данных. NDA позволяет нам только перечислить их основные виды: это данные о перенесённых заболеваниях, вакцинации, геоданные. Перечень инфекций и заболеваний содержит более 20 пунктов: от гриппа и ветряной оспы до туберкулёза, гепатитов, энцефалита и менингококковой инфекции. На всей совокупности данных (плюс информация, предоставленная другими ведомствами, а также собственная витрина данных Marketing Logic) мы в течение нескольких месяцев обучали нейросети, чтобы они в зависимости от различных переменных определяли предполагаемую скорость распространения инфекций в каждом регионе и городе страны.

Этот кейс во многом о том, как большие данные и их разнообразие помогают строить сложные прогнозы и спасать тысячи жизней. Его же можно показывать в качестве иллюстрации того, как важна «сопутствующая» информация. Например, уклад жизни (привычка обмениваться поцелуями при встрече), развитая сеть дорог, общественный транспорт, авиаперелёты ускоряют распространение инфекции. В бизнесе похожая история: на развитие сети, поведение клиентов, решение о покупке, эффективность сотрудников влияют тысячи факторов, и чем больше их проанализировано, тем выше точность прогноза или решения. Там, где условие не может быть представлено массивами данных, оно становится коэффициентом, также повышающим точность.

Результат

Обработка большого количества данных, их оцифровка и обогащение другими, неочевидными слоями информации позволила выстроить систему генерации прогнозов высокой точности. В качестве вывода мы предлагаем две полезные идеи: почти всегда использовать максимум данных и, во-вторых, не ограничивать систему в видах данных для анализа. В силу большой производительности ИИ видит гораздо больше взаимосвязей между ними, чем экспертиза человека.

CV - компьютерное зрение