Shell: Оценка эффективности моделей машинного обучения, используемых в энергетическом секторе

Кейс от Shell.

Этот проект использует глубокое обучение для выполнения задач компьютерного зрения – семантическую сегментацию в специализированной области приложений. В проекте находилось около 15 моделей глубокого обучения (DL). Модели DL каскадно применяются к сгенерированным прогнозам, которые затем используются в ряде последующих задач для создания окончательного результата, который будет использоваться в задаче ручной интерпретации. Следовательно, обеспечение ИИ посредством оценки эффективности модели имеет решающее значение для обеспечения надежных и объяснимых результатов ИИ. Были разработаны и реализованы в конвейере вывода DL три типа тестов оценки модели:

Дополнительная информация о принципах регулирования искусственного интеллекта.

Регрессионные и интеграционные тесты образуют основу, обеспечивая интерпретируемость модели на основе набора тестовых данных. Во время разработки модели они предоставляют основу для интерпретации того, улучшается или ухудшается производительность модели в зависимости от данных и параметров обучения модели. На этапе развертывания модели эти тесты также обеспечивают раннее обнаружение отклонения концепции.

Статистические тесты больше предназначены для прогнозирования производительности модели с учетом статистики тестовых данных, что обеспечивает механизм обнаружения отклонения данных по мере развертывания моделей. Кроме того, они также дают представление о том, насколько устойчива производительность модели DL к статистическим изменениям тестовых данных.

Результаты этого метода обеспечения безопасности ИИ передаются разработчикам ИИ и владельцам продуктов для отслеживания потенциальных отклонений от ожидаемой производительности модели DL. Более того, если производительность отклоняется, эти группы могут принять соответствующие меры по смягчению последствий.

Кроме того, для пользователей и заинтересованных сторон бизнеса необходимо поддерживать высокую степень доверия к результатам моделей DL.

Разработчики ИИ несут ответственность за разработку и проведение оценочных тестов модели для повышения эффективности тестирования производительности. Владельцы продуктов несут ответственность за использование этих тестов в качестве первой линии защиты перед развертыванием новой модели. Команда проекта работает вместе над адаптацией тестов для устранения отклонений данных и концепций во время развертывания.

В этом проекте прогнозы моделей DL в конечном итоге генерируют входные данные для задачи ручной интерпретации. Эта задача сложна, требует много времени и усилий, поэтому крайне важно, чтобы отправная точка (в данном случае прогнозы модели DL) была высокого качества с точки зрения точности, охвата обнаружения и очень низкого уровня шума. Более того, результаты ручной интерпретации учитываются в процессе принятия высокоэффективных решений.

Таким образом, качество и надежность прогнозов модели DL имеют первостепенное значение. Наиболее важным показателем для оценки эффективности прогнозирования модели ML является контроль качества с участием человека. Однако, чтобы автоматизировать тестирование производительности и превратить его в первую линию защиты, был принят метод набора тестов для оценки модели. Контроль версий данных и создание неявных конвейеров экспериментов ML были главным образом направлены на обеспечение сквозного воспроизведения моделей (производительность данных, кода и модели) в пределах приемлемой погрешности.

Первая линия защиты: автоматизированное тестирование производительности DL для контроля качества.

Проверьте надежность модели и лучшую интерпретируемость производительности модели DL.

Подробное объяснение производительности модели DL для разработчиков ИИ и конечных пользователей.

Укрепите доверие к моделям и рабочим процессам DL среди сообщества пользователей.

Обеспечивает мониторинг модели путем создания механизма обнаружения отклонения концепции.

Перехватчики MLOps для включения CI-CD во время развертывания модели.

Большое количество моделей ДЛ с самыми разными задачами: обнаружение, классификация, шумоподавление.

Сложность и изменчивость проблем, решаемых с помощью DL, затрудняют разработку KPI.

Отсутствие высококачественных репрезентативных данных, которые можно было бы использовать для разработки оценки модели.

Отсутствие четких показателей/пороговых значений для разработки регрессионных, интеграционных и статистических тестов.

Отсутствие стабильной библиотеки оценки моделей.

Блог

Shell: Оценка эффективности моделей машинного обучения, используемых в энергетическом секторе