Рак кожи — один из самых распространенных типов рака: на него приходится более 40% от всех выявленных онкологических заболеваний. Рак кожи трудно диагностировать на начальных стадиях, потому что злокачественные формы пигментации можно спутать с доброкачественными, которые есть у всех людей, например с родинками. При этом ранняя диагностика крайне важна: выживаемость пациентов в этом случае составляет около 99%. Если же выявить заболевание на более поздних стадиях, когда злокачественный характер пигментации становится очевиден (появляется зуд, язвы или корочки, неоднородный темный цвет), выживаемость снижается до 27%.
В основном рак кожи диагностируют с помощью дерматоскопа — прибора, который позволяет подсветить потенциальное новообразование и рассмотреть его с десятикратным увеличением. Точность такого анализа составляет 65–75%. Для помощи врачам в ранней диагностике иногда применяются системы искусственного интеллекта: они сравнивают родинку, которую «видят» у пациента, с набором из десятков тысяч фотографий пигментных пятен из медицинских баз. Чаще всего для диагностики рака кожи используются сверточные нейросети, хотя они не всегда демонстрируют высокую точность. Отчасти проблема точности связана с тем, что не во всех базах данных изображения уже отмечены как злокачественные или доброкачественные, из-за чего данных для обучения алгоритма может быть недостаточно. Кроме того, фотографии не стандартизированы, что также уменьшает достоверность диагностики с помощью искусственного интеллекта.
Ученые из Северо-Кавказского Федерального университета (Ставрополь) проанализировали более 10 тысяч научных статей, выпущенных с 2019 по 2023 год, и выбрали 171 статью, где четко прописана методология диагностики рака по фотографиям пигментных пятен. Далее авторы распределили статьи на группы, в зависимости от того, какие алгоритмы искусственного интеллекта были использованы при диагностике. Всего было выделено пять групп: алгоритмы машинного обучения, сверточные нейросети, ансамбли нейронных сетей, мультимодальные нейросети и продвинутые интеллектуальные методы.
Для помощи врачам в ранней диагностике иногда применяются системы искусственного интеллекта: они сравнивают родинку, которую «видят» у пациента, с набором из десятков тысяч фотографий пигментных пятен из медицинских баз
Алгоритмы машинного обучения основаны на том, что программа «тренируется» распознавать опухоли на наборе снимков, где каждая фотография подписана человеком как изображающая злокачественное или доброкачественное новообразование, а затем ищет закономерности на новых фотографиях новообразований. Сверточные нейросети распознают изображения, разбивая их на слои, в которых можно затем менять контрастность, яркость, цветовую гамму без потери качества изображения. Ансамбли нейронных сетей — это сочетание нескольких моделей, которые обучаются отдельно разным операциям, а затем объединяются. Мультимодальные нейросети одновременно работают с разными типами данных (текст, цифры, фотографии), а продвинутые интеллектуальные методы основаны на других принципах обучения, например на преобразовании изображений в векторы.
Оказалось, что лишь в 7% работ ученые использовали мультиклассовые базы данных, в которые входили не только фотографии пигментных пятен, но и результаты биопсии (например, анализ крови на онкомаркеры, на общий белок, изучение формы клеток во взятом у пациента образце кожи). Авторы заключили, что для повышения точности диагностики база данных помимо этих признаков должна содержать информацию о пациенте: его возраст, пол, тип кожи и анатомическое расположение родинки. Эти данные есть не всегда, поскольку, несмотря на имеющиеся рекомендации по сбору биомаркеров рака, единых стандартов наборов данных пока не существует.
В 39% исследований алгоритм сравнивал фотографию с базой данных, в которой содержалось менее 1000 изображений, что в 10 раз меньше, чем нужно для качественной выборки. Поэтому, даже если точность диагностики рака у алгоритма в самом исследовании высокая, на практике, когда через алгоритм будут проходить данные сотен пациентов, возможно, точность будет ниже. Ученые также установили, что чаще всего для диагностики рака кожи — в 39% случаев — используются сверточные нейронные сети, тогда как анализ показал, что самая высокая точность — на 3% выше, чем у сверточных нейросетей — достигается алгоритмами с машинным обучением.
Авторы выяснили, что за последние пять лет средняя точность распознавания рака кожи у моделей, основанных на машинном обучении, увеличилась на 9,2%, достигнув 93%, а у ансамблевых только на 3%. При этом точность мультимодальных нейронных сетей упала на 9,7%, а сверточных нейросетей — на 1%. Исследователи также определили, что для работы алгоритмы искусственного интеллекта чаще всего (37% всех исследований на основе мультиклассовых баз) пользуются базой изображений HAM10000, в которой содержится 10 тысяч фотографий семи типов новообразований кожи у людей разных национальностей. Использование этой базы данных повышает среднюю точность диагностики с использованием искусственного интеллекта: так, за последние пять лет ее качество возросло на 6,9% — до 92,3% в среднем для разных алгоритмов.
«Подобные системы все еще несут в себе этическую и юридическую двусмысленность, а также проблему отсутствия большого количества стандартизированных клинических баз данных»
«Результаты, которые мы получили, показывают огромный потенциал автоматизированной ранней диагностики рака кожи на основе искусственного интеллекта. Однако подобные системы все еще несут в себе этическую и юридическую двусмысленность, а также проблему отсутствия большого количества стандартизированных клинических баз данных. Поэтому иногда модель диагностирует предвзято, опираясь на диагноз, преобладающий в используемой базе данных. В результате обобщить критерии диагностики с помощью искусственного интеллекта пока нельзя. В дальнейшем нужны исследования, которые помогут понять, как внедрить алгоритмы искусственного интеллекта для вспомогательной медицинской диагностики, в частности для того, чтобы точнее выявлять рак кожи на ранних стадиях», — рассказывает руководитель проекта Павел Ляхов, кандидат физико-математических наук, заведующий кафедрой математического моделирования Северо-Кавказского федерального университета.
Результаты исследования, поддержанного грантом Президентской программы Российского научного фонда (РНФ), опубликованы в журнале Computers in Biology and Medicine.
По материалам пресс-службы РНФ
Темы: Наука и технологии