Наука и технологии 28 октября 2019

Искусственный интеллект на страже здоровья. Беседа первая

Доказательная медицина не всегда доказательная, или Как ИИ позволяет разоблачать злоупотребления в фармакологии и медицине

Ольга Громова и Иван Торшин

Анастасия Удалова

После публикаций об истории искусственного интеллекта, его математических и философских основаниях мы представляем очередную статью — о его практических применениях. С героями этой статьи — Ольгой Громовой, доктором медицинских наук, профессором, ведущим научным сотрудником, научным руководителем Института фармакоинформатики Федерального исследовательского центра «Информатика и управление» (ФИЦ ИУ) РАН, и Иваном Торшиным, старшим научным сотрудником ФИЦ ИУ РАН, кандидатом химических и кандидатом физико-математических наук, доцентом кафедры интеллектуальных систем Физтеха, — нам посоветовал встретиться академик Константин Рудаков, рекомендуя их как ведущих специалистов в области применения ИИ в медицине и фармакологии.

Мы начали нашу встречу с вопроса о том, что такое фармакоинформатика, чем занимается Институт фармакоинформатики и как это связано с искусственным интеллектом.

Ольга Громова: Фармакоинформатика — достаточно новое научное направление, его можно разбить на несколько интересных ветвей. Первая ветвь — это хемоинформационные исследования, которые позволяют оценивать наличие у молекул лекарств тех или иных механизмов действия и затем более четко очерчивать фронт работ для экспериментальной фармакологии, задача которой — провести поиск эффектов действия препаратов на моделях заболеваний у животных. Хемоинформатика позволяет получить более объемную информацию о действии лекарств на геном, на транскриптом, на протеом и на метаболом человека. Вторая важнейшая ветвь — вопросы совместимости лекарств: нужно ли совмещать, какие могут быть побочные эффекты. И третья, на мой взгляд, самая интересная ветвь — оценка возможных эффектов лекарства на конкретного человека, то есть назначение препарата с учетом большого количества данных о пациенте — так называемая персонализированная медицина.

Иван Торшин: А сам Институт фармакоинформатики, в котором решается широкий круг задач анализа данных из области биомедицины, в частности фармакологии, был создан недавно по инициативе академика Константина Владимировича Рудакова

Дело в том, что еще со времен СССР в Вычислительном центре имени Дородницына развивалось несколько важнейших научных школ прикладной математики, в том числе моделирование нелинейных процессов и алгебраический подход к решению задач распознавания (или, как теперь модно выражаться, искусственный интеллект). Фундаментальной основой всех этих направлений исследований являются методы анализа больших данных.

А все начинается, как правило, с прогнозирования эффектов поведения молекул.

— То есть с компьютерного моделирования?

И. Т.: Да, с моделирования сотен тысяч фармакологических и биологических активностей исследуемой молекулы. Это позволяет оценивать желательные и нежелательные, побочные, эффекты действия лекарства на людей. В результате нам удается прогнозировать и затем подтверждать информацию, которая выходит за рамки тривиальных тенденций.

— Моделирование — это какие-то математические расчеты или это буквально картинка, которая показывает, как происходит взаимодействие молекул?

И. Т.: Сначала расчеты, из которых такие картинки могут быть получены. По структуре молекулы действующего начала лекарства мы можем, например, сказать, является ли оно нейропротектором, или проявляет противоопухолевые свойства, или тромбоз притормаживает. Допустим, молекула — нейропротектор. С точки зрения молекулярной биологии нейропротекторная активность может осуществляться вследствие взаимодействий нашей молекулы с сотнями белков нервной ткани, многие из которых мы можем и не знать на момент начала исследования. Но мы строим алгоритмы на основе обучающих выборок — совокупностей прецедентов, наблюдавшихся в прошлом, для которых правильные ответы уже известны.

— А что такое прецедент?

И. Т.: В обсуждаемом сейчас примере прецедент — это пара «структура молекулы — числовая оценка активности молекулы», то есть конкретный пример исследования активности. На миллионах таких примеров «обучаем» алгоритм, который извлекает какие-то информативные признаки молекул из этих примеров, а потом даем алгоритму на исследование «контрольные» молекулы с известными свойствами, чтобы оценить качество работы алгоритма. Теперь мы знаем, насколько хорошо алгоритм работает, и мы уверены в достоверности его анализа. Если точность алгоритма приемлема, то подвергаем анализу исследуемую молекулу и прогнозируем ее свойства.

Современные методы анализа прецедентов, применяемые в хемоинформатике, позволяют оценить воздействие молекул лекарств на геном, транскриптом, протеом и на метаболом человека

ФИЦ ИУ

— То есть по имеющимся данным о молекулах разных веществ, свойства которых известны, вы, набирая большой объем таких данных, определяете, какие свойства будет иметь уже новая молекула?

И. Т.: Да. Но интересующая нас молекула может быть совершенно не похожа на молекулы, которые мы уже знаем. Здесь-то как раз и нужна математика, которая позволит обоснованно генерировать признаки на основе структуры молекулы для эффективного решения задач типа «структура — свойство». И это нетривиальная математика.

— В чем нетривиальность заключается?

И. Т.: Например, для обсуждаемой сейчас задачи анализа взаимосвязей «структура — свойство» для молекул лекарств нам пришлось разрабатывать специальную теорию размеченных графов. Точнее, метрическую теорию анализа изоморфизма размеченных графов.

Если говорить школьным языком, то для эффективного решения практических задач важно изучить выполнимость условия существования функции на различных множествах прецедентов, то есть на реально имеющихся данных. Для того чтобы решить задачу прогнозирования свойств молекул, вначале важно исследовать соответствующие проблемы разрешимости самых различных математических постановок этой задачи. Когда эти фундаментальные теоретические исследования проведены, мы можем обоснованно выбирать способы генерации признаков молекул, наиболее эффективные для каждой конкретной практической задачи, и строить алгоритмы на основе этих фундаментальных результатов.

Ион магния в составе структуры рецептора инсулина. При удалении иона Mg2+ из структуры рецептора (что происходит при дефиците магния, который встречается у 50-80% россиян), передача сигнала от рецептора инсулина внутрь клетки ослабляется, что стимулирует развитие гиперинсулинемии и сахарного диабета.

ФИЦ ИУ

— А что значит «разрешимость»?

И. Т.: Разрешимость задачи — это и есть выполнимость условия существования функции, известного нам с шестого класса общеобразовательной школы. Функция, конечно, весьма непростая, может содержать сотни тысяч аргументов, но математическая суть абсолютно та же, что и в школьных примерах. Все это имеет практический выход. Например, вы, может быть, слышали, что проведены медицинские исследования, изучающие эффекты миллионов генетических полиморфизмов (вариантов) человека на риск тех или иных болезней. То есть у соответствующей функции будет десять-пятнадцать миллионов аргументов. При анализе таких данных исследователи традиционно используют так называемую биостатистику, в результате чего не находят каких-либо новых результатов и упускают много важных закономерностей. А на самом деле при анализе таких больших данных нужно использовать не примитивную биостатистику в ее бесконечных вариациях, а современные методы прикладной математики, разрабатываемые для анализа big data.

— Что это значит?

И. Т.: В нашем случае это означает использование алгебраического подхода к распознаванию, который развивается в школе академика Юрия Ивановича Журавлева, ярким представителем которой является Константин Владимирович Рудаков. Научная школа Журавлева в существенной мере сконцентрирована в ФИЦ «Информатика и управление» РАН, хотя у нее «тройное гражданство»: ФИЦ, Физтех, МГУ.

С точки зрения молекулярной биологии нейропротекторная активность может осуществляться вследствие взаимодействий нашей молекулы с сотнями белков нервной ткани, многие из которых мы можем и не знать на момент начала исследования

Практическая важность алгебраического подхода состоит в том, что, исследуя разрешимость и другие фундаментальные свойства задач и алгоритмов распознавания/классификации/прогнозирования, мы сначала получаем наиболее приемлемые признаковые описания исследуемых объектов, а затем выявляем неочевидные сочетания значений признаков. При этом мы не просто «набираем статистику» на миллионах объектов. Бывает, что какие-то взаимодействия признаков формально «статистически недостоверны», а закономерность, тем не менее, вполне очевидна для эксперта. И если правильно извлечешь и опишешь математически эту закономерность, то она практически всегда становится статистически достоверной уже в несколько иной, переформулированной математической постановке той же задачи. Кроме того, такая закономерность будет эффективно «работать» в реальных алгоритмах.

О. Г.: Статистические методы в принципе не позволяют генерировать оптимальные признаковые описания на основе массива данных для пациента. Статистика позволяет всего лишь оценивать те признаки, которые уже есть. Это всегда сырой материал. В результате формальное применение статистических методов зачастую ничего не находит. Например, так называемая доказательная медицина, использующая исключительно статистические методы для формального обоснования эффективности действия лекарств, — ярчайший пример ущербности чисто статистического подхода. Россиянам хорошо известен этот мем: «британские ученые доказали, что…», после чего следует либо очевидность («…что люди падают с велосипедов, потому что теряют равновесие») либо очевидная глупость («…что потребление поваренной соли снижает артериальное давление»). Действительно, очень много якобы научных новостей начинается с подобного рода вводных фраз, после чего в тексте «новости» цитируются те или иные исследования, аргументация которых базируется всего лишь на той или иной вариации биостатистики. У нас недавно вышла статья, в которой мы детально разбираем некий труд «британских ученых», которые в очередной раз «доказали»…

— Что именно?

О. Г.: Есть так называемые кокрейновские отчеты, которые считаются вершиной доказательной медицины. На самом деле их составители закоснели в статистических подходах конца девятнадцатого века. В одной из своих недавних статей мы показали, к чему приводит такая косность мышления. И получили весьма интересные результаты. Мало того, что эти «исследователи» используют устаревшие статистические методы…

И. Т.: …Причем используют неправильно, полностью пренебрегая аксиоматикой, на которой эти методы основаны.

О. Г.: Да-да. А в дополнение ко всему этому эти «британские ученые» еще полностью игнорируют фундаментальные законы фармакологии, молекулярной биологии и простейшие факты из области клинической медицины.

В анализируемом нами кокрейновском отчете оценивались эффекты от применения омега-3 полиненасыщенных жирных кислот (ПНЖК). О пользе жирной рыбы, которая профилактирует сердечно-сосудистую патологию, очень много говорили в восьмидесятые годы. Сейчас, конечно, речь идет уже не о жирной рыбе, а о высокоочищенных фармацевтических препаратах.

Так вот, британские ученые (в буквальном смысле — все авторы статьи работают в Великобритании) «исследовали» эффективность терапевтического использования омега-3 ПНЖК. При этом за «терапию» они принимали потребление разных сортов рыб. Забавно, что авторы приводят длиннейшие списки различных видов рыбы: скумбрия, морская собака, колотушка и еще двадцать наименований. Просто ассортимент рыбного магазина, написанный в стиле средневекового трактата по медицине. А в конце длинного такого списка авторы делают приписку, что, мол, высокоочищенные фармацевтические формы омега-3 ПНЖК также анализировались.

После этого эти горе-ученые сваливают все собранные ими данные в кучу и, применяя методы биостатистики (причем с ошибками), заявляют, что «кардиологическое использование омега-3 ПНЖК бесполезно». Когда же мы провели анализ их же собственных данных современными методами анализа сложных данных, то однозначно выделился единственный кластер клинически однородных исследований. Если для дальнейшего анализа взять этот кластер «нормальных» исследований, в которых не было совершено грубых ошибок аналитического или методологического характера, то положительные кардиологические эффекты омега-3 ПНЖК очевидны и бесспорны.

И. Т.: Замечу, что на примере детального анализа этого кокрейновского отчета мы наглядно проиллюстрировали, в частности, и то, что «британские ученые» и прочие адепты секты свидетелей Кокрейна безнадежно отстают по части интеллектуального анализа данных (data mining), машинного обучения (machine learning), анализа больших данных (big data analysis).

О. Г.: А чтобы скрыть серьезное отставание в этих технологиях интеллектуального анализа данных, адепты доказательности прибегают к манипулятивным приемам в стиле желтой прессы и к другим формам политиканства. Один из таких приемов — выбор волюнтаристских критериев качества и однородности клинических исследований. С точки зрения специалиста по интеллектуальному анализу данных, самое поразительное в этой ситуации то, что эти надуманные, ничем не обоснованные, не проверенные на больших выборках пациентов «критерии доказательности» повсеместно навязываются как «крайне необходимые стандарты». При этом успешность навязывания этих «критериев» и «стандартов» обусловлена не каким-то глубоким смыслом этих стандартов или их научным содержанием, а величиной административного ресурса определенных индивидуумов. Фактически имеет место тоталитарный диктат. Будучи навязанными, эти методы используются для конкретных рекомендаций по лечению миллионов пациентов.

— Неужели в мире никто не обращает на это внимание?

О. Г.: Кто-то, конечно, внимание обращает. Время от времени… Недавно в организации Cochrane Collaboration, которая и издает эти самые кокрейновские отчеты, произошел колоссальный скандал. Эта организация позиционируется как независимое сообщество по доказательной медицине. Ну, то есть как самое объективное и якобы неподкупное. Недавно, однако, профессора Питера Гетцше, директора этой организации, исключили из ее членов большинством голосов некоего теневого «совета управления» якобы за «несогласие с политикой организации». Вслед за уволенным Гетцше шесть членов правления покинули совет в знак солидарности с ним. А человек всего лишь сказал, что «понятия “бренд” и “продукт” начинают преобладать над стратегией получения независимых, самостоятельных, этичных и социально ответственных научных результатов».

Так называемая доказательная медицина, использующая исключительно статистические методы для формального обоснования эффективности действия лекарств, — ярчайший пример ущербности чисто статистического подхода

Как пишет Гетцше в одной из своих книг, «исследовательская литература о лекарствах систематически искажается из-за некорректных клинических испытаний, выборочной публикации результатов и данных исследований, из-за сокрытия нежелательных результатов и статей теневого авторства. Теневые авторы пишут рукописи напрокат, не раскрывая своей личности в статьях, формальными “авторами” которых выступают влиятельные доктора, хотя они сами и не внесли ничего или почти ничего в эти рукописи. Такого рода манипуляции ученых помогают продавать больше лекарств».

А ведь такая уважаемая организация, как Всемирная организация здравоохранения, фактически приносит миллионы людей в жертву молоху псевдодоказательности, принимая важные решения об использовании или неиспользовании (например, тех же препаратов омега-3 ПНЖК) на основании безграмотных и полностью ложных метаанализов, публикуемых под престижной торговой маркой «кокрейновских отчетов».

И. Т.: Мы также постоянно проводим анализы больших выборок текстов научных публикаций из PubMed — самой большой базы публикаций по биологии и медицине (около тридцати миллионов статей). Ясно, что любой, даже очень квалифицированный специалист, не способен разобраться в таком массиве данных «вручную». Для объективного анализа нужны, помимо всего прочего, алгоритмы, которые оценивают тексты статей на предмет наличия в них элементов манипуляции сознанием читателя. Нам удалось создать такие алгоритмы, которые позволяют оценивать различные аспекты эмоциональности научных текстов на английском языке. И выяснилось, что очень многие публикации «доказательных» исследований, особенно те, в которых отрицаются те или иные установленные ранее результаты (как это было в разобранном выше примером с омега-3 ПНЖК), просто изобилуют манипулятивными словечками и жесткими конструкциями отрицания. Причем изобилуют настолько, что могут нагнетать депрессивное состояние, особенно на невнимательного читателя. А с помощью наших алгоритмов такие тексты можно идентифицировать и отфильтровывать как явный лженаучный спам.

О. Г.: Мы провели детальный анализ порядка шестисот текстов публикаций из области доказательной медицины, где используется этот странный «язык доказательности» — не научный и совсем не медицинский. И практически каждый раз мы убеждались в манипулятивности анализируемых текстов — ведь частота соответствующих конструкций английского языка в разы превышала среднестатистическую. К нам, кстати, несколько раз обращались врачи различных специальностей, чтобы мы перевели некоторые из этих статей не просто на русский язык, а на русский язык, понятный врачам.

— То есть доказательная медицина, которой одно время все увлекались, далека от доказательности?

И. Т.: Доказательная медицина — идея-то хорошая, но в настоящее время практически вся эта область захвачена «пиратами от доказательности». Об этом очень четко пишет руководитель Центра профилактики Стэнфордского университета Джон Иоаннидис, у него есть несколько статей о «пиратах доказательности». У нас, кстати, сейчас готовится большой материал на эту тему. А индивидуумы, которые захватили доказательную медицину в западных странах, обладают очень большим административным и медийным ресурсом.

— Это такая коррупция своеобразная?

И. Т.: Да, в форме клановости. Она повсеместно. В Швеции и в ряде других скандинавских стран, например, мы обнаружили несколько таких семейных кланов авторов в самых различных университетах. И это просто частные примеры, которые попались нам на глаза, без проведения каких-либо систематических исследований по данному вопросу.

— Даже в Швеции, которую считают образцом страны, где якобы нет коррупции?

И. Т.: И в Швеции, и в Дании, и Норвегии. В одном клане дед, отец, сын, даже внук — соавторы десятков «доказательных» статей, опубликованных в журналах с высоким рейтингом. И все работают в одном учреждении. И такая вот «семейка Крудс» пишет серийные «доказательные» статьи о том, например, что витамин B12 якобы вызывает рак. Поднимаем весь массив публикаций этого семейного клана. Оказывается, что этот «результат» был получен в связи с необходимостью «прикрыть» побочные эффекты некоего нового препарата для лечения сахарного диабета. Уже после выведения на рынок этого препарата стало ясно, что этот «инновационный» препарат ассоциирован с существенным повышением риска рака. Поэтому компании-производителю, финансирующую данный клан «скандинавских писателей», потребовалась операция прикрытия наподобие «виноват не препарат, а витамин В12».

А в дополнение ко всему этому, эти «британские ученые» еще и полностью игнорируют фундаментальные законы фармакологии, молекулярной биологии и простейшие факты из области клинической медицины

О. Г.: Ну конечно, разве может быть виноват препарат, за клинические испытания которого уже заплачены десятки миллионов у. е.? Кстати, против этой компании-производителя было выиграно несколько дел в различных судах США в связи с тем, что торговые представители компании, цитируя дословно, «преуменьшали риск рака, связанный с употреблением препарата» и полностью пренебрегли соответствующими предупреждениями FDA (Federal Drug Administration), то есть Федерального агентства США по лекарствам. Поэтому министерство юстиции США обязало компанию к выплате штрафа в 58 миллионов. Но теперь этой компании надо оправдаться перед клиентами и перед FDA. Для этого они находят семейный клан этих, скажем, Петерсонов. А те говорят: мы витамин В12 меряем, и у пациентов с опухолями он выше. Значит, это В12 виноват.

— Выше — в смысле, пациенты принимали его?

О. Г.: В том то и дело, что эти «исследователи» даже не посмотрели, принимали их пациенты витамин В12, или нет. Они просто померили уровни витамина в крови у нескольких сотен тысяч участников. При этом «скандинавские ученые» не собрали данные ни по одному из общеизвестных факторов риска опухолевых заболеваний у участников исследования. Основных факторов риска рака не менее десяти, они одобрены ВОЗ, но ни один из этих факторов даже не упоминается этими «учеными» в текстах своих «доказательных» публикаций.

И. Т.: Это далеко не единственный пример. Выявив ту или иную серию манипулятивных текстов, опубликованных в ведущих научных журналах под вывеской «доказательных», мы всегда стараемся анализировать, кто именно пишет эти «заказные» и лженаучные статьи. Например, мы видим, что сейчас активировалась борьба отдельных производителей статиновых препаратов против микронутриентов.

Микронутриенты — жизненно важные пищевые вещества (витамины, минералы, микроэлементы), которые содержатся в пище в очень малых количествах (миллиграммы, микрограммы), не являются источниками энергии, но участвуют в усвоении пищи, регуляции функций, осуществлении процессов роста, адаптации и развития организма.

— Почему?

О. Г.: Множество фармкомпаний производят статиновые препараты, которые действительно помогают при атеросклерозе, есть хорошая доказательная база. В то же время есть исследования, показавшие, что регулярный прием витамина D или омега-3 ПНЖК также помогают профилактировать атеросклероз. Этих исследований становится все больше, их начинают замечать, и тут, как я думаю, в некоторых западных фармкомпаниях особо «креативные» топ-менеджеры хватаются за голову: мол, «вот еще одни конкуренты объявились». И начинается атака на витамин D, на омега-3 ПНЖК и на другие микронутриенты. Атака изощренная, разносторонняя и иезуитская.

Еще десять лет назад мы опубликовали анализ данного вопроса и нашли, что автор одной из статей, очевидно направленных против омега-3 ПНЖК, некий профессор Рейт, почти двадцать шесть лет занимался исключительно статинами. И вдруг ни с того ни с сего он проводит одно-единственное исследование по омега-3 ПНЖК и публикует «результаты» под очень красочным заголовком вроде «Омега-3 ПНЖК не помогают при атеросклерозе». Но в науке не приняты такого рода броские названия рекламного характера, поэтому эта публикация сразу вызвала подозрение. Детально копаем, и выясняется, что омега-3 ПНЖК в этом «исследовании» давали в дозе в десять раз меньше, чем надо (доли грамма вместо одного-двух граммов в сутки), в составе маргарина и в течение очень короткого времени (три-четыре недели, тогда как эффекты омега-3 ПНЖК проявляются минимум через два-три месяца, причем только при условии адекватного дозирования).

Выявив ту или иную серию манипулятивных текстов, опубликованных в ведущих научных журналах под вывеской «доказательных», мы всегда стараемся анализировать, кто именно пишет эти «заказные» и лженаучные статьи

И вот этот автор публикует свой опус в «Британском медицинском журнале». Очень рейтинговый журнал, и у российских врачей есть к нему определенное доверие. Врачи читают заголовок и резюме. И мы получаем сразу отклик в России на публикацию, казалось бы, в каком-то британском журнале: «А вот мы в “Британском медицинском журнале” прочитали, что ваши омеги никому не нужны». Правда, в комментариях читателей (британских и американских врачей) в веб-чате журнала это исследование кроют самыми последними словами, насколько это возможно в пределах цензурной лексики английского языка. Но этих комментариев почти никто не видит, подавляющее большинство читателей видит только отпечатанный текст статьи в журнале с очень высоким индексом цитируемости.

И. Т.: Кстати, слова профессора Гетцше, которого мы цитировали выше, очень хорошо подтверждаются результатами наших исследований. Например, мы провели анализ того, кто писал упомянутый нами ранее кокрейновский отчет, в котором утверждалась «отсутствие эффекта» при кардиологических применениях омега-3 ПНЖК. Оказалось, что один из авторов — бывший зубной врач, другой — британский специалист по сокращению расходов на обслуживание здравоохранения пожилого населения в сельской местности. Какие тут еще омега-3 ПНЖК — бюджет урезать надо! Там в соавторах еще были специалисты по инспекции предприятий общепита и прочая разношерстная публика. Подчеркнем, что из десятка авторов — ни одного кардиолога, фармаколога или специалиста по анализу данных.

Продолжение следует

Темы: Наука и технологии