Наука и технологии 2 декабря 2019

Риск кровоизлияния онлайн

Утверждение, что искусственный интеллект — это сумма технологий, глубоко ошибочно: да, в конце концов мы приходим к технологиям, но до технологий есть еще фундаментальные математические основания. По крайней мере, об этом свидетельствует применение ИИ в медицине

Заведующий отделом интеллектуального анализа данных и автоматизированной поддержки научных исследований ФИЦ «Информатика и управление» РАН, доктор физико-математических наук Михаил Забежайло

Дмитрий Лыков

Мы продолжаем серию статей, посвященных проблемам развития искусственного интеллекта (ИИ). Последним в этом ряду было интервью, посвященное использованию искусственного интеллекта в медицине и фармакологии.

На этот раз на наши вопросы отвечает заведующий отделом интеллектуального анализа данных и автоматизированной поддержки научных исследований ФИЦ «Информатика и управление» РАН, доктор физико-математических наук Михаил Забежайло, уже принимавший участие в одной из наших бесед вместе с главным научным сотрудником ФИЦ «Информатика и управление» РАН, доктором технических наук Виктором Финном.

Наряду с академической деятельностью Михаил Иванович принимал участие в разнообразных проектах по использованию математических методов, в том числе в банковской сфере. А сейчас активно занимается исследованиями использования ИИ в медицине.

Мы встретились с Михаилом Ивановичем, чтобы обсудить с ним, каковы особенности применения искусственного интеллекта в медицине, что общего между ИИ в медицине и в банковской сфере, а также узнать его отношение к документам по развитию искусственного интеллекта, принятым российским руководством.

— Если мы с вами говорим о высокотехнологичной медицине как предметной области, то ее характерная черта — нужно связывать вместе много разнородных факторов: в ней есть и субъективные данные — то, что доктор записал, и приборные данные, и тяжелые измерения, КТ, МРТ, ПЭТ. И получается, что мы работаем с разнотипными данными, но должны с ними работать как с комплексом, потому что они семантически связаны. Это целостный комплекс. То есть мы должны так представить знания, которые нам нужны для диагноза, чтобы они однородным образом анализировались. Но если у вас есть числа и изображения и вы хотите сделать какие-то метрики, то на числах понятно, как это сделать, а как сделать на изображениях? Через топологические характеристики мощности множеств: два объекта сходны, если мощность множества их различий мала. Сходство в этом случае — это алгебраическая операция: граф на граф наложили, общий подграф выделили. Такого рода подходы позволяют нам разнотипные данные обрабатывать однородными средствами, определяя для каждого типа данных свой конкретный вариант формализации сходства.

При использовании заключения, получаемого в процессе компьютерного анализа данных, необходимо учитывать, что компьютер лишь что-то советует, а решение принимает доктор

При этом медицина — это открытая предметная область. Это вам не геометрия, где вы можете написать десять постулатов, взять правило modus ponens и получить все теоремы или в варианте Евклида, или в варианте Лобачевского, или в варианте Римана. В медицине вы всегда можете добавить в данные нечто новое, и это новое может быть невыразимо в старом. Это означает, что, даже если вы в медицине построили теорию, которая имеющиеся факты описывает в том смысле, что каждый факт есть следствие утверждения этой теории, может оказаться, что, когда вы добавили новые факты, теорию вам придется модифицировать. Поэтому ваш анализ прецедентов должен учитывать, что у вас открытые, расширяемые коллекции прецедентов. А если вы стремитесь к описаниям типа физики, то вам нужно искать устойчивые, наследуемые при расширении выборки зависимости. Вы к закону должны стремиться.

— Поясните, пожалуйста, на примере…

— В медицине может оказаться очень много параметров, по которым вы описываете эффект. Например, когда у человека обнаруживается опухоль головного мозга, обычно на зрительных путях, нейрохирурги тут же говорят: резать. Режут, потом еще и облучают, а через некоторое время смотрят на МРТ, и оказывается, что объем опухоли опять увеличился. Как это толковать? Чтобы не делать ненужную операцию, важно разделить псевдопрогрессию, настоящий рецидив и нормальную ремиссию. Но в этой задаче о псевдопрогрессии по опухолям примерно 200 параметров. А если у вас 200 параметров, даже если они булевские, то у вас получается два в двухсотой вариантов. Это уже big data, но на ограниченном наборе. Причем настолько big, что вы тысячелетиями будете считать на современных компьютерах. И это очень серьезное ограничение.

При использовании заключения, получаемого в процессе компьютерного анализа данных, необходимо учитывать, что компьютер лишь что-то советует, а решение принимает доктор. И ответственность-то на докторе. А если оказывается, что доктор не понимает, как нейронная сеть получила заключение, а ответственность на нем, то он не будет этим пользоваться.

Поэтому необходимо создание таких систем анализа данных, которые обеспечивали бы бесшовную интеграцию компьютерной и человеческой схемы анализа данных и поддержки принятия решения. Здесь и появляется искусственный интеллект, когда мы моделируем рассуждения специалиста и строим для него своего рода акселератор, который позволяет ему делать то, что он обычно делает, но быстрее и в больших объемах. Но интерпретация результатов все равно остается на нем. Потому что порождение артефактов в машинном обучении неустранимо. То есть мы технически можем порождать безошибочные конструкции, но среди них могут быть и такие, которые не интерпретируются в содержательных терминах.

Джордж Буль (англ. George Boole; 2 ноября 1815, Линкольн — 8 декабря 1864, Баллинтемпл, графство Корк, Ирландия) — английский математик и логик. Профессор математики Королевского колледжа Корка (ныне Университетский колледж Корк) с 1849 года. Один из основателей математической логики.

britannica.com

Проблема всех наук

— Это проблема многих наук…

— На конференции по физике высоких энергий в Киеве, еще в 1959 году, Лев Ландау даже делал специальный доклад на эту тему. Суть дела, если попытаться изложить ее «на пальцах», состояла примерно в следующем: мы понимаем, что напряженность поля характеризуется зарядом и расстоянием. Если вы уменьшаете расстояние, то что такое поле в точке ноль? По идее, бесконечность? Но на самом деле этого не может быть. Ландау предложил следующий принцип. Чтобы результаты были интерпретируемы, принимаем такой порядок: на входе только те данные, которые наблюдаются на опыте. А дальше любой шаг формальных выкладок должен быть интерпретирован в терминах исходной предметной области. И это гарантировало интерпретируемость конечного результата.

И сейчас неожиданным образом в медицинской высокотехнологической диагностике эта проблема оказывается актуальной. Например, если мне говорят, что я болен с вероятностью ноль, то я понимаю, что вероятность эта получается при знаменателе, стремящимся в бесконечность. Но если в знаменателе бесконечность, то не нужно в числителе иметь непременно ноль, чтобы получить ноль в результате, а можно иметь любую константу. И это означает, что я могу быть болен, а при этом вероятность моей болезни будет нулевой. Значит, это некоторый родовой дефект метода по отношению к этой задаче. И нужно использовать какую-то другую математику. Для того чтобы сделать сначала приближенную «наводку на резкость» с использованием статистических методов анализа данных, а потом уже точными методами, не вероятностными, а детерминистскими методами, точно получать либо ответ «да», либо ответ «нет».

Порождение артефактов в машинном обучении неустранимо. То есть мы технически можем порождать безошибочные конструкции, но среди них могут быть и такие, которые не интерпретируются в содержательных терминах

При этом возникает большое количество рисков, которые необходимо учитывать и которыми необходимо управлять. Я бы отметил необходимость оперировать выборками ограниченного размера — по количеству прецедентов, что ставит под вопрос адекватность применения целого ряда методов статистического анализа данных, возникает возможность, что наблюдаемые параметры не независимы, появляются проблемы с однородностью анализируемых прецедентов и интерпретируемостью результатов — заключений, диагнозов.

В любом случае приходится оперировать выборками ограниченного размера, ведь мы не можем набирать их бесконечно, потому что просто не можем. Например, в случае с псевдопрогрессией за пятнадцать лет через Центр нейрохирургии имени академика Бурденко прошло чуть больше 400 пациентов. Они были обследованы в динамике по почти 200 параметрам. Но их нельзя сотнями добавлять. И выборки все равно небольшие. Как в этом случае учить нейронные сети*? Где сто тысяч кейсов, на которых нужно обучать? Значит, нужно использовать методы интеллектуального анализа данных или методы машинного обучения, которые работали бы с выборками ограниченного размера. Это ситуация, когда описывающие параметры могут оказаться не независимыми. Вы не знаете, как они связаны, но вы не можете считать их независимыми.

*Нейронная сеть — математическая модель, а также ее программное или аппаратное воплощение, построенная по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма, используемая для машинного обучения в системах искусственного интеллекта

Одновременно возникает проблема однородности обучающей выборки прецедентов. Ведь статистика нас учила столетиями, что нужно правильно подбирать данные, иначе, если вы бочки с грузчиками смешаете, у вас в результате получится полтора землекопа в ответе.

Очень важная вещь — интерпретируемость и неформальная объясняемость результатов. Интерпретируемость — это о чем говорил Ландау, а неформальная объясняемость означает возможность объяснения решений, принимаемых искусственным интеллектом, в терминах того, как устроен мир, а не ваш алгоритм. Я не сомневаюсь, что вы хорошо построили алгоритм, но я хочу знать ответ системы в терминах окружающего мира, тем более если вы доктор и я вашего регрессивного анализа не знаю и не должен знать его.

— И как быть?

— В этом случае действительно может возникать проблема доверия к получаемым результатам. И нужно искать какие-то способы обоснования доверия к результату, и вот здесь начинают работать аргументационные схемы: когда вы имеете данные, вы на этих данных строите доводы «за» и доводы «против». А потом сталкиваете их между собой. И если вы получаете доминирование одних доводов, то у вас есть некоторое неоспариваемое утверждение. Если доводы равносильны, вы говорите, что это эмпирическое противоречие. Из него не следует все, что угодно, как из логического противоречия, но вы не можете принять решение, потому что вам не хватает данных или прецедентов, либо язык недостаточно выразительным образом описывает ситуацию. Но могут быть случаи, когда вообще нет доводов.

Это все вместе говорит, что медицина как предметная область — особенная. В ней нужны и особая математика: здесь нужно развивать методы вычислительного характера, высокопроизводительные вычисления. В Центре нейрохирургии имени Бурденко ежегодно делают операции примерно 2500 человек, а им еще делают КТ, МРТ, и нужно хранить эти огромные данные, и их нужно индексировать, чтобы по ним искать сходные прецеденты. Это отдельная серьезная технологическая задача. В этом смысле медицина — особая предметная область, с особыми требованиями, требующая особых решений.

— Если подвести итог, то каковы особенности медицины как предметной области?

— Во-первых, ее открытость, предполагающая постоянное пополнение имеющихся баз фактов новыми данными и, как следствие, «циклы» формирования частичных теорий, описывающий накапливаемые эмпирические данные, в том числе по новым прецедентам — описаниям пациентов, исследуемых объектов, по параметрам — признакам, используемым в описаниях прецедентов, требованиям к детализации значений используемых признаков.

Во-вторых, высокий уровень ответственности принимающих решения лиц за надежность результатов интеллектуального анализа данных — ИАД и поддержку принятия решений — ППР.

В-третьих, междисциплинарный характер критически значимых знаний и компетенций, в первую очередь охватывающих медицину и ее фундаментальные основания, анализ данных, а также высокие технологии в области фиксации и визуализации используемых эмпирических данных.

Эвари́ст Галуа́ (фр. Évariste Galois; 25 октября 1811, Бур-ля-Рен (фр.), О-де-Сен, Франция — 31 мая 1832, Париж, Франция) — французский математик, основатель современной высшей алгебры

Wikipedia

Математика и хирург

— И как это связано с математикой?

— Как только вы переходите к математическим моделям, получается, что можно сперва в предметную область зайти через статистику, выбрать некоторые существенные признаки, а потом их дискретными методами дорастить до некоторой зависимости. Для этого статистическими средствами сначала выделяем «интересные» корреляции значений некоторых признаков, а затем «дополняем-доращиваем» эти корреляционные зависимости дополнительными заключениями, полученными использованием «точных» (не вероятностых) средств, например логико-математических, алгебраических. Если это булевские данные, то это булевская функция, если там много значений, то это некоторые многозначные специальные логики. И получается функция алгебры многозначной логики*. Но эта функция на прецедентах, когда исследуемый целевой эффект дает «истину», то есть неоспариваемость на эмпирических данных, и только на них. Во всех известных нам случаях отсутствия исследуемого целевого эффекта — дает «ложь». То есть если у вас есть достаточная выборка, можно сделать обоснованно непротиворечивое заключение. Так же как в статистике, репрезентативное, не смещенное. И доктор может этим заключением пользоваться для анализа новых пациентов. Обоснованно пользоваться.

*Многозначная логика — тип формальной логики, в которой допускается более двух истинностных значений для высказываний

Для меня это замечательно еще и тем, что ключевой элемент здесь — представление знаний и моделирование рассуждений. Причем моделирование рассуждений, понимаемое широко, там и вычисления, которыми мы помогаем индукции, аналогии, абдукции — то, о чем говорилось в нашей беседе с Виктором Финном.

Для медицины, финансового анализа, технической диагностики, информационной безопасности, социологии, наук о жизни и социальном поведении это сквозная технология. Термин «сквозная технология» говорит о том, что предлагаемый подход как единая для всех этих предметных областей процедурная конструкция успешно работает во всех перечисленных типах приложений. Это ключевое слово, и сейчас внимание к сквозным технологиям очень пристальное, и та стратегия развития искусственного интеллекта, что президент страны подписал, во многом ориентирована на такие решения. И медицина — замечательная область их применения.

С моей точки зрения, при всем уважении к тому, что в медицине наработано, переход с небольшого количества факторов к большим комплексам, как я вам приводил примеры, — это качественные изменения, ориентированные на персонализацию и на лечение конкретного больного, а не болезни. И это современный подход, это математика искусственного интеллекта, способная реально помочь реальным специалистам в их работе. Знать, кто такой Галуа и что такое замыкание Галуа, доктору, который «копается» в голове у людей, вовсе не обязательно. Но опираясь на математическую технику в духе замыкания Галуа, проводить оперативный компьютерный анализ данных, в которых он нуждается, вполне можно.

— То есть он может пользоваться инструментом, не понимая до конца все математических тонкостей…

— Ему и не нужно это. Когда мы с вами едем в автомобиле, мы же не задумываемся: там дизель или бензин? Мы знаем, для чего педали, рычаг, руль, подсветки, и всё. Я пилотирую, а не поддерживаю инженерно это устройство. Врач — пользователь. Но он должен быть квалифицированным пользователем.

Знать, кто такой Галуа и что такое замыкание Галуа, доктору, который «копается» в голове у людей, вовсе не обязательно. Но опираясь на математическую технику в духе замыкания Галуа, проводить оперативный компьютерный анализ данных, в которых он нуждается, вполне можно

Пример опять из Центра имени Бурденко, где нейрохирурги реализуют совершенно фантастические технологии. Они не просто забираются в голову к человеку, чтобы там до чего-то добраться, они, когда продвигаются к опухоли, мониторят ситуацию, грубо говоря, чтобы не навредить. Для чего поднимают из анестезии человека и с ним говорят, чтобы гарантированно не задеть речевой центр или зрительный центр, чтобы была обратная реакция. А если по ходу возникают локальные осложнения, например видна кавернозная ангиома, которая может разорваться и привести к кровотечению, и врачи видят, что изменилось состояние этой каверномы, то нужен оперативный анализ, идти ли дальше. А рядом с хирургом сидит оператор за компьютером, которому говорят: «Посмотри данные исследований, которые проведены с помощью искусственного интеллекта по этому конкретному пациенту, кавернома должна порваться или нет?» И это и есть математическая, айтишная, и технологическая поддержка конечной деятельности.

— Такое сопровождение проводится прямо во время операции?

— Да. В онлайне, во время операции. Имеется договоренность с руководством Центра нейрохирургии имени Бурденко о продолжении исследований, и одна из задач — поддержка оперирующих хирургов во время операции, на предмет минимизации рисков. Например, в оценке риска кровоизлияния в онлайне. Для этого есть набор параметров, которые мониторятся, есть кейсы, заранее изученные, есть знания эксперта. И это реальная помощь в решении реальных проблем.

Утверждение, что искусственный интеллект — это сумма технологий, глубоко ошибочно: да, в конце концов мы приходим к технологиям, но до технологий есть еще фундаментальные основания. И эти фундаментальные основания, как я вам показал, характеризуют особые требования к моделям, методам, алгоритмам, этим надо специально заниматься. Этому нужно учить детей, студентов, чтобы они двигали это дальше.

Генрих VIII Тюдор (англ. Henry VIII; 28 июня 1491, Гринвич — 28 января 1547, Лондон) — король Англии с 22 апреля 1509, сын и наследник короля Англии Генриха VII, второй английский монарх из династии Тюдоров

Ганс Гольбейн / Wikipedia

Создавать экосистемы

— Раз уж возник вопрос, как относиться к некоторым утверждениям, что есть такое искусственный интеллект, напомню: мы с вами и с Виктором Константиновичем Финном обсуждали в прошлой нашей беседе стратегию развития искусственного интеллекта, а сейчас уже утверждена дорожная карта ее реализации…

— Во всей это деятельности у меня вызывает беспокойство смешение понятий: если мы хотим разные целеполагания, в том числе не всегда совместимые, мы, как правило, нарываемся на патологию. Например, поиск истины, в частности в рамках НИР, и стремление сохранить за собой возможности контролировать финансовые потоки. Совершенно понятно, что лиц, принимающих решения государственного уровня, нюансы проблемы не должны интересовать. У них другая зона ответственности. И, к сожалению, документы, о которых мы говорим, готовились во многом в ответ на интенцию сверху: смотрите, у китайцев вот так, у американцев вот так, у европейцев вот так. Хотя в Британии, я в прошлой нашей беседе приводил пример с банком Barclays, замечательная ситуация. Напомню, вокруг Barclays есть экосистема — так называемые Eagle Labs — примерно четыре тысячи маленьких и средних лабораторий, а Barclays выступает в качестве модератора этого сообщества: собирает их несколько раз в год, обеспечивает их взаимодействие между собой так, чтобы была научная коммуникация. Для того, чтобы большое сообщество, с разных сторон глядя на эту проблему, маленькими, гибкими группками могло наметить пути, что проходимо, что непроходимо, какие требуются ресурсы. И не случайно именно британцы давно отличаются пониманием того, что трудные проблемы не решаются благодаря важным бумагам. Чтобы их решить, нужно создавать среду.

Генрих дал ему все, что только нужно было, и сделал его работу достоянием большого количества интересантов в Британии, и масса ремесленников тоже начала экспериментировать в этом же направлении. И достаточно быстро, за несколько лет, получили пушки, которые бьют так же, как у Боде

Я вам приведу пример из истории. В конце пятнадцатого века Британия была на грани того, что испанцы ее сотрут, только море их сдерживало. В основном воевали как? Корабли с кораблями. У англичан пушки были хуже испанских. Тогда король Генрих Восьмой пригласил француза, Пьера Боде, у англичан он стал называться Питер Боуд, оружейного мастера, который далеко продвинулся в области отливки пушек из чугуна, а не из бронзы. И ставил эксперименты с ядрами, не монолитными, а полыми. Генрих дал ему все, что только нужно было, и сделал его работу достоянием большого количества интересантов в Британии, и масса ремесленников тоже начала экспериментировать в этом же направлении. И достаточно быстро, за несколько лет, получили пушки, которые бьют так же, как у Боде. Но они не только нашли формулу сплава, они сделали еще прообраз кислородного дутья: тогда еще кислорода не было, но они делали специальные мехи, которые повышали температуру и кислородный обмен. В общем, они стали лить эти пушки в большом количестве. А следом Генрих модернизировал свой флот, чтобы наилучшим образом использовать новые пушки: вместо однопалубного корабля с двумя рядами пушек стали появляться трех-, четырехпалубные. И когда с испанским кораблем они становились борт в борт, одного залпа хватало, чтобы разнести его на мелкие щепки. Получилась цепочка: металлургия потянула за собой кораблестроение, навигацию, математику, которая нужна артиллеристам. Было образовано адмиралтейство и если в начале царствования у Генриха было четыре корабля, то к концу его жизни у Британии было уже пятьдесят кораблей с новым вооружением. И весь мир стал покупать у них эти пушки. То есть была создана среда, экосистема, в которой инновации пошли уже массово, и из них можно было отбирать лучшее.

В этом смысле я вижу аналогию с тем, чем занимается банк Barclays. И поэтому, как показывает их отчет, в Британии к началу 2018 года было больше успешных стартапов в области искусственного интеллекта, чем во всей остальной Европе, вместе взятой.

Я это к тому, что надо создавать экосистемы, а не планировать достижения. Вам нужны какие-то чемпионские достижения? Но эти чемпионские достижения откуда-то должны возникнуть. В нашей стратегии я не вижу, на какой почве они возникнут. У китайцев, в их стратегическом документе, везде — Basic Theories — базовые теории. Вместе с технологиями должна быть предметная ориентированность, теории, ориентированные на решение практических задач.

— А почему, на ваш взгляд, не удается у нас создать такую экосистему?

— В первую очередь это упирается в экспертизу. Когда государство выступает как заказчик, лица, принимающие решения, не обязаны знать нюансы, но они могут сформулировать, что стратегически важно для страны. Однако превратить эту интенцию в задачу могут только эксперты. Поэтому должно быть некоторое экспертное сообщество, которое может оценивать, что «взлетит», что «не взлетит». Хватит ресурсов, не хватит ресурсов. Подход работоспособен или неработоспособен. Итак, первое: нужно превратить интенцию в проблему. Второе: разложить проблему на конкретные задачи. Вот это разложение должны делать профессионалы.

Когда государство выступает как заказчик, лица, принимающие решения, не обязаны знать нюансы, но они могут сформулировать, что стратегически важно для страны. Однако превратить эту интенцию в задачу могут только эксперты

Поэтому нужна экспертная среда — необходимая составляющая успешной работы. Дальше нужно знать научно-технические группы — чемпионы в таких проблемах, чтобы подтянуть их и после экспертирования их предложений выбрать два-три по каждому направлению, чтобы была конкуренция. И тогда запустить к ним поисковый прикладной НИР. Если у них идет хорошо, дать еще немного денег, чтобы они могли в первую стадию ОКР войти и сделать прототип решения. Что такое прототип решения? Это когда функциональность есть, есть эффект масштабируемости и по функциям, и по производительности, и полностью идентифицированы риски масштабирования. Вдобавок к этому есть выбранные механизмы эффективного управления рисками, для того чтобы, если я сделал этот прототип, дальше индустриальный партнер делает из этого индустриальный софт, если речь идет о софте, а я вас сопровождаю в части управления рисками. И тогда, если на этой технологии прототипирования риски есть, но они локализованы, вы эффективно управляете как рисками разработки, так и рисками бюджета.

Темы: Наука и технологии