Наука и технологии 17 октября 2024

LegNet — чемпион!

Команда победителей международных соревнований по машинному обучению DREAM 2022 по применению искусственного интеллекта в биологии создала новую модульную нейросеть для предсказания активности генов
LegNet — чемпион!
Модель LegNet заняла первое место в конкурсе, обогнав конкурентов как в общем зачете, так и во всех отдельных номинациях
CNIO

Для победы в международных соревнованиях DREAM 2022 авторы применили методы глубокого обучения и выявили сложные связи между последовательностями ДНК и уровнем активности генов. Вместе с организаторами призеры соревнования провели исчерпывающий анализ решений, созданных в ходе конкурса, чтобы определить наиболее эффективный комбинированный подход.

Эта работа открывает новые возможности для ученых и биотехнологов в решении задач синтетической биологии и генной терапии, в том числе дает возможность конструировать искусственные последовательности, определяющие активность генов.

Грамматика регуляторного кода

Расшифровка механизмов, управляющих активностью генов, остается одной из ключевых проблем современной молекулярной биологии и генетики. Например, до сих пор не до конца ясна «грамматика» регуляторных районов ДНК, включающих или выключающих гены в различных условиях.

Прогресс в этой области исследователи связывают с развитием высокопроизводительных экспериментальных методов, генерирующих большие объемы данных, и методов искусственного интеллекта, позволяющих обобщать такие данные и выделять в них сложные закономерности.

За счет этого становится возможной детальная расшифровка «правил грамматики» — структуры регуляторного кода, управляющего работой генов. В перспективе это позволит улучшить раннюю диагностику сложных заболеваний на основе индивидуальной последовательности генома пациента и разработать новые, более эффективные и безопасные подходы генной терапии.

magnifier.png Традиционные методы статистического анализа плохо справляются с выявлением сложных связей и зависимостей в нуклеотидных «текстах»

Пока же вычислительное предсказание того, как определенные последовательности ДНК влияют на экспрессию (активность работы) генов, остается непростой задачей. Даже на базовом уровне на синтез РНК при прочтении гена совместно влияет множество факторов, в том числе комбинаторные взаимодействия белков с ДНК и другими молекулами внутри клетки. Традиционные методы статистического анализа плохо справляются с выявлением сложных связей и зависимостей в нуклеотидных «текстах». Чтобы решить эту проблему, ученые обратились к использованию методов искусственного интеллекта, в частности глубокого обучения. Эти подходы позволяют анализировать огромные объемы данных и учитывать сложные контекст-специфичные взаимодействия регуляторных белков — факторов транскрипции и других механизмов. 

«Используемые сейчас в геномике нейросети недостаточно оптимизированы под задачи предметной области. Используются либо слишком простые и устаревшие архитектуры и методы их обучения, игнорирующие современные достижения в области, либо, наоборот, лишь недавно разработанные архитектуры, оптимизированные для решения узких задач компьютерного зрения и обработки естественных языков и плохо учитывающие особенности геномного текста. Мы продвигаем идею, что для анализа управляющих областей генома лучше всего подходят компактные сверточные нейросети с современными оптимизациями. Мы разработали полносверточную архитектуру LegNet на основе сети EfficientNetV2, знаменитой минимализмом и вычислительной эффективностью. Для этой архитектуры мы подобрали правильный режим обучения и внимательно отнеслись к природе данных — совокупно это позволило далеко оторваться от конкурирующих решений. В ходе дальнейшего анализа удалось показать, что использование нашего подхода к обучению модели значительно улучшает и работу методов, предложенных другими участниками», — рассказал Дмитрий Пензар, преподаватель факультета биоинженерии и биоинформатики МГУ.


penzar-dd.jpg
Преподаватель факультета биоинженерии и биоинформатики МГУ Дмитрий Пензар
teach-in.ru

Нашу разработку превзойти не удалось

Нейросеть LegNet была разработана российскими учеными для предсказания экспрессии генов по регуляторным последовательностям ДНК во время участия в конкурсе DREAM 2022. В состав команды из России вошли студенты и преподаватели МГУ и академических институтов, включая Институт белка РАН (Пущино) и Институт общей генетики им. Н. И. Вавилова РАН (Москва). 

Нейросеть обучали на большом массиве данных, содержащем миллионы коротких последовательностей промоторов — некодирующих участков, управляющих началом синтеза матричной РНК с последовательности ДНК гена. Месяцы интенсивной работы позволили найти оптимальное решение для всего спектра задач конкурса.

magnifier.png Выяснилось, что определенные сборки из конструктора — различные комбинации модулей — действительно помогают в решении конкретных задач по анализу регуляторных районов генома, хотя в изначальной задаче конкурса превзойти российскую разработку LegNet так и не удалось

Модель LegNet заняла первое место в конкурсе, обогнав конкурентов как в общем зачете, так и во всех отдельных номинациях, включая оценку эффектов однонуклеотидных мутаций, что особенно важно с точки зрения перспектив использования таких нейросетей в персонализированной медицине.

После подведения итогов конкурса авторам лучших решений из России, Южной Кореи и США совместно с канадскими организаторами потребовалось два года чтобы провести детальный анализ результатов. Каждую из предложенных нейросетей разобрали на отдельные блоки, изолировали ключевые идеи по обучению моделей и подготовке данных и собрали различные комбинации из элементов решений различных участников. Выяснилось, что определенные сборки из конструктора — различные комбинации модулей — действительно помогают в решении конкретных задач по анализу регуляторных районов генома, хотя в изначальной задаче конкурса превзойти российскую разработку LegNet так и не удалось.

Результаты исследования опубликованы в престижном журнале Nature Biotechnology.

По материалам пресс-службы МГУ 

Еще по теме:
21.03.2025
Фундаментальный вопрос относительно искусственного интеллекта сегодня заключается в том, станет ли он самостоятельным, б...
19.03.2025
Томский государственный университет систем управления и радиоэлектроники (ТУСУР) получил патент на систему автом...
17.03.2025
Предрасположенность к бегу на короткие дистанции связали с вариантом гена GALNT13. Он почти в три раза чаще встречается ...
14.03.2025
15 марта родился нобелевский лауреат Жорес Алферов. О том, чем и как живет его школа, и о ее главном качестве — вере в т...
Наверх