Среда 28 ноября 2023

ИИ просит железа

Для решения все более сложных задач искусственному интеллекту нужны все более мощные суперкомпьютеры

РСК ЦОД для HPC/AI построен на базе кластерной архитектуры «РСК Торнадо» с применением ряда уникальных собственных разработок компании РСК

rscgroup.ru

В своем выступлении на конференции AI Journey, прошедшей в Москве на минувшей неделе и посвященной искусственному интеллекту, президент России Владимир Путин обратил внимание правительства на то, что «действующие мощности российских суперкомпьютеров следует, конечно же, нарастить не менее чем на порядок. Это критически необходимо для дальнейшего развития генеративного искусственного интеллекта».

Возможности, которые дает применение искусственного интеллекта в различных областях человеческой деятельности, от науки до искусства, в последнее время стали притчей во языцех. Однако далеко не все понимают, что во многом эти возможности определяются не только программным обеспечением, но и технической базой, на которой оно установлено.

Мы встретились с руководителями группы компаний РСК (компания — национальный чемпион) — ведущего российского разработчика и производителя суперкомпьютеров, предназначенных, в частности, для высокопроизводительных вычислений и для машинного/глубокого обучения (High-Performance Computing, Machine Learning / Deep Learning) — генеральным директором и сооснователем компании Александром Московским и исполнительным директором и сооснователем компании Алексеем Шмелевым. Мы решили обсудить связь возможностей вычислительной системы и возможностей искусственного интеллекта.

Генеральный директор и сооснователь компании Александр Московский

rscgroup.ru

Как пояснили наши собеседники, искусственный интеллект — понятие на самом деле достаточно широкое и в разные исторические эпохи оно имело разные оттенки смысла. И конечно, не существует искусственного интеллекта вне вычислительной техники, практически все его воплощения используют ее для реализации алгоритмов, которые, собственно говоря, и есть искусственный интеллект. Поэтому роль вычислительной техники в данном случае ключевая. Устройство для открытия квартиры по отпечатку пальца тоже можно считать искусственным интеллектом, но очевидно, что суперкомпьютера в дверном замке нет. Но если под словосочетанием «искусственный интеллект» мы понимаем те высшие технологические достижения, которые сейчас всех будоражат, вроде нейросети ChatGPT, то в основе их работы лежат очень мощные вычислительные системы. Речь идет о сотнях петаопераций (10¹⁵) в секунду. И это уже уровень суперкомпьютера. Задачи, которые решает ChatGPT, на настольном компьютере выполнить невозможно.

Александр Московский: Методы машинного обучения сейчас переживают новый расцвет в связи с двумя факторами. Во-первых, накоплено очень много данных именно в цифровом виде, во-вторых, появились вычислительные мощности, способные все эти объемы перерабатывать. Ключевая разработка, ознаменовавшая сегодняшний взрыв возможностей искусственного интеллекта, — это AlexNet, нейронная сеть для классификации изображений. Интересно, что успех работы во многом обусловлен тем, что разработчики приспособили видеокарты для геймеров, которым важно качество картинки и скорость обработки изображений, для того же искусственного интеллекта и получили за счет этого новое качество в обучении.

Алексей Шмелев: Искусственный интеллект в ходе решения задач проходит две стадии. Первая — это обучение нейросети (от английского learning). Это тяжелая вычислительная задача, и это самая долгая фаза создания системы на базе искусственного интеллекта. Вторая фаза — это собственно эксплуатация этой нейросети, когда она выдает готовые ответы. Она называется «получение результата», то есть вывод (inference). Эта фаза более легкая с точки зрения объема вычислений, хотя все равно в сложных местах она требует достаточно больших вычислительных ресурсов. И требования к архитектуре в момент обучения и в момент «инференса» несколько отличаются. Поэтому требуется найти такую аппаратную архитектуру, которая совмещала бы плюсы и одного, и другого.

Причем чем точнее вам нужен ответ, тем больше вычислительных ресурсов и тем более полное обучение нейросети необходимы. Качество работы нейросети фундаментально зависит от качества и количества данных, на которых ее обучают. Чем больше обучающих примеров для нейросети будет обработано ею, тем точнее она будет работать впоследствии. Правда, не все понимают, что, по сути, нет механизма верификации ответа нейросети. То есть в выданный ею ответ можно только верить или не верить.

Например, очень популярная тема — использование нейросетевого подхода для решения дифференциальных уравнений, особенно решения обратных задач. Это нужно для управления системой в режиме реального времени, когда времени для честного математического решения просто нет. И вы можете только довериться ИИ.

Простейший пример. Зная параметры помещения, вы можете определить температуру в этой комнате, решая дифференциальное уравнение. Но обладая определенным опытом, вы можете сказать: «Сейчас, по моим ощущениям, температура в комнате градусов 26–28». Но вот проверить вас можно, только просчитав или измерив температуру физически. А если ни то ни другое недоступно, можно либо поверить, либо не поверить. Больше ничего не остается. То же самое с искусственным интеллектом.

А. М.: При этом не существует оптимального типа суперкомпьютера, необходимого для решения задач ИИ. Требования к вычислительной системе сильно зависят от того, какие модели используются. Есть несколько подходов к их выбору, но столбовая дорога — когда мы используем массово распространенные графические процессоры. Те, например, что продает компания Nvidia. В нашей стране яркий пример суперкомпьютера, построенного на этом подходе, — это системы Christofari и Christofari Neo в Сбере, созданные на базе стандартных вычислительных модулей Nvidia. И у самой Nvidia тоже есть очень большая суперкомпьютерная система, которая входит в первую десятку по мировому рейтингу.

Исполнительный директор и сооснователь компании Алексей Шмелев

rscgroup.ru

Но можно пытаться создавать и свою специализированную архитектуру, и по этому пути идут некоторые большие корпорации. Например, Google создает свои ускорители для машинного обучения — Tensor Processing Unit (TPU). Там используют свой формат представления чисел с плавающей точкой bf16, и они в эту сторону развиваются. И Google не единственный пример. Небольших компаний, работающих в том же направлении, десятки и даже сотни. Например, Tesla Илон Маска тоже разрабатывает свою архитектуру микропроцессора, ориентированного под решение задач машинного обучения для автономных автомобилей.

А. Ш.: Если мы говорим о разработках в области аппаратной части в России, то есть российские процессоры, которые ориентированы на решение задач искусственного интеллекта. Это, например, разработки компаний «Модуль» и ЭЛВИС. Что касается вычислительных систем для искусственного интеллекта, то тут можно говорить о разработках РСК. Мы их уже поставляем нашим заказчикам. И у нас есть немало примеров их успешного применения. То есть с аппаратной частью в России все не так уж плохо. С точки зрения программного обеспечения абсолютное большинство приложений, необходимых для искусственного интеллекта, создано на базе открытого кода, то есть является свободно распространяемым ПО.

Проблема создания систем на базе ИИ в России другого свойства: у небольших компаний, которым интересно развивать это направление, есть проблема с доступом к суперкомпьютерным ресурсам для решения их задач. Да, есть очень мощные системы, стоящие, например, в Сбере или в «Яндексе». Но если небольшая научная группа, скажем где-нибудь в новосибирском Академгородке, занимается нейросетями, то у нее могут быть проблемы с получением вычислительных ресурсов для решения своих задач. То есть в России, скорее, вопрос не в пиковых достижениях в области суперкомпьютеростроения, а в доступности достаточно мощных вычислительных машин для небольших научных групп, не имеющих большого финансирования. Но на уровне ответа на вопрос, умеем или не умеем мы это делать, ответ: «Да, умеем».

Темы: Среда