Молодой китайский стартап DeepSeek 20 января представил новую большую модель искусственного интеллекта R1, которая, по мнению многих экспертов, может стать «моментом спутника» (Sputnik moment) для всей индустрии ИИ.
К моменту закрытия американских рынков в понедельник 27 января котировки акций Nvidia упали на 17% (118,42 доллара после 142,62 доллара по итогам торгов в пятницу 24 января). Это привело к рекордному суточному снижению рыночной капитализации компании — на 589 млрд долларов (по текущим оценкам Barron’s, она упала до 2,9 трлн долларов, хотя в начале торгов 28 января котировки снова привычно пошли вверх).
Масла в биржевой огонь (помимо собственно того факта, что новая китайская модель за первую неделю тестирования рядовыми пользователями по всему миру убедительно продемонстрировала свои возможности на равных конкурировать с главными американскими аналогами — ChatGPT, Llama, Claude, Gemini и пр., — а по ряду направлений даже превосходить их), подлили и соцсети, по которым прокатилась мощная волна язвительных публикаций, предсказывающих мрачное будущее Nvidia и иже с нею.
Следует также отметить крайне необычную реакцию на эту «китайскую бомбу» в большинстве просмотренных нами обзоров ведущих западных СМИ.
Практически все они честно признают высокую значимость достигнутого DeepSeek прорыва (а равно и высокое качество представленного им продукта) и дружно задают один и тот же сакраментальный вопрос: а стоила ли овчинка выделки? То есть насколько оправданным было вбухивание техногигантами Кремниевой долины миллиардов долларов в безудержное наращивание аппаратной составляющей пресловутой ИИ-революции (строительство центров обработки данных и прочей инфраструктуры)?
«Через не хочу» успех внезапно выскочившего, как чертик из табакерки, нового конкурента ChatGPT и Ко был вынужден признать даже Сэм Альтман, глава OpenAI
Так, в статье ведущего техноколумниста The New York Times Кевина Руза от 28 января констатируется, что «даже если обучение R1 обошлось в десять раз дороже, чем утверждает DeepSeek (китайская компания заявляет, что потратила обучение своей модели весьма скромную сумму — 6 млн долларов. — “Стимул”), и даже если учесть другие расходы, которые они могли исключить, такие как зарплата инженеров или финансирование фундаментальных исследований, это все равно будет на порядки меньше, чем затраты американских компаний, занимающихся искусственным интеллектом, на разработку своих самых мощных моделей… прорыв DeepSeek в области затрат бросает вызов принципу “чем больше, тем лучше”, который стимулировал гонку вооружений ИИ в последние годы… и означает, что компании, занимающиеся ИИ, могут получить очень мощные возможности при гораздо меньших инвестициях, чем считалось ранее».
Кевин Роуз уверен (и с ним согласны многие другие западные аналитики), что результаты, достигнутые DeepSeek, — это свидетельство того, что Китай, несмотря на жесткие экспортные ограничения США по части поставок критически важных технологий аппаратного и программного обеспечения, уже «обладает передовыми возможностями в сфере ИИ-технологий, которые могут соответствовать моделям OpenAI и других американских компаний, занимающихся ИИ, или превосходить их».
«Через не хочу» успех внезапно выскочившего, как чертик из табакерки, нового конкурента вынужден признать даже Сэм Альтман, глава OpenAI (разработчика ChatGPT), который заявил: «DeepSeek R1 — впечатляющая модель, особенно с точки зрения соотношения результата и стоимости. Мы, разумеется, выпустим гораздо лучшие модели, а появление нового конкурента реально нас воодушевляет».
Ну и, наконец, на «подарок» из Поднебесной отреагировал и сам новый-старый президент США, который всего неделю назад, 21 января, с большой помпой анонсировал ИИ-мегапроект Stargate, продвигаемый прежде всего компанией OpenAI. В экспресс-интервью журналистам на борту самолета Air Force One Дональд Трамп назвал появление DeepSeek R1 «тревожным звонком» для американской технологической индустрии, но оптимистично предположил, что в итоге это может оказать «положительный эффект» для США: «Если вы можете сделать это дешевле, если вы можете сделать это за меньшие деньги и достичь того же конечного результата, то, я думаю, это хорошо и для нас».
Пока можно с уверенностью сказать, что представленный мало кому до этого известным стартапом из Ханчжоу (полное название произведшей всеобщий фурор компании — Hangzhou DeepSeek Artificial Intelligence Co., Ltd.) новый ИИ-продукт стал хорошим подарком прежде всего для китайского руководства.
Бесплатное приложение DeepSeek AI Assistant (уточним, что оно доступно и для граждан РФ) уже возглавляет текущие рейтинги по общему числу скачиваний в магазинах AppStore в Китае, США и Великобритании, а еще в ряде стран мира (в том числе в Германии, Франции, Турции, Нидерландах и Японии) оно входит в пятерку самых популярных.
Отметим также, что новая модель DeepSeek выпущена, в отличие от того же ChatGPT, с открытым исходным кодом, что способствовало хорошему реноме компании в сообществе разработчиков технологий ИИ.
И, как отмечается в обзоре издания Wired, большой успех DeepSeek, помимо всего прочего, «свидетельствует о непредвиденном эффекте холодной войны между США и Китаем в области передовых технологий. Экспортный контроль США серьезно ограничил способность китайских технологических фирм конкурировать в области искусственного интеллекта “западным способом”, то есть бесконечно расширяться, покупая все больше чипов и долго обучая модели… Но своим последним релизом DeepSeek доказывает, что есть и другой путь к победе: пересмотр фундаментальной структуры моделей ИИ и более эффективное использование ограниченных ресурсов».
По словам Лян Вэньфэна, когда он собирал исследовательскую группу DeepSeek, он не искал опытных инженеров для создания продукта, ориентированного на потребителя, а сосредоточился на аспирантах из ведущих университетов Китая
В этом же обзоре приводятся комментарии доцента Технологического университета Сиднея Марины Чжан, специализирующейся на анализе китайских инновационных технологий. Она отметила, что «в отличие от многих китайских компаний, занимающихся искусственным интеллектом, которые в значительной степени полагаются на доступ к передовому оборудованию, DeepSeek сосредоточилась на максимальной программной оптимизации ресурсов». DeepSeek также пришлось придумать более эффективные методы обучения своих моделей, используя целый комплекс инженерных ухищрений: специальные схемы связи между чипами, уменьшение размера полей для экономии памяти и инновационное использование новой архитектуры.
Как рассказал «Стимулу» руководитель отдела исследований компании — национального чемпиона «Антиплагиат», доцент кафедры интеллектуальных систем МФТИ Андрей Грабовой, «основная особенность этой новой модели DeepSeek связана с тем, что у них получилось очень сильно сэкономить по сравнению с той же ChatGPT. Давайте будем сравнивать это с открытыми источниками, например с Llama3 от Meta (компания признана террористической и запрещена в РФ. — “Стимул”). У них обеих соизмеримые параметры, порядка 600 миллиардов. Но из-за того, что DeepSeek использует новую архитектуру, в которой оптимизированы так называемые Multi-head Latent Attention (MLA, “многоголовое латентное внимание”) и Mixture-of-Experts (“экспертная смесь”), в которой они фильтруют данные для обучения — они активно обучают только 10 процентов всех параметров. Соответственно, им нужно меньше ресурсов. Если Llama 3 обучалась на 300 тысячах видеокарт, то им понадобилось всего 10 тысяч, причем меньшей мощности».
Другой интересный момент, который, впрочем, пока вызывает в экспертной среде определенные сомнения, — заявленное самой компанией использование «старых» видеокарт Nvidia A100 (а не более продвинутых чипов H100).
И тут стоит кратко остановиться на истории появления DeepSeek. Она была создана всего два года назад, в 2023-м, богатым предпринимателем — основателем китайского квантового хедж-фонда High-Flyer Лян Вэньфэном. Лян, имеющий степень магистра компьютерных наук, после восьми лет руководства этим хедж-фондом, ставшим одним из самых успешных в КНР (квантовые хедж-фонды используют количественный анализ, традиционные фонды — фундаментальный) решил вложить ресурсы фонда в новую компанию, которая будет создавать собственные передовые модели ИИ.
Причем, как рассказал сам Лян в одном из интервью местным СМИ, когда он собирал исследовательскую группу DeepSeek, он не искал опытных инженеров для создания продукта, ориентированного на потребителя, а сосредоточился на аспирантах из ведущих университетов Китая, включая Пекинский университет и Университет Цинхуа, которые стремились проявить себя. «Наши основные технические должности в основном занимают люди, окончившие учебу в этом году или в последние год-два», — сказал Лян изданию 36Kr. Такая смелая стратегия найма помогла создать корпоративную культуру сотрудничества, в которой люди могли свободно использовать ограниченные вычислительные ресурсы (а на начальном этапе сотрудники компании располагали лишь вышеупомянутыми 10 тысячами видеокарт Nvidia A100) для реализации оригинальных исследовательских проектов.
Стартап DeepSeek — одна из немногих ведущих компаний в области искусственного интеллекта в Китае, которая не полагается на финансирование технологических гигантов Поднебесной — Baidu, Alibaba, Tencent и ByteDance
Весьма показательно также, что стартап DeepSeek — одна из немногих ведущих компаний в области искусственного интеллекта в Китае, которая не полагается на финансирование технологических гигантов Поднебесной — Baidu, Alibaba, Tencent и ByteDance.
И, как отметил Андрей Грабовой, «можно, по крайней мере, утверждать, что все формальные заявления DeepSeek вполне подкрепляются реальными тестами на различных специализированных бенчмарках для моделей ИИ. В частности, по метрикам, которые сам DeepSeek заявил в своих опубликованных статьях, в том числе в целом по естественным языкам (английскому, китайскому), по простым вопросам, они соизмеримы с показателями основных конкурентов. Но, что особенно интересно, при этом они показывают огромное превосходство в решении математических задач и составлении программного кодинга».
Причем все эти результаты получены всего за два года планомерных исследований: «Первая работа у них была опубликована в 2023 году, по обучению многих маленьких специализированных моделей, которые потом используются в большой; затем вышла статья в начале 2024 года, где они еще улучшили эту модель, DeepSeek V2. И сейчас они представили последнюю модель, DeepSeek V3, которую успешно дообучили при помощи алгоритмов OpenAI».
Темы: Инновации