В конкурентной борьбе за рынок искусственного интеллекта, долгое время доминируемый компанией Nvidia, появляется новый серьезный игрок. Компания Cerebras Systems, известная своими гигантскими чипами для обучения ИИ, совершает стратегический маневр, нацелившись на смежную и стремительно растущую область — инференс, то есть выполнение уже обученных моделей. Этот шаг может изменить расстановку сил в критически важном для технологической индустрии сегменте.
Атака на крепость Nvidia: стратегия Cerebras
До недавнего времени Cerebras позиционировала себя исключительно как поставщик решений для обучения сложных нейросетевых моделей, предлагая системы на базе своих рекордных по размеру чипов Wafer Scale Engine (WSE). Однако обучение модели — это лишь первая часть жизненного цикла ИИ. Гораздо более массовой и финансово значимой является фаза инференса, когда модель используется для предсказаний на реальных данных — от генерации текста и изображений до анализа медицинских снимков. Именно этот рынок, оцениваемый в миллиарды долларов, прочно удерживает Nvidia благодаря своей архитектуре графических процессоров (GPU) и оптимизированному под них программному стеку CUDA.
Cerebras заявляет, что ее новая платформа для инференса, основанная на чипах WSE-3, предлагает принципиально иной подход. Вместо использования множества небольших GPU, которые необходимо объединять в сложные кластеры для работы с крупными моделями, Cerebras использует один огромный чип. По данным компании, это позволяет разместить модель целиком в памяти одного процессора, исключая задержки и сложности, связанные с коммуникацией между десятками или сотнями отдельных устройств. Ключевым аргументом Cerebras является не только производительность, но и снижение совокупной стоимости владения. Компания утверждает, что ее система способна обслуживать модели размером в десятки и сотни миллиардов параметров с меньшими затратами на электроэнергию и упрощенной инфраструктурой по сравнению с кластерами на GPU Nvidia.
Технические детали и первые результаты
Флагманский чип Cerebras WSE-3, представленный в марте 2024 года, является техническим чудом. Он изготовлен по 5-нм техпроцессу и содержит 4 триллиона транзисторов на кремниевой пластине площадью 46 225 квадратных миллиметров. Для сравнения, самый крупный GPU Nvidia H200 имеет площадь 814 квадратных миллиметров. WSE-3 оснащен 900 000 вычислительных ядер, оптимизированных для работы с разреженными вычислениями, характерными для инференса, и 44 гигабайтами сверхбыстрой памяти на чипе.
Компания уже представила первые тестовые данные, сравнивающие свою систему CS-3 с кластерами на GPU. В частности, при инференсе модели Llama 3.1 с 405 миллиардами параметров одна система CS-3, по заявлению Cerebras, демонстрирует пропускную способность, эквивалентную кластеру из 358 GPU Nvidia H100, потребляя при этом в семь раз меньше энергии. Важно отметить, что эти цифры опубликованы самой Cerebras и требуют независимой верификации. Тем не менее, они указывают на потенциальный прорыв в эффективности. Первыми клиентами новой платформы стали несколько крупных организаций, включая Национальную лабораторию им. Лоуренса в Ливерморе и компанию G42 из ОАЭ, которые будут использовать системы для научных исследований и развертывания больших языковых моделей.
Программное обеспечение как ключевой фактор
Исторически сильнейшим конкурентным преимуществом Nvidia была не столько аппаратная часть, сколько экосистема программного обеспечения, в первую очередь платформа CUDA. Она стала отраслевым стандартом, на котором построено подавляющее большинство фреймворков для машинного обучения. Cerebras осознает эту проблему и делает ставку на максимальную простоту миграции для разработчиков. Ее программный стек поддерживает популярные фреймворки, такие как PyTorch и TensorFlow, позволяя, по утверждениям компании, перенести модель, написанную для GPU, на свою аппаратуру с минимальными изменениями в коде. Успех этого подхода будет напрямую влиять на готовность рынка принять новую архитектуру.
Контекст рынка и вызов монополии
Рынок аппаратного обеспечения для ИИ переживает беспрецедентный бум, движимый распространением генеративных моделей. По данным аналитиков, сегмент инференса растет даже быстрее, чем сегмент обучения, так как развертывание моделей требует гораздо большего количества вычислительных ресурсов в глобальном масштабе. Nvidia контролирует, по разным оценкам, от 80% до 95% этого рынка, что дает ей огромное влияние на цены, доступность и направления технологического развития. Такая концентрация вызывает растущее беспокойство как среди крупных потребителей (например, облачных провайдеров и технологических гигантов), так и на государственном уровне, стимулируя поиск альтернатив.
Cerebras — не единственная компания, пытающаяся бросить вызов Nvidia. На арене также присутствуют игроки, предлагающие другие архитектуры: Groq с акцентом на процессоры с логической матрицей (LPU), SambaNova Systems, Graphcore и ряд старта
Таким образом, стратегический выход Cerebras Systems на рынок инференса представляет собой одну из наиболее серьезных попыток расшатать устоявшуюся монополию Nvidia. Успех этой инициативы будет зависеть не только от подтверждения заявленных преимуществ в производительности и энергоэффективности на практике, но и от способности компании преодолеть инерцию рынка, сформированную вокруг экосистемы CUDA. Если Cerebras удастся обеспечить действительно бесшовную миграцию для разработчиков и убедить крупных заказчиков в долгосрочной выгоде своего подхода, это может положить начало новой, более конкурентной и диверсифицированной эре в обеспечении вычислительными мощностями для искусственного интеллекта.